Capitulo 1 Descriptiva LLinás

Contenido
1 Estadı́stica descriptiva 3
1.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 ¿Qué significa estadı́stica? . . . . . . . . . . . . . . . . . . . . 4
1.1.2 ¿Por qué usted necesita conocer estadı́stica? . . . . . . . . . . . 5
1.1.3 Algunas aplicaciones de la estadı́stica . . . . . . . . . . . . . . 5
1.1.4 Los computadores, la calculadora y la estadı́stica . . . . . . . . 7
1.1.5 Términos comúnmente usados en estadı́stica . . . . . . . . . . . 8
1.1.6 Estadı́sticas descriptiva e inferencial . . . . . . . . . . . . . . . 9
1.2 Organización de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.1 Organización de datos de acuerdo al tipo . . . . . . . . . . . . 11
1.2.2 Organización de datos de acuerdo a escalas de medidas . . . . . 12
1.2.3 Organización de datos mediante tablas . . . . . . . . . . . . . . 13
1.2.4 Organización de datos mediante representaciones gráficas . . . . 22
1.3 Análisis de datos en tablas de frecuencias no agrupadas . . . . . . . . . 32
1.3.1 Medidas de tendencia central o de centralización . . . . . . . . 33
1.3.2 Medidas de colocación o de posición relativa . . . . . . . . . . . 40
1.3.3 Medidas de dispersión o de variabilidad . . . . . . . . . . . . . 42
1.3.4 Medidas de formas . . . . . . . . . . . . . . . . . . . . . . . . 53
1.4 Análisis de datos en tablas de frecuencias agrupadas . . . . . . . . . . . 61
1.5 Análisis exploratorio de datos . . . . . . . . . . . . . . . . . . . . . . . 67
1.5.1 Resumen de cinco números . . . . . . . . . . . . . . . . . . . . 67
1.5.2 Diagrama de caja y bigotes . . . . . . . . . . . . . . . . . . . . 69
1.6 Uso de Statgraphics en la estadı́stica descriptiva . . . . . . . . . . . . . 73
1.6.1 Análisis de un solo conjunto de datos . . . . . . . . . . . . . . 73
1.6.2 Análisis simultáneo de dos o más conjuntos de datos . . . . . . 79
1.7 Uso de la calculadora en la estadı́stica . . . . . . . . . . . . . . . . . . 83
✍ Ejercicios complementarios . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Contenido 2
Respuestas a ejercicios impares seleccionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

CAPÍTULO 1
Estadı́stica descriptiva
Contenido
1.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 ¿Qué significa estadı́stica? . . . . . . . . . . . . . . . . . . . 4
1.1.2 ¿Por qué usted necesita conocer estadı́stica? . . . . . . . . . 5
1.1.3 Algunas aplicaciones de la estadı́stica . . . . . . . . . . . . 5
1.1.4 Los computadores, la calculadora y la estadı́stica . . . . . . 7
1.1.5 Términos comúnmente usados en estadı́stica . . . . . . . . 8
1.1.6 Estadı́sticas descriptiva e inferencial . . . . . . . . . . . . . 9
1.2 Organización de datos . . . . . . . . . . . . . . . . . . . . . 11
1.2.1 Organización de datos de acuerdo al tipo . . . . . . . . . . 11
1.2.2 Organización de datos de acuerdo a escalas de medidas . . 12
1.2.3 Organización de datos mediante tablas . . . . . . . . . . . . 13
1.2.4 Organización de datos mediante representaciones gráficas . 22
1.3 Análisis de datos en tablas de frecuencias no agrupadas 32
1.3.1 Medidas de tendencia central o de centralización . . . . . . 33
1.3.2 Medidas de colocación o de posición relativa . . . . . . . . . 40
1.3.3 Medidas de dispersión o de variabilidad . . . . . . . . . . . 42
1.3.4 Medidas de formas . . . . . . . . . . . . . . . . . . . . . . . 53
1.4 Análisis de datos en tablas de frecuencias agrupadas . . 61
1.5 Análisis exploratorio de datos . . . . . . . . . . . . . . . . 67
1.5.1 Resumen de cinco números . . . . . . . . . . . . . . . . . . 67
1.5.2 Diagrama de caja y bigotes . . . . . . . . . . . . . . . . . . 69
1.6 Uso de Statgraphics en la estadı́stica descriptiva . . . . 73
1.6.1 Análisis de un solo conjunto de datos . . . . . . . . . . . . . 73
1.6.2 Análisis simultáneo de dos o más conjuntos de datos . . . . 79
1.7 Uso de la calculadora en la estadı́stica . . . . . . . . . . . 83
✍ Ejercicios complementarios . . . . . . . . . . . . . . . . . . . 85
1.1 Introducción 4
☞ Objetivos del capı́tulo

1. Presentar una visión amplia sobre el campo de estudio de la estadı́stica y sus aplica-
ciones.
2. Distinguir entre estadı́stica descriptiva e inferencial.
3. Estudiar los tipos de datos.
4. Mostrar cómo organizar datos.
5. Construir tablas y gráficas para datos numéricos y categóricos.
6. Describir las medidas de tendencia central, de posición relativa, de variación y de
forma de los datos numéricos.
7. Describir las técnicas para realizar un análisis exploratorio de datos.
8. Presentar aplicaciones del uso de Statgraphics y de la calculadora en la estadı́stica.
☞ Empleo de la estadı́stica
≪La directora de producción de una empresa debe informar a su superior sobre
el número de dı́as promedio que los empleados de la empresa se ausentan del tra-
bajo. Sin embargo, la planta emplea más de dos mil trabajadores, y la directora de
producción no tiene tiempo de revisar los registros personales de cada empleado.
Como asistente usted debe decidir cómo puede ella obtener la información nece-
saria. ¿Qué consejo podrı́a darle?≫
1.1 Introducción
1.1.1 ¿Qué significa estadı́stica?
En la vida diaria los diversos fenómenos de orden económico, social, polı́tico, educa-
cional, e incluso biológico, aparecen, se transforman y finalmente desaparecen. Para
tan abundante y complejo material es preciso tener un registro ordenado y continuo a
fin de conseguir en un momento dado los datos necesarios para un estudio de lo que
ha sucedido, sucede o puede suceder. Para ello se requiere contar con un método, con
un conjunto de reglas o principios, que nos permita la observación, el ordenamiento, la
cuantificación y el análisis de dichos fenómenos.
En general, el término estadı́stica tiene tres acepciones gramaticales perfectamente

definidas:
1. Estadı́stica, en su acepción más común, no es más que una colección de datos
numéricos ordenados y clasificados según un determinado criterio. Nos referimos
a este significado cuando hablamos de estadı́sticas de producción, estadı́sticas de
cotizaciones bursátiles, estadı́sticas demográficas, etc.
2. Estadı́stica, en una segunda acepción, es la ciencia que, utilizando como ins-
trumento a las matemáticas y al cálculo de probabilidades, estudia las leyes de
comportamiento de aquellos fenómenos que, no estando sometidos a las leyes
fı́sicas y basándose en ellas predice e infiere resultados. El término estadı́stica
matemática viene a ser el nombre propio de esta acepción.
3. Finalmente, estadı́stica, significa en su última acepción, la técnica o método

cientı́fico usado para recolectar, organizar, resumir, presentar, análizar, interpretar,
generalizar y contrastar los resultados de las observaciones de los fenómenos reales.
Se considera fundador de la estadı́stica a Godofredo Achenwall (1719-1772;53),

profesor y económista alemán quien, siendo profesor de la universidad de Leipzig (Ale-
mania), escribió sobre el descubrimiento de una nueva ciencia que llamó estadı́stica (pa-
labra derivada del término alemán “Staat” que significa “estado”) y que definió como
“el conocimiento profundo de la situación respectiva y comparativa de cada estado”.
Achenwall y sus seguidores estructuraron los métodos estadı́sticos que se orientaron
a investigar, medir y comparar las riquezas de las naciones. Lo anterior no significa que,
antes de los estudios de G. Achenwall, los estados no hubiesen efectuado inventarios
de sus riquezas. Estos inventarios se efectuaron desde la antigüedad. Se sabe que 2.000
a 2.500 años antes de Cristo, los inventarios que efectuaron los chinos y los egipcios
eran muy elementales.
1.1.2 ¿Por qué usted necesita conocer estadı́stica?

En general, el problema que enfrentan las compañı́as e industrias no es la escasez de
información, sino cómo utilizar la información disponible para tomar las decisiones más
adecuadas. Por esta razón, desde la perspectiva de una toma de decisiones informada,
cabe preguntarse por qué un ingeniero, un administrador y un economista necesita saber
estadı́stica. Para dar respuesta a esta inquietud podemos decir que éstos deben com-
prender la estadı́stica, básicamente, por tres razones fundamentales:
1. Presentar y describir la información en forma adecuada.
2. Inferir conclusiones sobre poblaciones grandes basándose solamente en la infor-

mación obtenida de subconjuntos de ellas.
3. Utilizar modelos para obtener pronósticos confiables.
En el diagrama de la figura 1.1 se presenta un esquema general de las rutas que sugeri-
mos tomar desde la perspectiva de estas tres razones para aprender estadı́stica. En este
esquema se observa que para tener en cuenta la primera razón, se abordan los métodos
referentes a la recopilación, descripción y presentación de la información (que corres-
ponde al capı́tulo 1 de nuestro texto). Para la segunda razón, necesitaremos desarrollar
los conceptos de distribuciones muestrales, estimación y pruebas de hipótesis. Debido
a que estos temas no hacen parte de los objetivos de este texto, sólo se desarrollarán
los conceptos básicos de probabilidad (capı́tulo 2) y algunas distribuciones (capı́tulos 3,
4 y 5), temas que sirven como base para desarrollar lo expresado en la segunda razón.
Para la tercera razón, sugerimos realizar el enfoque al análisis de regresión, modelado
y análisis de series de tiempo que proporcionan métodos para hacer pronósticos (temas
que tampoco tratamos en este texto).
1.1.3 Algunas aplicaciones de la estadı́stica

En esta sección presentaremos ejemplos que ilustran algunas de las aplicaciones de la
estadı́stica en la ingenierı́a, en la administración y en la economı́a.
Fig. 1.1: Mapa de rutas del texto
Ingenierı́a
La importancia de la estadı́stica en la ingenierı́a ha sido subrayada por la participación
de la industria en el aumento de la calidad. Muchas empresas se han dado cuenta de
que la baja calidad de un producto (ya sea en la forma de defectos de fabricación, en
una baja confiabilidad en su rendimiento, o en ambos), tiene un efecto muy pronunciado
en la productividad global de la compañı́a, en el mercado y la posición competitiva y,
finalmente, en la rentabilidad de la empresa. Mejorar estos aspectos de la calidad puede
eliminar el desperdicio; disminuir la cantidad de material de desecho, la necesidad de
volver a maquilar las piezas, los requerimientos para inspección y prueba y las pérdidas
por garantı́a. Además de mejorar la satisfacción del consumidor y permitir que la empresa
se convierta en un productor de alta calidad y bajo costo en el mercado. En este sentido,
la estadı́stica es un elemento decisivo en el incremento de la calidad, ya que las técnicas
estadı́sticas pueden emplearse para describir y comprender la variabilidad.1
Contabilidad
Las empresas de contadurı́a pública emplean procedimientos estadı́sticos de muestreo
para llevar a cabo auditorı́as a sus clientes. Por ejemplo, supongamos que una empresa
de contadores desea determinar si la cantidad que aparece en las cuentas por cobrar, en el
balance de un cliente, representa fielmente la cantidad real de ese rubro. Normalmente,
la cantidad de cuentas individuales por cobrar es tan grande que serı́a demasiado lento y
costoso revisar y validar cada cuenta. En casos como éste, regularmente se acostumbra
que el personal del auditor seleccione un subconjunto de las cuentas (llamado muestra).
1
La variabilidad es el resultado de cambios en las condiciones bajo las que se hacen la observa-
ciones.
Después de revisar la exactitud de las cuentas muestreadas, los auditores llegan a una
conclusión acerca de si la cantidad que aparece en cuentas por cobrar, en los estados
financieros de sus cliente, es aceptable.
Finanzas
Los asesores financieros recurren a una gama de información estadı́stica para guiarse
en sus recomendaciones de inversión. En el caso de las acciones, revisan una variedad
de datos financieros, que incluyen relaciones de precio a rendimiento y los dividendos.
Al comparar la información de determinadas acciones con la correspondiente acerca
de promedios del mercado accionario, un asesor financiero puede comenzar a sacar
conclusiones sobre si esas acciones están sobre o subevaluadas.
Mercadotecnia
Los escáners en las cajas de los almacenes al detalle se emplean para reunir datos que
tienen muchas aplicaciones de investigación de mercados.
Producción
Con el énfasis actual hacia la calidad, el control de calidad es una aplicación importante
de la estadı́stica en la producción. Para vigilar el resultado de un proceso de producción
se emplean diversas gráficas de control estadı́stico de calidad, en especial, se usa una
gráfica para vigilar el promedio de un producto. Por ejemplo, supongamos que una
máquina llena envases con 12 onzas de una bebida muy conocida. Periódicamente
se selecciona una muestra de envases y se le determina su contenido promedio. Este
promedio, o valor x, se anota en una gráfica, a partir de la cual se observa si es necesario
ajustar o corregir el proceso de producción.
Economı́a
Con frecuencia se pide a los economistas su pronóstico acerca del futuro de la economı́a
o de alguno de sus aspectos. Recurren a diversas informaciones estadı́sticas para ela-
borarlo. Ası́, para pronosticar las tasas de inflación usan indicadores como el ı́ndice de
precios al productor, la tasa de desempleo y la ocupación de la capacidad de producción.
Muchas veces, esos indicadores estadı́sticos se introducen en modelos computarizados
de pronóstico, cuyo resultado son predicciones sobre las tasas de inflación.
1.1.4 Los computadores, la calculadora y la estadı́stica

El computador se ha convertido en una herramienta importante en la presentación y el
análisis de datos. Si bien muchas técnicas estadı́sticas sólo necesitan una calculadora de
mano, cuyo empleo consume mucho tiempo y esfuerzo, el computador realiza las tareas
con mucha eficiencia.
La mayor parte del análisis estadı́stico se realiza utilizando una biblioteca de progra-
mas estadı́sticos. El usuario introduce los datos y luego selecciona los tipos de análisis
y la presentación de los resultados que le interesan. Los paquetes estadı́sticos están
disponibles para grandes sistemas de cómputo y para computadores personales. Entre

los paquetes más utilizados están SAS (Statistical Analysis System), SPSS (Statisti-
cal Package for Social Sciencies), Statgraphics e, inclusive, Excel. En la sección 1.6
explicaremos cómo utilizar Statgraphics en la estadı́stica y en la 1.7, cómo emplear la
calculadora para hacer cálculos estadı́sticos.
1.1.5 Términos comúnmente usados en estadı́stica
Definición 1.1.1 Una población es el conjunto total de objetos que son de in-
terés para un problema dado. Los objetos pueden ser personas, animales, producto
fabricados, etc. Cada uno de ellos recibe el nombre de elemento o individuo de
la población
Ejemplo 1.1.2 Todos los niños nacidos en determinado año pueden constituir una población.
Si el director de una gran empresa manufacturera desea estudiar la producción de todas
las plantas de propiedad de la firma, entonces, la producción de todas estas plantas es la
población. ◭
Definición 1.1.3 Una muestra es un subconjunto de la población.
Ejemplo 1.1.4 Si todos los niños nacidos en determinado año constituyen una población,
entonces, los niños nacidos en el mes de febrero pueden constituir una muestra. ◭
Definición 1.1.5 Los datos u observaciones son números o denominaciones

que podemos asignar a un individuo o elemento de la población.
Ejemplo 1.1.6 Son ejemplos de datos: la edad de una persona, la respuesta a la pregunta
“¿Usted fuma?”, el tipo de sangre, el salario mensual de una trabajador, etc. ◭
Definición 1.1.7 Un parámetro es cualquier caracterı́stica medible de una

población.
Ejemplo 1.1.8 El ingreso promedio de todos los trabajadores de una determinada empresa
es un ejemplo de parámetro, si todos los trabajadores se consideran como una población. ◭
Definición 1.1.9 Un estadı́stico es cualquier caracterı́stica medible de una mues-

tra.
Ejemplo 1.1.10 El ingreso promedio de todos los asalariados de una determinada sección
de la empresa (viendo a los trabajadores de ésta como una muestra de todos los trabajadores
de esta empresa) es un ejemplo de estadı́stico. ◭
Definición 1.1.11 Un censo (palabra derivada del latı́n “ censere” que significa
valuar o tasar) es una enumeración completa de la población.
Ejemplo 1.1.12 Según el censo llevado a cabo por el DANE (Departamento Administra-
tivo Nacional de Estadı́stica), en 1.993 Colombia tenı́a 33.109.840 habitantes, de los cuales
16.296.539 eran hombres y 16.813.301, mujeres. ◭
1.1.6 Estadı́sticas descriptiva e inferencial

Los procedimientos y análisis que aparecen en estadı́stica caen en dos categorı́as gene-
rales, estadı́stica descriptiva (o deductiva) y estadı́stica inferencial (o inductiva), depen-
diendo del propósito del estudio.
Definición 1.1.13 La estadı́stica descriptiva comprende aquellos métodos que

incluyen técnicas para recolectar, presentar, analizar e interpretar datos.
En general, la estadı́stica descriptiva tiene como función el manejo de los datos recopila-
dos en cuanto se refiere a su ordenación y presentación, para poner en evidencia ciertas
caracterı́sticas en la forma que sea más objetiva y útil. En este sentido, investiga los
métodos y procedimientos y establece reglas para que el manejo de los datos sea más
eficiente y para que la información entregada resulte confiable, y exprese correctamente
ciertos contenidos en un lenguaje que permita que cualquier persona los comprenda y
pueda establecer comparaciones.
Ejemplo 1.1.14 Las siguientes situaciones utilizan estadı́stica descriptiva:

(a) A un empresario le interesa determinar el promedio semanal total de sus gastos en
algunos productos durante un tiempo determinado.
(b) Una entidad quiere calcular la proporción de colombianos encuestados que están a
favor de determinado candidato polı́tico. ◭
Definición 1.1.15 La estadı́stica inferencial abarca aquellos métodos y con-

juntos de técnicas que se utilizan para obtener conclusiones sobre las leyes de com-
portamiento de una población basándose en los datos de muestras tomadas de esa
población.
Ejemplo 1.1.16 Las situaciones siguientes, que son paralelas a las situaciones descriptivas
dadas anteriormente, requieren estadı́stica inferencial:
(a) Con base en una muestra de estudiantes, cierta universidad desea determinar el por-
centaje de estudiantes que fuman.
(b) Con base en una encuesta de opinión, al polı́tico le gustarı́a calcular la oportunidad
de reelegirse en las próximas elecciones. ◭
Definición 1.1.17 Las técnicas y métodos utilizados por la ciencia estadı́stica,

tanto en su parte descriptiva como en la parte inferencial son los llamados métodos
estadı́sticos.
✍ Ejercicios de la sección 1.1

1. Describa una posible muestra de tamaño 5 de cada una de las siguientes poblaciones:
(a) Todos los periódicos publicados en Colombia.
(b) Todas las empresas importantes de Colombia.
(c) Todos los estudiantes de su curso.
(d) Todos los promedios de calificaciones de los alumnos de su universidad.
2. Una revista publica datos sobre la clasificación de las 300 corporaciones industriales más
grandes de un pais, en términos de ventas y utilidades. En la tabla 1.1 vemos datos acerca
de una muestra de estas 300 compañı́as.
(a) ¿Cuántos elementos hay en este conjunto de datos?
(b) ¿Cuál es la población?
(c) Calcule las ventas anuales en la muestra.
(d) Con el resultado del inciso (c), ¿cuál es la estimación de las ventas promedio para la
población?
Ventas Utilidades Código del ramo

Compañı́a ($ millones) ($ millones) industrial
Todo Confort 38.420 2.586,0 12
Alles klar 20.847 5.157,0 15
Ramos del Caribe 8.071 234,0 2
Sofort 3.075 212,2 22
Express 8.092 168,7 48
El único 10.272 1.427,0 8
Integer 8.588 213,3 11
Good 6.371 49,7 10
Pueblo City 9.844 580,0 19
Report Info 6.454 87,0 19
Tabla 1.1: Muestra de 10 empresas que publica una revista
3. Una empresa desea probar la eficacia de un nuevo comercial de televisión. Como parte
de la prueba, el comercial se pasa a las 8:30 p.m. en un programa de noticias locales
en cierta ciudad. Tres dı́as después, una empresa de investigación de mercado lleva a
cabo una encuesta telefónica para obtener información sobre la frecuencia de recuerdos
(procentaje de los telespectadores que recuerdan haber visto el comercial) y las impresiones
del comercial.
(a) ¿Cuál son la población y la muestra para este estudio?
1.2 Organización de datos 11
(b) ¿Por qué se necesita usar una muestra en este caso? Explique su respuesta.
4. El señor Marimón, candidato a alcalde de un pueblo pequeño, quiere determinar si debe
hacer una campaña más fuerte contra su oponente. Para ello entrevistará a 300 de los
1, 700 votantes registrados. Si los resultados indican que tiene 35% más votos que su
oponente, no intensificar sus esfuerzos de campaña contra su rival.
(a) Identifique la población, la muestra, un estadı́stico y un parámetro.
(b) ¿Qué harı́a el señor Marimón si tuviera el 75% de los votos de la muestra?
5. Se estableció que el costo promedio de los textos escolares en un colegio pequeño durante
el ultimo año fue de $ 354.400, con base en una inscripción de 1.500 estudiantes. Como
un trabajo de clase en el colegio, un grupo de estadı́stica encuestó a 30 estudiantes para
determinar el promedio del costo de un libro de texto en el último año y se concluyó que
fue de $ 399.700.
(a) Identifique la población, la muestra, los parámetros y dos estadı́sticos.
(b) ¿Qué podrı́a concluir el grupo de estadı́stica si el costo promedio de un libro para la
muestra de 30 estudiantes fuera de $ 1.050.000?
1.2 Organización de datos

Nosotros estudiaremos cuatro formas de organizar los datos, a saber, por el tipo de dato,
de acuerdo a escalas de medidas, mediante tablas y mediante representaciones gráficas.
1.2.1 Organización de datos de acuerdo al tipo

Como se ilustra en la figura 1.2, existen dos tipos de datos: categóricos (o cualitativos)
y numéricos (cuantitativos).
Fig. 1.2: Tipos de datos
1. Los datos categóricos o cualitativos representan categorı́as o atributos

(como, por ejemplo, sı́ o no) que pueden clasificarse como un criterio o cualidad.
2. Los datos numéricos o cuantitativos producen respuestas numéricas como
el peso en kilogramos o el número de universidades que hay en la Costa Atlántica.
Estos datos son de dos tipos: dicretos y continuos.
• Los datos discretos producen respuestas numéricas que surgen de un

conteo. Ejemplos de datos discretos son la cantidad de universidades que hay
en la Costa Atlántica, el número de estudiantes en la Universidad del Norte
en 2.003, la cantidad de hermanos que tiene un determinado estudiante de
administración, el número de personas en una fila, etc.
• Los datos continuos producen respuestas numéricas que surgen de un
proceso de medición, donde la caracterı́stica de que se mide puede tomar
cualquier valor numérico en un intervalo. Ejemplos datos continuos son el
peso (en kilogramos) de una persona, su estatura (en metros), el tiempo que
usted tarda en llegar a la Universidad del Norte, etc.
1.2.2 Organización de datos de acuerdo a escalas de medidas

Los datos también se pueden clasificar según la escala de medición o el procedimiento
que los generó. Cuatro tipos de escalas de medición usados en estadı́stica son las escalas
nominal, ordinal, de intervalo y de razón.
Datos de nivel nominal

Un dato nominal se crea cuando se utilizan nombres para establecer categorı́as con la
condición de que cada dato pertenezca única y exclusivamente a una de estas categorı́as.
Existen escalas nominales tanto para los datos numéricos como categóricos. Una escala
nominal para datos numéricos asigna números a las categorı́as. Por ejemplo, entre los
datos numéricos que son nominales se incluyen los números en las camisetas deportivas,
los números telefónicos, etc.
Una escala nominal para datos categóricos es un agrupamiento no ordenado de los

datos en categorı́as discretas, donde cada dato puede incluirse solamente en uno de los
grupos. Por ejemplo, los datos nominales que son cualitativos incluyen el género, la
raza, el tipo de sangre y la religión.
Datos de nivel ordinal

Los datos medidos en una escala nominal ordenada de alguna manera se denominan
datos ordinales. Una escala ordinal coloca las medidas en categorı́as, cada una de
las cuales indica un nivel distinto respecto a un atributo que se está midiendo. La lista
de datos ordinales comprende:
1. Clasificaciones por letra: A, B, C y D; estos grados indican categorı́as de perfec-

cionamiento, ası́ como los niveles alcanzados.
2. Rangos académicos: Doctor, magister, especialista y licenciado.
3. La evaluación de un maestro: insuficiente, aceptable, bueno y excelente.
4. Los grados de la escuela: primero, segundo, tercero, etc.
No es posible determinar la diferencia o distancia entre los valores medidos en una escala
ordinal. Aun cuando codifiquemos las letras A como 4, B como 3, C como 2 y D como
1, esto no quiere decir que con A, el estudiante sabe el doble que un estudiante con C.
Todo lo que podemos decir es que la calificación A es mejor o de un grado superior a la
de C, ya que una escala ordinal no admite unidad de distancia.
Datos de nivel de intervalo

Los datos medidos en una escala ordinal para los cuales pueden clasificarse las distancias
entre valores, se llaman datos de intervalos. La distancia entre dos valores es
importante y los datos de intervalo son numéricos por necesidad; una escala de intervalo
no siempre tiene un punto cero (es decir, un punto que indique la ausencia de lo que se
quiere medir). La lista de datos de intervalo comprenden:
1. Puntajes en las pruebas de inteligencia. Un puntaje de inteligencia de 110 es cinco

puntos superior a uno de 105 (datos ordinales). En este caso, no sólo podemos
decir que un puntaje de 110 es superior a uno de 105, sino que también podemos
decir que es cinco puntos más alto; pero no podemos decir que una persona con
un puntaje de inteligencia de 180 es doblemente inteligente que una persona que
tiene uno de 90.
2. Temperaturas Celsius. Una temperatura Celsius de 80◦ es 40◦ más caliente que
una de 40, pero no es correcto decir que 80◦ es el doble de caliente que 40◦ .
Nótese también que una temperatura de 0 no representa la ausencia de calor. El
punto cero en la escala de temperatura Celsius fue escogido arbitrariamente como
el punto de congelamiento e indica que está presente algo de calor.
3. Fechas. Brian LLinás nació en Mainz (Alemania) en el año 2000, 31 años después
de su padre, el Dr. rer. nat Humberto LLinás (1969). Podemos especificar la
distancia entre estos dos sucesos ordenados, 31 años, pero si existiera el año cero,
no representarı́a la ausencia de tiempo.
Datos de nivel de razón

Los datos medidos en una escala de intervalo con un punto cero que significa “ninguno”,
se llaman datos de razón. Con datos medidos en una escala de razón, podemos de-
terminar cuántas veces es mayor una medida que otra. Las escalas de razón incluyen
salarios, unidades de producción, peso, altura, etc. El dinero nos da una buena ilus-
tración. Si usted tiene cero pesos, entonces, no tiene dinero. El peso es otro ejemplo.
Si la aguja marca cero en la escala, entonces, hay una completa ausencia de peso (sin
importar si se utiliza distintas escalas de razón como kilogramos, gramos o libras). Las
escalas de razón también incluyen escalas usadas comúnmente para medir unidades como
pies, libras, centı́metros, etc. Los resultados de contar objetos también son datos de
razón como, por ejemplo, diez peras es el doble que cinco.
1.2.3 Organización de datos mediante tablas

En esta forma de organización de datos es importante el concepto de frecuencia de un
dato.
Definición 1.2.1 La frecuencia (absoluta) de un dato, simbolizado con la letra

f, es el número de veces que aparece ese dato en una colección de datos.
Ejemplo 1.2.2 En el conjunto de datos 4 5 5 3 2 6 7 7 7 2, el cuatro sólo aparece una vez

(por lo tanto, tiene frecuencia f = 1), el cinco aparece dos veces (o sea, frecuencia f = 2), el
7 tiene frecuencia f = 3, etc. ◭
Existen dos tipos generales de tablas para reportar datos usando frecuencias, éstas son:
tablas de frecuencias no agrupadas y tablas de frecuencias agrupadas. Ambas tablas se
mencionan simplemente como tablas de frecuencia.2
Tabla de frecuencias no agrupadas

Son aquéllas en donde cada dato tiene la frecuencia correspondiente. Los datos que
organizados en tablas de frecuencias no agrupadas se denominan usualmente datos no
agrupados.
Ejemplo 1.2.3 La tabla de frecuencias (no agrupada) para el conjunto de datos 3 5 7 6 4

3 7 6 6 7 5 7 es
Dato 3 4 5 6 7
Frecuencia 2 1 2 3 4
◭
Tabla de frecuencias agrupadas

Otra posibilidad de organizar datos es agruparlos en intervalos (llamados intervalos
de clase o, simplemente, clases) y determinar la llamada frecuencia de clase
de cada clase, es decir, el total de datos que hay en cada clase. Posteriormente, las
clases y las frecuencias de clase se ubican en una tabla que llamaremos tabla de fre-
cuencias agrupadas . Los datos que organizados en tablas de frecuencias agrupadas
se denominan generalmente datos agrupados.
Ejemplo 1.2.4 La tabla 1.2 es un ejemplo de una tabla de frecuencias agrupada y 10-14 y
15-19 son ejemplos de clases. En ella se presentan las distribuciones de frecuencia para los
datos de tiempo de auditorı́as de fin de año.
Tiempo de auditorı́a (dı́as) Frecuencia

10 - 14 4
15 - 19 8
20 - 24 5
25 - 29 2
30 - 34 1
Tabla 1.2: Distribución de frecuencias para los datos de tiempo de auditorı́a ◭
2
En vez del término “tablas de frecuencia” se utiliza a menudo “distribución de frecuencias”.
Las clases de frecuencias agrupadas poseen lo que se llama lı́mites de clase. Consi-
deremos la tabla 1.2. En la clase 10-14, a 10 se le llama lı́mite inferior de clase y
a 14, lı́mite superior de clase. La distancia entre cualquiera de dos lı́mites supe-
riores consecutivos o entre cualquiera de dos lı́mites inferiores consecutivos es llamada
amplitud de clase. La amplitud de cada clase en la tabla 1.2 es 5.
Cada clase en una tabla de frecuencia tiene lı́mites de clases teóricos llamados lı́mites
reales de clase o frontera de clase (término que utilizaremos en el texto). Al
lı́mite superior teórico se le llama frontera superior de clase (o lı́mite real
superior de clase) y al lı́mite inferior teórico de clase se le llama frontera infe-
rior de clase (o lı́mite real inferior de clase). En general, para una clase
dada, cualquier frontera se calcula de la siguiente manera:
lı́mite inf. de la clase dada + lı́mite sup. de la clase anterior
Frontera inferior = .
2
Observemos que la frontera inferior de una clase siempre conincide con la frontera supe-
rior de la clase superior. Por ejemplo, para los datos de la tabla 1.2, la frontera inferior
para la tercera clase es 19,5 (que es la misma frontera superior de la segunda clase) y la
frontera superior para esa misma clase es 24,5 (que es la misma frontera inferior de la
quinta clase). Todas estas fronteras aparecen ya calculadas en la segunda columna de
la tabla 1.3.
Tiempo de auditorı́a (dı́as) Fronteras inferior - superior Frecuencia
10 - 14 9,5 - 14,5 4
15 - 19 14,5 - 19,5 8
20 - 24 19,5 - 24,5 5
25 - 29 24,5 - 29,5 2
30 - 34 29,5 - 34,5 1
Tabla 1.3: Distribución de frecuencias para los datos de tiempo de auditorı́a ◭
El punto medio de cada clase se denomina marca de clase. Es decir, para una clase
dada, la marca de clase se encuentra usando la fórmula
frontera inferior de clase + frontera superior de clase
Marca de clase = .
2
Sugerencias para construir una tabla de frecuencias agrupadas

Para construir cualquier tabla de frecuencias agrupadas debe tenerse en cuenta los si-
guientes comentarios:
1. En la realidad, se acostumbra siempre a agrupar los datos en clases en donde los

extremos de la clase son las respectivas fronteras, en vez de los lı́mites de clase.
De ahora en adelante, nosotros lo haremos siempre ası́.
2. Para mayor comodidad en el proceso de construcción de las clases, acordaremos
que la primera clase debe contener por lo menos el dato menor (en la realidad,
esto no siempre es ası́).
3. Las clases deben ser mutuamente excluyentes, es decir, cada dato debe quedar
exactamente en una sola clase, no en dos al mismo tiempo.
4. Para mayor comodidad en el proceso de construcción de las clases, acordaremos

que todas las clases deben tener la misma amplitud (en la realidad, esto no siempre
es ası́).
Determinación de la amplitud de clase. Para determinar la amplitud de clase en

cualquier tabla de frecuencias agrupadas, réstense dos lı́mites superiores de clases
consecutivos o dos lı́mites inferiores de clases consecutivos, o dos fronteras infe-
riores consecutivas, o dos fronteras superiores consecutivas, o réstese la frontera
inferior de una clase de la frontera inferior superior de dicha clase.
5. Mientras menos clases escojamos será más fácil el trabajo, pero se perderá más
información. Debido a que no hay un acuerdo general entre los estadı́sticos acerca
del número de clases que debe usarse y dado que la elección es arbitraria, para
nuestros fines, escogeremos entre 5 y 20. Una sugerencia útil para el número de
clases está dado por la regla de Sturges.
Regla de Sturges. La regla de Sturges establece como número de clases

necesario, aproximadamente
c = 3, 3(log n) + 1,
donde n es el número de medidas y log n es el logaritmo de n en base 10. El

valor de c es común redondearlo al entero más cercano.
Otra regla razonable para el número de clases es

√
c = n.
6. Luego, determinar el rango R, que es la diferencia entre las medidas mayor y

menor.
7. Posteriormente la amplitud de clase w se encuentra como se muestra en el si-

guiente recuadro.
Amplitud de clase. La amplitud de clase w se determina calculando el cociente

entre el rango R y el número de clases c. Es decir,
R
Amplitud de clase w = .
c
El valor de w es común redondearlo al entero siguiente.
8. El dato menor debe caer en la primera clase. Por esta razón, el lı́mite inferior de la
primera clase debe estar en, o un poco antes de, el dato menor. Ası́ que podemos
establecer un acuerdo general sobre las clases de nuestras tablas de frecuencias
agrupadas, empezando siempre la primera clase con la frontera inferior teniendo

en cuenta que el lı́mite inferior coincide con el dato menor. Cuando hacemos esto,
el valor mı́nimo que puede tomar la amplitud de clase se determina redondeando
a w al siguiente valor entero.
Ejemplo 1.2.5 (Primer modelo: Los datos son enteros) Construya una tabla de fre-
cuencias agrupadas considerando los siguientes datos.
14 21 23 21 16 19 22 25 16 16 24 24 25 19
16 19 18 19 21 12 16 17 18 23 25 20 23 16
20 19 24 28 15 22 24 20 22 24 22 20
SOLUCION:
Paso 1. Primero determinamos el rango R. Como la medida mayor es 28 y la menor es 12,
entonces, el rango es
R = 28 − 12 = 16.
Paso 2. El ejemplo no nos dice con cuantas clases debemos construir la tabla de frecuencias
agrupadas. Podemos seleccionar esta cantidad arbitrariamente (entre 5 y 20) o aplicar
la regla de Sturges (que es la que utilizaremos). Como tenemos n = 40 datos, la regla
de Sturges sugiere usar c = 6 clases, porque el número de clase es
c = (3, 3) log 40 + 1 = (3, 3)(1, 60) + 1 = 6, 2867 ≈ 6.
donde ≈ significa “aproximadamente igual

√ que”. Observemos que con la otra regla se
obtiene el mismo resultado porque c = 40 = 6, 324 ≈ 6.
Paso 3. Ahora, determinamos w, la amplitud de cada clase. En este caso,
R 16
w = = = 2, 666.
c 6
Como la unidad de precisión para los datos es 1, escogemos el mı́nimo entero mayor
que 2,666 como el valor de la amplitud. En este caso, el mı́nimo entero mayor que
2,666 es 3. Por lo tanto, w = 3.
Paso 4. A continuación se construye la primera clase con un ancho de w = 3. Para ello,
primero, tenemos que encontrar las fronteras inferior y superior de esta clase. Como
la unidad de medida es 1 (porque todos los datos son enteros) y como el “punto medio”
de cada unidad de medida es
Unidad de medida 1
Punto medio de cada unidad de medida = = = 0, 5,
2 2
entonces, en este caso, la frontera inferior de la primera clase la hallaremos ası́:
Front. inf. de primera clase = dato menor − punto medio de unidad de medida
= 12 − 0, 5 = 11, 5.
Es decir, la frontera superior de la primera clase es 11,5. Como la amplitud es w = 3,

entonces, la frontera superior será
Frontera superior = frontera inferior + amplitud = 11, 5 + 3 = 14, 5.
En consecuencia, la primera clase resulta ser el intervalo 11,5 - 14,5.

Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta que
la frontera inferior de la clase precedente coincide con la frontera superior de la clase
anterior y que la amplitud del intervalo es w = 3. De esta forma, las seis clases
resultan ser las siguientes:
Clase 1: 11,5 - 14,5

Clase 2: 14,5 - 17,5 (Observe: 17, 5 = 14, 5 + 3)
Clase 3: 17,5 - 20,5 (Observe: 20, 5 = 17, 5 + 3)
Clase 4: 20,5 - 23,5 (Observe: 23, 5 = 20, 5 + 3)
Clase 5: 23,5 - 26,5 (Observe: 26, 5 = 23, 5 + 3)
Clase 6: 26,5 - 29,5 (Observe: 29, 5 = 26, 5 + 3)
Paso 6. Para determinar la frecuencia de cada clase usamos una columna de marcas de cuenta.
Si uno de los datos cae en una clase, anotamos una marca (|) en la columna corre-
spondiente a esa clase. La tabla 1.4 contiene la tabla de frecuencias agrupadas para
los 40 datos dados.
Clase Cuenta Frecuencia

11,5 - 14,5 || 2
14,5 - 17,5 ||||| ||| 8
17,5 - 20,5 ||||| ||||| | 11
20,5 - 23,5 ||||| ||||| 10
23,5 - 26,5 ||||| ||| 8
26,5 - 29,5 | 1
Tabla 1.4: Tabla de frecuencia agrupada con 6 clases para 40 datos ◭
Ejemplo 1.2.6 (Segundo modelo: Datos con un solo lugar decimal) Forme una dis-
tribución de frecuencias considerando los siguientes datos:
8,9 10,2 11,5 7,8 10,0 12,2 13,5 14,1 10,0 12,2
6,8 9,5 11,5 11,2 14,9 7,5 10,0 6,0 15,8 11,5
SOLUCION:
Paso 1. Como la medida mayor es 15,8 y la menor es 6,0, entonces, el rango es
R = 15, 8 − 6, 0 = 9, 8.
Paso 2. Ya que tenemos n = 20 datos, entonces, por la regla de Sturges debemos usar c = 5
clases, porque el número de clase es
c = (3, 3) log 20 + 1 = (3, 3)(1, 30) + 1 = 5, 2933 ≈ 5.
donde ≈ significa “aproximadamente igual que”.

Paso 3. Ahora, determinamos w, la amplitud de cada clase. En este caso,
R 9, 8
w = = = 1, 96.
c 5
El mı́nimo entero mayor que 1,96 es 2. Por lo tanto, w = 2.

Paso 4. Como la unidad de medida es 0,1 (por tener los datos un sólo lugar decimal) y como
el “punto medio” de cada unidad de medida es
Unidad de medida 0, 1
2 2
entonces, la frontera inferior de la primera clase es
Frontera inferior = dato menor − 0, 05 = 6, 0 − 0, 05 = 5, 95
y la frontera superior será
En consecuencia, la primera clase es 5,95 - 7,95.

Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta que
la frontera inferior de la clase precedente coincide con la frontera superior de la clase
anterior y que la amplitud del intervalo es w = 2. De esta forma, las seis clases
resultan ser las siguientes:
Clase 1: 5,95 - 7,95
Clase 2: 7,95 - 9,95 (Observe: 9, 95 = 7, 95 + 2)
Clase 3: 9,95 - 11,95 (Observe: 11, 95 = 9, 95 + 2)
Clase 4: 11,95 - 13,95
Clase 5: 13,95 - 15,95
Paso 6. Para determinar la frecuencia de cada clase usamos una columna de marcas de cuenta.
Si uno de los datos cae en una clase, anotamos una marca (|) en la columna correspon-
diente a esa clase. La tabla 1.5 contiene la tabla de frecuencias agrupadas para los 20
datos dados. Además, allı́ también aparecen las marcas de clase X correspondientes
a cada clase. Por ejemplo, la primera marca de clase se calcula ası́:
6, 0 + 7, 9
X= = 6, 95.
2
Cada marca de clase sucesiva se encuentra sumando w = 2 a la marca anterior.
Clase Cuenta Frecuencia Marcas de clase X

5,95 - 7,95 |||| 4 6,95
7,95 - 9,95 || 2 8,95
9,95 - 11,95 ||||| ||| 8 10,95
11,95 - 13,95 ||| 3 12,95
13,95 - 15,95 ||| 3 14,95
Ejemplo 1.2.7 (Tercer modelo: Datos con dos lugares decimales) Forme una dis-
tribución de frecuencias considerando los siguientes datos:
39,78 28,30 28,31 17,95 44,47 46,65 31,47 33,45 29,17

48,39 82,71 43,63 41,17 47,32 52,16 25,94 50,32 35,25
35,70 17,89 60,20 48,14 22,78 38,22 23,25
SOLUCION:
Paso 1. El rango es R = 82, 71 − 17, 89 = 64, 82.
Paso 2. Aplicando la regla de Sturges, obtenemos que el número de clase es
c = (3, 3) log 25 + 1 = (3, 3)(1, 3979) + 1 = 5, 613 ≈ 6.

√
Observemos que con la otra regla se obtiene c = 25 = 5. Es decir, podemos construir
la tabla con 5 o con 6 clases. Escogeremos c = 6.
R
Paso 3. Como c = 6 y R = 64, 82, entonces, w = c = 10, 803. El mı́nimo entero mayor que
10,803 es 11. Por lo tanto, w = 11.
Paso 4. Como la unidad de medida es 0,01 (por tener los datos dos lugares decimales) y como
como el “punto medio” de cada unidad de medida es
Unidad de medida 0, 01
2 2
entonces, la frontera inferior de la primera clase es
Frontera inferior = dato menor − 0, 005 = 17, 89 − 0, 005 = 17, 885
y la frontera superior
En consecuencia, la primera clase es 17,885 - 28,885.

Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta
que la frontera inferior de la clase precedente coincide con la frontera superior de la
clase anterior y que la amplitud del intervalo es w = 11. De esta forma, las seis
clases son como se muestran en la tabla 1.6. Allı́, tabién aparecen las marcas de clase
correspondientes a cada clase.
Clase Cuenta Frecuencia Marcas de clase X

17,885 - 28,885 ||||| || 7 23,385
28,885 - 39,885 ||||| || 7 34,385
39,885 - 50,885 ||||| ||| 8 45,385
50,885 - 61,885 || 2 56,385
61,885 - 72,885 0 67,385
72,885 - 83,885 | 1 78,385
Tabla de frecuencia relativas, de frecuencias acumuladas y de frecuencias

relativas acumuladas
Son tablas de frecuencias agrupadas o no agrupadas en donde adicionalmente aparecen
las frecuencias relativas, las frecuencias acumuladas y/o las frecuencias acumuladas
relativas.
Definición 1.2.8 (a) La frecuencia relativa de un dato o de una clase se en-

cuentra dividiendo la frecuencia de dicho dato (o de la clase) entre el total de
datos. Entonces, a la tabla se le llama tabla de frecuencias relativas.
(b) La frecuencia acumulada de cualquier dato o clase, es la suma de la fre-

cuencia de ese mismo dato o clase con las frecuencias de todos los demás datos o
clases anteriores. A la tabla se le llama tabla de frecuencias acumuladas.
(c) La frecuencia relativa acumulada de un dato o de una clase se obtiene

dividiendo la frecuencia acumulada del dato o de la clase por el número total de
datos. A la tabla que contiene a estas frecuencias se les denomina tabla de
frecuencias relativas acumuladas.
Ejemplo 1.2.9 En la tabla 1.7 se muestra la tabla de frecuencias relativas, de frecuencias

acumuladas y de frecuencias acumuladas relativas para los 40 datos del ejemplo 1.2.5.
Clase Frec. Frec. rel. Frec. acum. Frec. rel. acum.

11,5 - 12,5 2 2/40 = 0,05 ≈ 5% 2 2/40 = 0,05
12,5 - 15,5 8 8/40 = 0,20 ≈ 20% 10 (= 8+2) 10/40 = 0,25
15,5 - 18,5 11 11/40 = 0,275 ≈ 27,5% 21 (= 11+10) 21/40 = 0,525
18,5 - 21,5 10 10/40 = 0,25 ≈ 25% 31 (= 21+10) 31/40 = 0,775
21,5 - 24,5 8 8/40 = 0,32 ≈ 32% 39 (= 8+31) 39/40 = 0,975
24,5 - 27,5 1 1/40 = 0,025 ≈ 2,5% 40 (= 1+39) 40/ 40 = 1,0
Tabla 1.7: Tabla de frecuencias relativas, de frecuencias acumuladas y de frecuencias

relativas acumuladas con 6 clases para las datos del ejemplo 1.2.5. ◭
Tablas bivariadas
Una tabla de frecuencias bivariadas es un arreglo de datos clasificados en dos
categorı́as con sus respectivas frecuencias. Las categorı́as pueden ser números discretos,
intervalos numéricos o valores cualitativos como género, color de cabello o religión.
Ejemplo 1.2.10 Una encuesta sobre el deporte preferido tuvo los resultados en hombres y
mujeres que se muestran en la siguiente tabla bivariada.
Deporte preferido
Béisbol Básquetbol Fútbol Total
Hombres 19 15 24 58
Mujeres 16 18 16 50
Total 35 33 40 108
La información que sigue, entre otras, puede leerse fácilmente de la tabla:

(a) Se han encuestado en total a 108 personas.
(b) Hay 19 hombres que juegan beisbol.

(c) Hay 40 personas que juegan fútbol.
(d) Hubo 50 mujeres entrevistadas. ◭
1.2.4 Organización de datos mediante representaciones gráficas

Hay gráficas de varios tipos, entre los cuales se encuentran los siguientes: el diagrama
circular o de pastel, el pictograma, el diagrama de barras, el diagrama de caja y bigote,
el histograma, el polı́gono (de frecuencia o de frecuencias relativas), la ojiva (o polı́gono
de frecuencias acumuladas o polı́gono de frecuencias relativas acumuladas) y el diagrama
de tallo y hojas. Discuteremos cada uno de ellos con excepción del diagrama de caja y
bigotes, que se introducirá en la sección 1.5.2.
Diagramas circulares (o de pastel)

Estos diagramas se utilizan para hacer representaciones porcentuales y se utilizan gene-
ralmente para datos categóricos.
Ejemplo 1.2.11 La siguiente tabla presenta los datos sobre la cantidad de refrescos de
marca A, B, C, D y E que se vendieron en una tienda.
Refresco Frecuencia Frecuencia relativa

A 19 0,38
B 8 0,16
C 5 0,10
D 13 0,26
E 5 0,10
Esta información se puede presentar a través de un diagrama circular como el que se muestra
en la figura 1.3.
Fig. 1.3: Diagrama de pastel sobre compras de refresco
Para trazarlo se dibuja primero un cı́rculo. A continuación, con las frecuencias relativas, se
divide el cı́rculo en sectores o partes que corresponden a la frecuencia relativa de cada clase.
Por ejemplo, como hay 360 grados en un cı́rculo, y como el refresco A tiene 0,38 de frecuencia
relativa, el sector del diagrama circular que le corresponde debe tener (0,38)(360)=136,8
grados. Se efectúan cálculos semejantes para las demás clases, obteniéndose el diagrama
de la figura 1.3. Los valores numéricos que se ven para cada sector pueden ser frecuencias,
frecuencias relativas o porcentajes. ◭
Pictogramas o pictógrafos
Un pictograma es la representación de datos estadı́sticos por medio de sı́mbolos que
por su forma sugieren la naturaleza del dato.
Ejemplo 1.2.12 El siguiente pictograma representa una información sobre las casas cons-
truidas en algunos años por una firma constructora. En él se hacen las siguientes conven-
ciones: ∆ significa 1.000 casas construidas y Λ significa 500 casas construidas.
Años Casas construidas

2.000 ∆∆∆∆∆
2.001 ∆∆∆∆∆∆∆Λ
2.002 ∆∆∆∆∆Λ
2.003 ∆∆∆∆∆∆∆
Fácilmente se puede interpretar del diagrama que en el año 2.000, la firma construyó 5.000
casas y, el 2.002, construyó 5.500 casas. ◭
Diagrama de barras
Es una representación gráfica en la que cada una de las modalidades del aspecto de
interés se representa mediante una barra. En este gráfico se suelen disponer los datos
en el primer cuadrante de unos ejes coordenados, levantando sobre el eje de las abscisas
una barra para cada modalidad del dato observado. La altura de la barra ha de ser
proporcional a la frecuencia absoluta o relativa, que se representará en el eje de las
ordenadas. Estos diagramas se utilizan tanto para datos categóricos como numéricos.
Ejemplo 1.2.13 La figura 1.4 muestra un diagrama de barras sobre los datos del ejemplo
1.2.11.
Fig. 1.4: Diagrama de barras para la compra de refrescos ◭

Histogramas
Los histogramas son una forma de representación gráfica de una distribución de fre-
cuencia que consiste en representar las frecuencias (absolutas, relativas, acumuladas o
relativas acumuladas) por medio de áreas de rectángulos (barras). Cuando utilizamos fre-
cuencias absolutas, hablamos de histograma de frecuencias; cuando usamos frecuencias
relativas, histogramas de frecuencias relativas, etc. Los histogramas pueden construirse
para distribuciones de frecuencias agrupadas y no agrupadas.
Histogramas para frecuencias agrupadas

La idea de construir un histograma para frecuencia no agrupada de los datos, es repre-
sentar cada frecuencia por una barra cuya área sea proporcional a ella. Tı́picamente, el
ancho de cada barra se escoge como 1 y ası́ el área de la barra es igual a la frecuencia
(absoluta, relativa, acumulada o relativa acumulada) del dato.
Es importante señalar que aquı́ los datos pueden ser categóricos o núméricos y que
estos se colocan en el horizontal y sus correspondientes frecuencias (absolutas, relativas,
acumuladas o relativas acumuladas) en el eje vertical del diagrama.
Ejemplo 1.2.14 El diagrama que se muestra en la figura 1.4 es un ejemplo de un histograma

para la frecuencia de los datos de compra de refrescos. ◭
Histogramas para frecuencias no agrupadas

Para construir un histograma para datos medidos en una escala de intervalo o en una
escala de razón, se acostumbra seguir dos pasos:
• Se organizan los datos en una tabla de frecuencias (absolutas, relativas, acumu-
ladas o relativas acumuladas) agrupadas.
• Se construye una gráfica de barras usando las fronteras de clase para colocar
barras, y las frecuencias (absolutas, relativas, acumuladas o relativas acumuladas)
para indicar las alturas de las barras.
Ejemplo 1.2.15 La tabla de frecuencias (absolutas, acumuladas y relativas) correspondien-

te a los datos del ejemplo 1.2.6 se muestra en la tabla 1.8.
Clase Frecuencia Frecuencia acumulada Frecuencia relativa

5,95 - 7,95 4 4 0,2
7,95 - 9,95 2 6 0,1
9,95 - 11,95 8 14 0,4
11,95 - 13,95 3 17 0,15
13,95 - 15,95 3 20 0,15
Tabla 1.8: Tabla de frecuencia agrupada para los datos del ejemplo 1.2.6
Los histogramas de frecuencias relativas y de frecuencias acumuladas para estos datos son
como se ve en las figuras 1.5 y 1.6, respectivamente.
Fig. 1.5: Histograma de frecuencias relativas para los datos del ejemplo 1.2.6
Fig. 1.6: Histograma de frecuencias acumuladas para los datos del ejemplo 1.2.6◭
Polı́gonos
Estos gráficos se utilizan para representar series cronológicas y se construye usando una
tabla de frecuencias (absoluta o relativa) agrupadas con marcas de clase. Si se usan
frecuencias absolutas, se denomina polı́gono de frecuencias y si se utilizan frecuencias
relativas, polı́gono de frecuencias relativas.
Ejemplo 1.2.16 Construir un polı́gono de frecuencia para los datos del ejemplo 1.2.6.
SOLUCION:
Consideremos la tabla 1.5 corresponde a la tabla de frecuencias agrupadas para los 20 datos
del ejemplo 1.2.6, con sus correspondientes marcas de clase. Ahora, construimos el polı́gono
con frecuencias absolutas mostrada en la figura 1.7. Las marcas de clase se colocan en el eje
horizontal y las frecuencias en el eje vertical. Notemos que el polı́gono se “baja” en ambos
extremos, colocando el primer y el último puntos en puntos del eje horizontal que distan
w = 2 de las marcas de clase más cercanas.
Fig. 1.7: Polı́gono de frecuencias para los datos del ejemplo 1.2.6 ◭
Ojivas
La ojiva, llamada también polı́gono de frecuencias acumuladas (o polı́gono de frecuen-
cias relativas acumuladas), se construye a partir de tablas de frecuencias (acumuladas o
relativas acumuladas). Las ojivas ofrecen un medio gráfico para interpolar o aproximar
el número o porcentaje de observaciones menores o iguales que un valor especı́fico.
Ejemplo 1.2.17 La figura 1.8 representa una ojiva con frecuencias acumuladas para los
datos del ejemplo 1.2.6. Para su construcción consideramos la tabla 1.8.
Fig. 1.8: Ojiva para los datos del ejemplo 1.2.6 ◭
Para localizar los puntos de la ojiva usamos las fronteras superiores de cada clase (ubicadas
siempre sobre el eje horizontal) y sus correspondientes frecuencias acumuladas (ubicadas

siempre sobre el eje vertical). Después unimos los puntos consecutivos por segmentos de
recta (observe que la frecuencia acumulada para la frontera inferior de la primera clase es
0).
Diagrama de tallo y hojas

El uso de una tabla de frecuencia agrupada tiene una desventaja bastante obvia: los datos
originales se pierden en el proceso de agrupamiento. Para salvar esta limitación puede
usarse el llamado diagrama de tallo y hojas. Estos diagramas fueron creados por el
estadı́stico John Tukey y ofrecen una forma novedosa y rápida de exhibir información
numérica: si un numeral tiene dos o más digitos, entonces, se puede descomponer en
una rama y una hoja. Un tallo es el primer dı́gito o parte del numeral, mientra que
una hoja está formada por él o los dı́gitos restantes. Por ejemplo, el numeral 534 se
puede descomponer en dos formas:
5 | 34 53 | 4
↑ ↑ ↑ ↑
tallo hoja tallo hoja
La exhibición gráfica de datos es muy fácil de realizar usando tallos y hojas; cada dato
aporta una hoja de algún tallo.
Ejemplo 1.2.18 Los datos de abajo muestran el número de anuncios radiofónicos de 30

segundos pagados el año pasado por cada uno de los 45 miembros de una empresa. Organice
los datos en un diagrama de tallo y hojas y determine la forma que toma este diagrama.
¿Alrededor de qué valores tiende a acumularse el número de anuncios? ¿Cuál es el menor
número de anuncios pagados por un comerciante? ¿El mayor número pagado?
96 93 88 117 127 95 113 96 108 94 148 156 139 142 94

107 125 155 155 103 112 127 117 120 112 135 132 111 125 104
106 139 134 119 97 89 118 136 125 143 120 103 113 124 138
SOLUCION:
En el conjunto de datos se observa que el menor número de anuncios pagados es 88. Ası́ es
que el valor del primer tallo será 8. El número más grande es 156. Entonces, los valores de
los tallos empezarán en 8 e irán hasta 15. El primer número en los datos es 96, que tendrá
como tallo 9 y como hoja 6. Moviéndose por el renglón superior el segundo valor es 93 y el
tercero 88. Después de tomar los tres primeros valores del conjunto de datos, su diagrama
es
8 8
9 6 3
10
11
12
13
14
15
Despueés de organizar todos los datos, el diagrama de tallo y hojas se ve ası́:

8 8 9
9 6 3 5 6 4 4 7
10 8 7 3 4 6 3
11 7 3 2 7 2 1 9 8 3
12 7 5 7 0 5 5 0 4
13 9 5 2 9 4 6 8
14 8 2 3
15 6 5 5
Lo que suele hacerse es ordenar los valores de las hojas de menor a mayor y, en este caso, el
diagrama final se verá ası́:
8 8 9
9 3 4 4 5 6 6 7
10 3 3 4 6 7 8
11 1 2 2 3 3 7 7 8 9
12 0 0 4 5 5 5 7 7
13 2 4 5 6 8 9 9
14 2 3 8
15 5 5 6
Del diagrama de tallos y hojas se pueden sacar varias conclusiones como, entre otras, las
siguientes:
• Primero, el menor número de anuncios comprados es 88 y el mayor es 156.
• Dos comerciantes compraron menos de 90 anuncios y tres, más de 150.
• Puede observarse, por ejemplo, que los tres comenrciantes que compraron más de 150,
compraron 155, 155 y 156 comerciales.
• La mayor concentración del número de comerciales está entre 110 y 130.
• Hubo 9 comerciantes que compraron entre 110 y 119 anuncios y que 8 compraron
entre 120 y 129.
• También podemos decir que dentro del grupo de 120 a 129 el número de anuncios
comprados se repartió uniformemente.
• Dos comerciantes compraron 120, un comenrciante compró 124, tres compraron 125
y dos, 127.
Para concentrarnos en la forma que toma el diagrama de tallos y hojas, coloquemos un
rectángulo para representar la “cantidad de hojas” de cada tallo. Al hacerlo obtenemos la
siguiente representación:
8 8 9
9 3 4 4 5 6 6 7
10 3 3 4 6 7 8
11 1 2 2 3 3 7 7 8 9
12 0 0 4 5 5 5 7 7
13 2 4 5 6 8 9 9
14 2 3 8
15 5 5 6
Si giramos la página 90 grados en el sentido de las manecillas del reloj, obtenemos una
imagen de los datos que se parece mucho a la de un histograma con clases de 80 a 90,
90 a 100, 100 a 110, etc. Aunque el diagrama de tallos y hojas parece ofrecer la misma
información que un histograma, tiene dos ventajas principales:
1. Es más fácil de construir.

2. Dentro de un intervalo de clase, el diagrama de tallo y hojas da más información que
un histograma porque muestra los valores reales. ◭

6. Clasifique los datos siguientes en cuantitativos (numéricos) y cualitativos (categóricos).
En caso de ser numérico, como discretos o continuos:
(a) Estaturas en centı́metros de cuatro jugadores de fútbol.
(b) El número de goles anotados por Pelé en toda su carrera deportiva.
(c) Los sueldos ganados por unos profesores universitarios.
(d) Las temperaturas promedios diarias en el último mes.
(e) Clasificación étnica de 30 empleados.
(f) Números telefónicos ciertas personas.
(g) Calificaciones del primer parcial de Estadı́stica de unos estudiantes un universitarios.
(h) Distancia (en metros) recorrido por un atleta en una temporada.
(i) Peso perdido (en kilogramos) por 10 personas debido a una dieta.
(j) Fecha de cumpleaños de determinadas personas.
(k) Calificaciones (E, S, A, D, I) de unos estudiantes de bachillerato.
(l) Rango militar.
7. Diga la clase de gráficas que son apropiadas para datos (a) cualitativos, (b) cuantitativos
y (c) nominales.
8. La tabla siguiente contiene la distribución de vehı́culos que hay en un aparqueadero.
Clase Tipo de vehı́culo Cifra registrada

1 Taxi 30
2 Camioneta 20
3 Motocicleta 35
4 Bicicleta 40
(a) Identifique los datos de cada una de las tres columnas como cuantitativos o cualita-
tivos.
(b) Identifique los datos de la tercera columna como discretos o continuos.
(c) Determine los datos de cada una de las tres columnas como nominales, ordinales, de
intervalo o de razón.
9. A continuación, se presenta una escala numérica para medir la efectividad de la tecnologı́a

en la enseñanza de una determinada asignatura: 1, si necesita mejorarse; 3, si es efectiva
y competente; y 5, si es verdaderamente extraordinaria.
(a) Identifique el tipo de escala de medición.
(b) Suponga que 20 estudiantes usan esta escala para evaluar a su maestro de estadı́stica.
¿Será más fácil interpretar esos resultados que los que se obtendrı́an si los 20 es-
tudiantes evaluaran a su maestro mediante una opinión escrita de respuesta libre?
Explique.
10. Los datos anotados representan los totales, en miles de pesos, gastados en fotocopias por
una muestra de 25 estudiantes durante un semestre.
29 89 77 72 39 47 64 84 88 57 28 63 38
42 36 72 69 68 41 52 39 84 45 52 72
Construya una tabla de frecuencias agrupadas usando la regla de Sturges.

11. Los datos adjuntos representan una muestra del aumento de precios (en pesos) de la
gasolina extra en una cierta ciudad a lo largo de un año en particular.
123,9 127,9 130,9 121,9 132,9 120,8 115,9 117,9 131,9
121,9 126,9 122,8 126,9 137,9 115,9 115,9 121,9
126,9 119,9 118,9 119,8 116,9 129,9 122,8 119,9
Mediante cinco clases construya una tabla de frecuencias relativas acumuladas agrupadas.
12. Se clasificó a los estudiantes de un programa universitario de acuerdo a con el semestre
que cursa y su preferencia deportiva. Los resultados están registrados en la siguiente tabla.
Primero Segundo Tercero Cuarto

Fútbol 15 14 5 9
Beisbol 12 22 6 6
Voleivol 5 5 9 5
Basquétbol 26 7 6 7
Natación 7 8 4 2
(a) ¿Qué porcentaje de los estudiantes de primer semestre prefieren el fútbol?

(b) ¿Qué porcentaje de los aficionados a la natación son de segundo semestre?
(c) ¿Qué porcentaje del total de los estudiantes prefieren el basquétbol?
(d) ¿Qué porcentaje de los estudiantes son de cuarto semestre?
(e) ¿Qué porcentaje del total de estudiantes son de tercer o cuarto semestre?
(f) ¿Qué porcentaje prefiere la natación, el voleibol o el beisbol?
13. Los siguientes datos representan las cuentas telefónicas mensuales, en miles de pesos, de
25 residentes de un pequeño pueblo:
21,48 21,15 25,12 23,47 27,81 19,80 36,05 28,50 26,66
20,35 30,22 25,49 20,80 23,83 25,35 23,48 25,81 21,07
26,83 30,96 33,38 20,77 19,98 35,87 22,02
(a) ¿Qué porcentaje del grupo pagó más de 21.000 pesos?

(b) ¿Qué porcentaje pagó más de 22.000 pesos pero menos de 27.000 pesos?
14. Considere la distribución de frecuencias:

Clase 20-40 40-60 60-80 80-100 100-120
Trace un histograma de frecuencias relativas, un histograma de frecuencias relativas acu-

muladas, un polı́gono de frecuencias absolutas y una ojiva de frecuencias acumuladas para
estos datos.
15. Los datos que se indican a continuación representan el costo (en miles de pesos) de la
energı́a eléctrica durante un determinado mes del año para una muestra aleatoria de 50
apartamentos en cierta ciudad importante:
128 144 168 109 167 141 149 206 175 123
153 197 127 82 96 171 202 178 147 102
135 191 137 129 158 108 119 183 151 114
111 148 213 130 165 157 185 90 116 172
143 187 166 139 149 95 163 150 154 130
(a) Obtenga una tabla de frecuencias con 7 intervalos de clase.

(b) Grafique el correspondiente histograma de frecuencias, el polı́gono de frecuencias
relativas y la ojiva con frecuencias acumuladas relativas.
(c) ¿Alrededor de qué cantidad parece concentrarse el costo mensual de energı́a eléctrica?
(d) Según su opinión, ¿cuál de las gráficas representa mejor la distribución de los costos
de energı́a eléctrica?
16. Se les pidió a 20 personas que identificaran su preferencia religiosa. Los resultados son:
C P P J J A J C P P C J J C P P A P C J
donde C denota católico; P, protestante; J, judı́o y A, ateo. Construya una tabla de

frecuencias (absolutas, relativas, acumuladas y acumuladas relativas), un diagrama de
barras, uno circular y un pictograma.
17. Los siguientes datos que aparecen a continuación presentan los porcentajes de rentabilidad
de las acciones de 25 empresas.
30,8 20,3 24,0 29,6 19,4 38,0 24,5 21,5 25,6

30,8 32,9 30,3 39,5 13,3 28,0 19,9 24,6 32,3
30,7 20,3 24,7 18,7 36,8 31,2 50,9
Construir un diagrama de tallo y hojas, una tabla de frecuencias y con ayuda de esta tabla
responda las preguntas que se formulan en los siguientes incisos:
(a) ¿Qué porcentaje de empresas tienen el porcentaje de rentabilidad de las acciones
mayor que 34,25%?
(b) ¿Cuántas empresas tienen el porcentaje de rentabilidad de las acciones entre 20,25%
y 48,25%?
(c) ¿Qué porcentaje de empresas tienen el porcentaje de rentabilidad de las acciones
entre 34,25% y 41,25%?
(d) ¿Cuántas empresas tienen el porcentaje de rentabilidad de las acciones menor que
27,25% o mayor que 41,25%?
18. Según un estudio reciente, en cierto paı́s mueren cada año 40.000 mujeres a causa del
cáncer de mama y 85.000 a causa de diabetes. Dibujar un diagrama de barras y un
pictograma que represente esta información.
19. En 1.986 se produjeron 50,2 nacimientos por cada mil mujeres con una edad entre 15 y 19
años. En 1.991, el número de nacimiento fue de 62,1 por cada mil mujeres de la misma
edad. Dibujar un diagrama de barras que represente esta información.
20. De las pelı́culas que están en cartelera en una gran ciudad, el 30% son dramas, el 35%
comedias, un 15% son pelı́culas de acción, otro 6% de ciencia ficción, el 10% son policiacas,
y el 4% son de terror. Construir un diagrama circular que represente esta información.
21. La siguiente tabla se refiere a los usos más comunes citados en una encuesta realizada
a usuarios de computadores de pequeñas y medianas empresas. Construir un diagrama
circular para representar esta información.
Área Respuestas (%)

Contabilidad 22
Procesadores de texto 12
Hojas de cálculo 16
Bases de datos 13
Puntos de venta 1
Telecomunicaciones 4
Otros 32
22. Un reporte sobre galletas reportó las siguientes calificaciones para varias marcas:
Integral: 32 53 50 65 45 40 56 44 62 32
30 40 50 56 30 22 56 68 41
No integral: 47 40 34 62 52 62 53 75 42
75 80 47 56 62 50 34 42 36
Construya una presentación comparativa de tallo y hoja, ponga en una lista los tallos (en
el centro de la página), las hojas integrales a la derecha y las hojas no integrales a la
izquierda. Describa las similitudes y diferencias para los dos tipos.
1.3 Análisis de datos en tablas de frecuencias no agru-

padas
A continuación, estudiaremos las medidas que describen el comportamiento de un con-
junto de datos. Estas medidas son: las de tendencia central (o de centralización), las de
colocación (o de posición relativa), las de dispersión (o de variabilidad) y las de forma.
Estas se pueden visualizar intuitivamente en las siguientes gráficas (que corresponden a
las gráficas de los llamados histogramas suavizados):
1.3.1 Medidas de tendencia central o de centralización

Al estudiar la información estadı́stica mediante su representación gráfica, se puso en
evidencia un significativo comportamiento de los datos en cuanto a la frecuencia con
que se presentan los valores: algunos de estos valores son más frecuentes que otros.
Además, se observó una clara tendencia de agrupación en el vecindario de los valores
más frecuentes, haciendo que las gráficas representativas adquieran formas especiales.
Por lo general, la mayor densidad de frecuencia está en la parte central de las gráficas,
de aquı́ deriva el nombre de medidas de tendencia central que se da a la media,
la mediana, la moda, el rango medio, la media geométrica, la media armónica y la media
cuadrática. En esta sección estudiaremos estas medidas de tendencia central.
Media
Definición 1.3.1 La media aritmética de cierto conjunto de números se encuen-

tra sumando los números y dividiendo después entre la cantidad de datos. En otras
palabras, si x1, . . . , xn son números, entonces, la media aritmética de este conjunto
de números está dada por
x1 + · · · + x n
Media aritmética = .
n
En estadı́stica se habla de media aritmética poblacional, y se simboliza por µ, cuando el con-
junto de datos corresponden a los de la población; y de media aritmética muestral, y se simboliza
por x, cuando se tienen en cuentan los datos de una muestra.
Ejemplo 1.3.2 Supongamos que tenemos la muestra siguiente de edades en año de prin-
cipiantes de una universidad: 18, 18, 18, 18, 19, 19, 19, 20, 20, 21. Entonces, la media
aritmética de estos datos es
18 + 18 + 18 + 18 + 19 + 19 + 19 + 20 + 20 + 21
x = = 19. ◭
10
Generalmente, para calcular la media de un conjunto de datos, es más cómodo utilizar la
llamada media aritmética ponderada, la cual es un caso especial de la media aritmética.
Esta se puede utilizar cuando se tienen varias observaciones con un mismo valor, lo que
puede ocurrir si se han organizado los datos en una tabla de frecuencias.
Definición 1.3.3 Sea dada siguiente tabla de frecuencias no agrupadas:
Dato x1 x2 ... xn
Frecuencia f1 f2 ... fn
en donde fi es la frecuencia del dato xi. Entonces, la media aritmética ponde-

rada o, simplemente, media artimética, de los datos x1, . . . , xn se define como
x1f1 + · · · + xnfn
Media aritmética = .
f1 + · · · + fn
Ejemplo 1.3.4 La media aritmética de los datos del ejemplo 1.3.2 se pueden calcular con
ayuda de la llamada media aritmética ponderada. Para ello, organizamos estos datos en una
tabla de frecuencias no agrupadas, tal como
Dato 18 19 20 21
Frecuencia 4 3 2 1
Luego, aplicamos la definición 1.3.3 y hallamos la media de los datos de la siguiente manera:
(18)(4) + (19)(3) + (20)(2) + (21)(1)
x = = 19. ◭
4+3+2+1
Desventaja de la media
La media tiene una seria desventaja: se ve afectada por los valores extremos del final de
una distribución. Como depende del valor de cada medida, los valores extremos pueden
llevarla a representar defectuosamente los datos.
Mediana y moda
La mediana y la moda son medidas de tendencia central que no tienen propiedades que
les permitan intervenir en desarrollos algebraicos como la media aritmética, por eso son
de menor importancia teórica que ella. Sin embargo, poseen propiedades que ponen en
evidencia ciertas cualidades de un colectivo, cosa que no ocurre con la media aritmética
que promedia todos los valores igualando en un justo reparto todas las observaciones,
es decir, suprimiendo sus individualidades. En cambio, la mediana y la moda destacan
los valores individuales, de lo que se desprende su utilidad e importancia en cierto tipo
de análisis.
Mediana
Definición 1.3.5 Para datos medidos en al menos una escala de intervalo, la

mediana es el puntaje medio ordenado.
Para determinar la mediana de un conjunto de n datos, hay que realizar los siguientes
pasos:
• Ordene los datos de menor a mayor con ayuda con ayuda de un diagrama de tallo y hojas
ordenado.
• El valor de la mediana dependerá del hecho de que n sea par o impar:
– Si n es impar, entonces, la mediana será el dato en el centro, es decir, la mediana es
el dato que se encuentra en el lugar n+1
2
;
– si n es par, entonces, la mediana es la media de los dos datos que ocupan posiciones
centrales, es decir, la mediana es el promedio de las datos que se encuentran en los
lugares n2 y n2 + 1.
Nótese que, por ejemplo, n+1
2
no representa uno de los datos, sino el número de valores que
deben contarse para llegar a la mediana.
Ejemplo 1.3.6 El conjunto de números 3, 4, 4, 5, 6, 8, 8, 8 y 10 tiene mediana 6, puesto

que ya los datos están ordenados, el número de datos es 9 (impar) y, en este caso, el 6 está
ubicado en el centro (en el cuarto lugar). ◭
Ejemplo 1.3.7 El conjunto de números 5, 5, 7, 9, 11, 12, 15 y 18 tiene mediana 21 (9+11) =

10, puesto que ya los datos están ordenados, el número de datos es 8 (par), el 9 y el 11 son
los dos datos que ocupan posiciones centrales y 10 es el promedio de estos dos datos. ◭
Ejemplo 1.3.8 Encuentre la mediana para los datos organizados en la siguiente tabla de
frecuencias.
Dato 0 1 2 3 4
SOLUCION:
Como los datos se presentan en una tabla de frecuencias no agrupadas, para calcular la me-
diana es conveniente determinar las frecuencias acumuladas de los datos. Estas se encuentran
en la tabla 1.9.
Dato Frecuencia Frecuencia acumulada

0 10 10
1 10 20
2 8 28
3 4 22
4 8 40
Tabla 1.9: Tabla de frecuencia acumulada para los datos del ejemplo 1.3.8
Como el total de datos es n = 40 (par), entonces, la mediana es el promedio de las medidas

que están en las posicones n n
2 = 20 y 2 + 1 = 21. Para encontrar la mediana recomendamos
contar los datos en dirección de la medida menor a la mayor. De la tabla es fácil ver que el
dato en lugar 20 es 1 y que el dato en la posición 21 es 2. Por tanto, la mediana es
dato en la posición 20 + dato en la posición 21 1+2
Mediana = = = 1, 5. ◭
2 2
Ventajas y desventajas de la mediana

El uso de la mediana para datos de intervalo posee tanto ventajas como desventajas.
Una ventaja es que la mediana no se ve afectada por valores extremos al final de la
distribución. La desventaja del uso de la mediana reside en que no es fácilmente de-
terminable si el conjunto de datos es grande, puesto que las medidas deben ordenarse
primero y ponerse en orden numérico de menor a mayor o al contrario.
Moda
Definición 1.3.9 La moda, si se da, es el dato con mayor frecuencia.
Ejemplo 1.3.10 El conjunto 2, 2, 5, 7, 9, 9, 9, 11 tiene moda 9 porque este valor es el dato

con mayor frecuencia. ◭
Ventajas y desventajas de la moda

• Tiene dos ventajas: Para ciertas muestras pequeñas, se le determina fácilmente
y, en general, no se ve afectada por los valores extremos al final de un conjunto
de datos ordenados. Cuando se analizan datos categóricos, la moda es el único
dato de tendencia central que puede utilizarse. Finalmente, la moda puede usarse
como una medida de tendencia central para datos numéricos empleados en sentido
categórico. Una moda para datos en una tabla de frecuencia, se encuentra loca-
lizando el valor de frecuencia máxima, si no todas las frecuencias son iguales. El
dato que corresponde al valor de frecuencia máxima se toma como la moda.
Ejemplo 1.3.11 Para los datos del ejemplo 1.2.11, el refresco más popular es el A
(es decir, la moda es el refresco A), puesto que es el que más se compra. ◭
• La moda tiene varias desventajas como medida de tendencia central: una de ellas
es que para un cierto conjunto de datos no puede haber moda. Esta situación
surge cuando todos los datos tienen la misma frecuencia. Otra desventaja es que
la moda puede existir pero no ser única.
Ejemplo 1.3.12 (a) El conjunto 3, 3, 5, 5, 7 y 7 no tiene moda.

(b) El conjunto 3, 3, 5, 5, 5, 7, 7, 7, y 9 tiene dos modas: el 5 y el 7. ◭
Rango medio
Definición 1.3.13 El rango medio de un conjunto de datos es el promedio de las

medidas mayor y menor.
Ejemplo 1.3.14 El rango medio del conjunto de datos 32, 38, 45, 44, 27, 36, 40 y 38 está
dado por
27 + 45
Rango medio = = 36,
2
ya que 45 y 27 son los datos mayor y menor, respectivamente. ◭
Ventajas y desventajas del rango medio

Con cierta frecuencia el rango medio se utiliza como una medida de resumen tanto para
análisis financiero como para reportes metereológicos, porque puede proporcionar una
medida adecuada, rápida y sencilla que caracteriza a todo el conjunto de datos. No
obstante, a pesar de estas ventajas y de su sencillez, el rango medio se debe utilizar con
cuidado. Como sólo incluye la observación más pequeña y la más grande en un conjunto
de datos, el rango medio es una medida modificada de tendencia central si está presente
un valor extremo. En estas situaciones, el rango medio no es apropiado.
Media geométrica
La media geométrica es útil para encontrar los cambios procentuales en una serie
de números positivos, inclusive, para encontrar el promedio de proporciones, ı́ndices, o
tasas de crecimiento. Tiene mucha aplicación en el comercio y en la economı́a porque

nos interesa encontrar el cambio porcentual en las ventas, salarios o datos económicos,
tales como el producto nacional bruto.
Definición 1.3.15 La media geométrica de un conjunto de n números enteros

positivos se define como la n-ésima raı́z del producto de los n valores. Es decir,
la media geométrica de los n números positivos x1, . . . , xn se calcula a través de la
fórmula
Media geométrica = (x1 · · · xn)1/n.
Si estos números positivos x1, . . . , xn tienen frecuencias (ponderaciones o pesos)
f1, . . . , fn, respectivamente, entonces, la media geométrica (ponderada) de es-
tos números viene dada por la (f1 + · · · + fn)-ésima raı́z del producto de los valores,
elevando cada uno a su respectiva frecuencia, es decir,
1/(f1 +···+fn )
Media geométrica = xf11 · · · xfnn .
La media geométrica siempre será menor que la media aritmética salvo en el extraño caso en el que
todos los incrementos porcentuales sean iguales. Si esto último sucede, las dos medias serán iguales.
Ejemplo 1.3.16 El director ejecutivo de una empresa desea determinar la tasa de creci-
miento promedio en los ingresos con base en las cifras dadas en la tabla 1.10. Si la tasa de
creciemiento promedio es menor que el promedio industrial del 10%, se asumirá una nueva
campaña publicitaria.
Año Ingreso (en dólares) Porcentaje del año anterior

1.992 50.000 ––
1.993 55.000 55/50 = 1, 10
1.994 66.000 66/55 = 1, 20
1.995 60.000 60/66 = 0, 91
1.996 78.000 78/60 = 1, 30
Tabla 1.10: Ingresos para una empresa
SOLUCION:
Primero es necesario determinar el porcentaje que los ingresos de cada año representan
respecto de los obtenidos el año anterior. En otras palabras, ¿qué porcentaje del ingreso de
1.992 es el ingreso en 1.993? Esto se encuentra dividiendo los ingresos de 1.992 entre los
de 1.993. El resultado, 1,10 revela que los ingresos de 1.993 son 110% de los ingresos de
1.992. También se calculan los porcentajes para los tres años restantes. Tomando la media
geométrica de estos porcentajes da
Media geométrica = [(1, 10)(1, 2)(0, 91)(1, 3)]1/4 = 1, 1179.
Restando 1 para convertirlo a un incremento anual promedio da 0,1179, o un incremento

promedio de 11,79% para el promedio de cinco años. Por otro lado, la media aritmética es
1, 1 + 1, 2 + 0, 91 + 1, 3
x = = 1, 1275
4
o un cambio promedio de 12,75%. Se divide por 4 ya que se presentaron cuatro cambios

durante el periodo de cinco años. Sin embargo, si un incremento promedio de 12,75%, basado
en la media aritmética, se aplica a la serie que comienza con 50.000 dólares, los resultados
son
50.000 dólares × 1, 1275 = 56.375 dólares
56.375 dólares × 1, 1275 = 63.563 dólares
63.563 dólares × 1, 1275 = 71.667 dólares
71.667 dólares × 1, 1275 = 80.805 dólares
Ya que 80.805 dólares excede los 78.000 que la empresa en realidad ganó, el incremento del
12,75% es obviamente muy alto. Si se utiliza la tasa de crecimiento de la media geométrica
del 11,79%, se obtiene
50.000 dólares × 1, 1179 = 55.895 dólares
55.895 dólares × 1, 1179 = 62.485 dólares
62.485 dólares × 1, 1179 = 69.852 dólares
69.852 dólares × 1, 1179 = 78.088 ≈ 78.000 dólares
Esto da un valor de 78.088 dólares, lo que está mucho más cerca al ingreso real de 78.000
dólares.
Como interpretación final podemos decir lo siguiente. La media geométrica representa el

cambio promedio con el tiempo. Debido a que la tasa de crecimiento supera el promedio de
la industria del 10%, la nueva campaña publicitaria no se llevará a cabo. ◭
Ejemplo 1.3.17 Dos pueblos determinados tienen un 48% y un 34%, respectivamente, de

población masculina. Discutir la mayor conveniencia de la media geométrica para promediar
porcentajes.
SOLUCION:
La media aritmética para estos porcentajes es
48% + 34%
x = = 41%
2
y la media geométrica, √
G = 48% · 34% = 40, 4%.
Ahora, la media aritmética de los porcentajes recı́procos es
1 1
48% + 34% 0, 0208 + 0, 0294
x′ = = = 0, 0251
2 2
y la media geométrica es
r
′ 1 1 √
G = · = 0, 0208 · 0, 0294 = 0, 0247.
48% 34%
Debido a que
1
= 0, 02439 6= 0, 0251 = x ′
x
y, en cambio,
1 1
= = 0, 0247 = G ′ .
G 40, 4%
1
Debido a que x1 6= x ′ y a que G = G ′ , podemos afirmar que la media geométrica es mejor
que la media artimética para promediar porcentajes y proporciones. ◭
A continuación se presenta un ejemplo que ilustra el cálculo de la media geométrica de

un conjunto de datos que aparecen en una tabla frecuencias no agrupadas.
Ejemplo 1.3.18 La media geométrica de la distribución de frecuencias que aparece en la

tabla
Dato 1 3 4 6
Frecuencia 3 2 3 5
viene dada por
1/13
Media geométrica = 13 · 32 · 43 · 65 ≈ 3, 248. ◭
Media armónica
Definición 1.3.19 La media armónica es el recı́proco de la media aritmética de

los datos. Es decir, la media armónica de los datos x1, x2, . . . , xn está dada por
n
Media armónica = 1 1 1
.
x1 + x2 + ··· + xn
Si estos datos x1, . . . , xn tienen frecuencias (ponderaciones o pesos) f1, . . . , fn, res-
pectivamente, entonces, la media armónica (ponderada) de estos datos viene
dada por
f1 + f2 + · · · + fn
Media armónica = f f2 fn
.
x1 + x2 + · · · + xn
1
Ejemplo 1.3.20 Una ama de casa ha ido comprando durante cuatro años arroz a distintos
precios:
• El primer año a $ 1.200 el kilogramo.
• El segundo año a $ 1.400 el kilogramo.
• El tercer año a $ 1.600 el kilogramo.
• El cuarto año a $ 1.700 el kilogramo.
Hallar el costo promedio del arroz durante estos cuatro años, suponiendo que:
(a) El número promedio de kilos consumidos al año por el ama de casa es constante.
(b) La cantidad de dinero gastado al año es constante.
SOLUCION:
Aquı́ nos piden calcular el cociente
Costo total
T := Costo promedio = .
Cantidad total comprada
(a) Si K representa al número de kilos consimidos cada año, entonces, el costo promedio T
será
$ 1.200K + $ 1.400K + $ 1.600K + $ 1.700K
T =
4K
$ 1.200 + $ 1.400 + $ 1.600 + $ 1.700
= = $ 1.475 por kilogramo,
4
lo cual no es más que la media aritmética de los precios.

(b) Ahora, sea D la cantidad de dinero gastado por año. Entonces, en este caso, el costo
promedio T será
4D
T = D D D D
$ 1.200 + $ 1.400 + $ 1.600 + $ 1.700
4 $4
= 1 1 1 1
= = $ 1.449, 27 por kilogramo,
$ 1.200 + $ 1.400 + $ 1.600 + $ 1.700
0, 00276
lo cual no es más que la media armónica de los precios. ◭
La media armónica también es útil para promediar velocidades desarrolladas en distancias

iguales, como se ilustra en el siguiente
Ejemplo 1.3.21 Una persona viaja en auto de Barranquilla a Cartagena con una velocidad
media de 60 kilómetros por hora y regresa (por la misma vı́a) a una velocidad media de 120
kilómetros por hora. Hallar su velocidad media en el viaje completo.
SOLUCION:
Sea D la distancia recorrida por el auto de Barranquilla a Cartagena (que es la misma que
recorre el auto de Cartagena a Barranquilla). Entonces,
D
Tiempo para ir de Barranquilla a Cartagena = ,
60km/h
D
Tiempo para ir de Cartagena a Barranquilla = .
120km/h
Por consiguiente,
distancia total 2D
Velocidad media del viaje total = = D D
tiempo total 60km/h + 120km/h
2D
= D D
= 80km/h,
60km/h + 120km/h
que corresponde3 a la media armónica de 60 km/h y 120 km/h. Notemos que uno hubiera
estado tentado de calcular la media aritmética de 60 km/h y 120 km/h obteniendo 45 km/h,
lo cual es incorrecto. ◭
1.3.2 Medidas de colocación o de posición relativa
Definición 1.3.22 Una medida de colocación o de posición relativa para

una distribución de frecuencias es aquel valor para el cual una porción especı́fica de
la distribución queda en o debajo de él.
La mediana, los percentiles, deciles y cuartiles son ejemplos de medidas de posición relativa.
3
Si las distancias recorridas no son iguales, se llega a una media armónica ponderada, en donde
las ponderaciones o pesos son las distancias.
Percentiles
Definición 1.3.23 El p-ésimo (punto) percentil es un valor tal que por lo

menos un p% de los datos tienen dicho o menos de ese valor y, al menos, un
(100 − p)% de los datos tienen este valor o más.
Para calcular el p-ésimo (punto) percentil de un conjunto de n datos, es importante tener

en cuenta los siguientes pasos:
• Ordenar los datos de manera ascendente.
• Calcular un ı́ndice i a través de la fórmula i = np/100, siendo p el percentil de interés y n,
la cantidad de datos.
• Decidir de acuerdo a uno de los dos casos:
– Si el ı́ndice i no es entero, se redondea al entero siguiente. Este valor aproximado de
i indica la posición del p-ésimo percentil.
– Si i es entero, el p-ésimo percentil es el promedio de los valores de los datos ubicados
en las posicones i y i + 1.
Ejemplo 1.3.24 Calcule (a) el 85-ésimo punto percentil y (b) el 50-ésimo punto percentil
de los siguientes datos que representan los salarios (en millones de pesos) de 12 empleados
en una empresa:
2, 350 2, 450 2, 550 2, 380 2, 255 2, 210 2, 390 2, 630 2, 440 2, 825 2, 420 2, 380.
SOLUCION:
Como primer paso fundamental, debemos ordenar los datos de manera ascendente (preferi-
blemente, con ayuda de un diagrama de tallo y hojas):
2, 210 2, 255 2, 350 2, 380 2, 380 2, 390 2, 420 2, 440 2, 450 2, 550 2, 630 2, 825.
(a) Para determinar el 85-ésimo punto percentil, calcular el ı́ndice i = np/100, con p = 85
y n = 12. Reemplazando, obtenemos que i = 10, 2. En este caso, como i = 10, 2 no
es entero, entonces redondeamos a 11. Por lo tanto, el lugar del 85-ésimo percentil es
el lugar 11. En nuestros datos ordenados corresponde a 2,630. Esto quiere decir que el
85% de los empleados de la empresa ganan $2.630.000 o menos de este valor y que el
25% de estos empleados ganan $2.630.000 o más que este valor.
(b) En este caso, p = 50. Con ello y con n = 12, obtenemos que i = 6 (que es un número
entero). Es decir, el 50% percentil es el promedio de los valores sexto (2,390) y séptimo
(2,420), o sea, 2,405. Observemos que este valor coincide con la mediana del conjunto
de datos. En conclusión, podemos decir que el 50% de los empleados tienen un salario
menor o igual (o mayor o igual) que $2.405.000. ◭
Cuartiles
Como veremos en la siguiente definición, los cuartiles son casos particulares de los per-
centiles.
Definición 1.3.25 Los cuartiles son las medidas de posición relativa correspon-
diente a un conjunto ordenado de datos divididos en cuatro partes (iguales) y se
definen como sigue:
• Q1 = primer cuartil o 25-ésimo percentil.
• Q2 = segundo cuartil o 50-ésimo percentil o también mediana.
• Q3 = tercer cuartil o 75-ésimo percentil.
Ejemplo 1.3.26 Calcule todos los cuartiles del conjunto de datos del ejemplo 1.3.24.
SOLUCION:
Como Q2 coincide con la mediana, entonces, Q2 = 2, 405. Calculando los percentelis como
en el ejemplo 1.3.24 podemos verificar que
2, 350 + 2, 380 2, 450 + 2, 550
Q1 = = 2, 365 y Q3 = = 2, 500.
2 2
Estos resultados se interpretan de la siguiente manera: el valor del primer cuartil significa
que el 25% de los empleados gana al menos $2.365.000 o el 75%, gana más de este salario y
el valor del tercer cuartil significa que el 75% de los empleados gana al menos $2.500.000 o
el 25%, gana más de este salario. ◭
Deciles
Al igual que los cuartiles, los deciles también son casos particulares de los percentiles.
Definición 1.3.27 Los deciles son las medidas de posición relativa correspondi-
ente a un conjunto de datos (ordenado ascendentemente) que está dividido en diez
partes, de tal forma que cada parte contiene aproximadamente 10% de las medidas.
Hay nueve deciles, denotados por D1 , D2 , . . . y D9 . Si Dn es el n-ésimo decil, entonces,

cada punto decil corresponde a un punto percentil. Por ejemplo, D4 es el 40-ésimo punto percentil,
D7 es 70-ésimo punto percentil, etc.
1.3.3 Medidas de dispersión o de variabilidad

Los datos que se presentan en la tabla 1.11 muestran los salarios anuales de siete su-
pervisores de ventas de una empresa y los de siete, de otra empresa. Observemos que
ambos conjuntos de datos tienen la misma media (33.500 dólares) y la misma mediana
(33.800 dólares).
Por tanto, si nos limitásemos a fijarnos en las medidas de centralización, no tendrı́amos
base alguna para distinguir entre la distribución de los salarios en las dos empresas.
Sin embargo, estas dos distribuciones son muy diferentes, como podemos apreciar en
la figura 1.9. Evidentemente que los datos del segundo conjunto están mucho más
dispersos que los del primero. Una medida de centralización, casi nunca es suficiente
por sı́ sola, para analizar adecuadamente las caracterı́sticas de un conjunto de datos. Por
Empresa 1: 34.500 30.700 32.900 36.000 34.100 33.800 32.500

Empresa 2: 34.000 27.500 31.600 39.700 35.300 33.800 31.700
Tabla 1.11: Salarios anuales (en dólares) de la plantilla de supervisores de ventas de

dos empresa.
(a) En la primera empresa
(b) En la segunda empresa
Fig. 1.9: Dispersión de los salarios anuales de los empleados de dos empresas
(compárese con los datos de la tabla 1.11)
lo general, necesitaremos, además, una medida de la dispersión o variación de los datos,

entre las que analizaremos se encuentran el rango o recorrido, el rango intercuartil, la
desviación, la varianza y la desviación estándar.
Rango
Es la medida de dispersión más simple. Esta medida ya ha sido utilizada en secciones
anteriores.
Definición 1.3.28 El rango o recorrido de un conjunto de datos se define

como la diferencia entre el dato más alto y el más bajo.
Su ventaja es que es fácil de calcular. Su desventaja es que considera sólo dos de la gran
cantidad de datos que hay en un conjunto (de datos), ignorando ası́ el resto de los datos.
Ejemplo 1.3.29 El rango R del conjunto de datos del ejemplo 1.3.24 es
R = $2.825.000 − $2.210.000 = $615.000. ◭
Rango intercuartil
Una medida de dispersión que elimina la influencia de los valores extremos de los datos
es el rango intercuartil.
Definición 1.3.30 El rango intercuartil, simbolizado por R.I, es la diferencia

entre el tercer y el primer cuartil. Es decir,
R.I = Q3 − Q1.
El rango intercuartil contiene el 50% de los datos, dejando a la izquierda el 25% inferior de los
datos y a la derecha, el 25% superior.
Ejemplo 1.3.31 Halle el rango intercuartil del conjunto de datos de la empresa 1 de la

tabla 1.11.
SOLUCION:
Para estos datos, el primer cuartil es 32.500 dólares y el tercer cuartil, 34.500 dólares. Por
lo tanto,
Rango intercuartil = 34.500 − 32.500 = 2.000 dólares. ◭
Desviación
Definición 1.3.32 La desviación de un dato se define como la diferencia entre el

dato y la media del conjunto de datos de donde proviene dicho dato. Es decir, sean
dados los datos x1, . . . , xn. Entonces, la desviación del dato xi se define como
Desviación del dato xi = xi − x.

Una desviación positiva para una medida, indica que la medida está por encima de la media, mientras
que una desviación negativa nos señala que está por debajo de la media. Una desviación 0 para un
dato indica que el dato es igual a la media.
Ejemplo 1.3.33 Calcule la desviación de los puntaje para los datos siguientes, que repre-
senten el número de defectos encontrados por un inspector de automóviles en una lı́nea de
ensamblaje en los últimos cinco automóviles producidos: 1, 4, 6, 6 y 8.
SOLUCION:
Se puede determinar que la media muestral es x = 5. Las desviaciones de los valores se
presentan en la tabla siguiente:
x x−x
1 1-5 = -4
4 4-5 = -1
6 6-5 = 1
6 6-5 = 1
8 8-5 = 3
Podemos observar que

1. Las medidas 6 y 8 están arriba de la media y sus desviaciones son positivas.
2. Las medidas 1 y 4 están debajo de la media y sus desviaciones son negativas.
3. La suma de las desviaciones es 0. ◭
Una propiedad importante que podemos resaltar con respecto la desviación de un dato
es la siguiente:
Teorema 1.3.34 La suma de las desviaciones de los valores para cualquier conjunto
de números x1, . . . , xn es igual a cero. Esto es, (x1 − x) + · · · + (xn − x) = 0.
La desviación de los valores puede usarse para describir la dispersión de una distribución
dada de datos cuantitativos. Recordemos que la desviación de un valor representa
la diferencia entre un dato y la media del conjunto de datos del cual proviene. En
consecuencia, podrı́amos pensar que el promedio de todas las desviaciones de los valores
proporciona una medida de la dispersión de todos los valores, pero eso no ocurre, pues
ya se ha dicho en el teorema 1.3.34 que la suma de todas las desviaciones de los valores
es 0.
Varianza y desviación estándar (o tı́pica)

Aunque el rango es una medida de dispersión total y el rango intercuartil es una medida
de la dispersión de la media, ninguna de estas medidas de variación toma en cuenta
cómo se distribuyen o se agrupan las observaciones. Dos medidas de uso común que
sı́ toman en cuenta la distribución de los valores de los datos son la varianza y su raı́z
cuadrada, la desviación estándar o tı́pica. Estas medidas evalúan la manera en que
fluctúan los valores respecto a la media.
Definición 1.3.35 La varianza de una población de valores se define como

el promedio de los cuadrados de las desviaciones de los valores y se denota por σ2
(léase “sigma cuadrada”). La varianza de la población de valores x1, . . . , xn está
dada por la fórmula
(x1 − µ)2 + (x2 − µ)2 + · · · + (xn − µ)2

σ2 = .
n
La desviación estándar (o tı́pica) poblacional de un conjunto de datos, sim-
bolizada por σ, se define como la raı́z cuadrada positiva de la varianza poblacional
de los datos. Es decir, p
σ = Varianza poblacional.
Por razones de comodidad en los cálculos, para determinar la varianza de la población

se usa normalmente la fórmula que aparece en el siguiente
Teorema 1.3.36 La varianza de la población de valores x1, . . . , xn está dada por
x21 + x22 + · · · + x2n

σ2 = − µ2.
n
Esta fórmula es equivalente a la que se introdujo en la definición 1.3.35 y puede recordarse fácilmente
mediante la espresión: “ la media de los cuadrados menos el cuadrado de la media”.
Ejemplo 1.3.37 Encuentre la varianza y desviación de los datos 62, 80, 83, 72 y 73 si estos
constituyen una población.
SOLUCION:
La media de estos datos es µ = 74. Por lo tanto, la varianza poblacional está dada por
(62 − 74)2 + (80 − 74)2 + (83 − 74)2 + (72 − 74)2 + (73 − 74)2 266
σ2 = = = 53, 2.
5 5
√
La desviación estándar de estos datos es σ = 53, 2 = 7, 29.
Definición 1.3.38 La varianza de una muestra con valores x1, . . . , xn se de-

nota por s2 y se define por
(x1 − x)2 + (x2 − x)2 + · · · + (xn − x)2

s2 = .
n−1
La desviación estándar (o tı́pica) muestral de un conjunto de datos , deno-
tada por s, se define como la raı́z cuadrada positiva de la varianza muestral de los
datos. Es decir, √
s = Varianza muestral.
Al igual que la varianza poblacional, la varianza muestral se puede calcular de otra ma-
nera como se ilustra en el siguiente
Teorema 1.3.39 La varianza muestral de un conjunto de datos x1, . . . , xn se puede

calcular por
(x21 + x22 + · · · + x2n) − nx2
s2 = .
n−1
Ejemplo 1.3.40 Encuentre la varianza y desviación estándar de los datos del ejemplo 1.3.37
si estos constituyen una muestra de una población.
SOLUCION:
Nuevamente, x = 74. Por lo tanto, la varianza muestral está dada por
(62 − 74)2 + (80 − 74)2 + (83 − 74)2 + (72 − 74)2 + (73 − 74)2 266
s2 = = = 66, 5
5−1 4
√
y la desviación muestral, por s = 66, 5 = 8, 15. Observemos cómo cambia el valor de la
varianza (y, por consiguiente, también la desviación muestral) al considerar los datos como
una muestra o como una población. ◭
Desviación media
Otro tipo de medida de dispersión es la que se define a continuación.
Definición 1.3.41 La desviación media de un conjunto de datos es la media de

las desviaciones de cada dato. Es decir, la desviación media de los datos x1, . . . , xn
se define como
|x1 − x| + |x2 − x| + · · · + |xn − x|
DM = .
n
La definición es análoga para datos poblacionales. Observemos que la desviación media está medida
en las mismas unidades que la de los datos.
Ejemplo 1.3.42 Para la población 2, 2, 4, 5 y 2 de las edades (en años) de cinco casas, la
media es x = 3, con lo que la desviación media es DM = 6/5 = 1, 2 años. Ası́, la edad de
cada casa difiere de la media de la población en un promedio de 1,2 años. ◭
Ventajas y desventajas de la varianza, la desviación estándar y la desviación

media
Si la varianza se usa por sı́ misma como medida descriptiva de la dispersión, es difı́cil
interpretarla porque las unidades de la varianza son el cuadrado de las unidades de me-
dida. En otras palabras, la desviación estándar se mide con las mismas unidades que
las de los datos originales. Por esta razón la desviación estándar se compara con más
facilidad con el promedio y otros estadı́sticos que tienen las mismas unidades que los
datos originales.
A la hora de elegir una medida que describa la cantidad de dispersión de un conjunto

de datos, la desviación media tiene dos ventajas frente a la desviación tı́pica. En primer
lugar, es más fácil de interpretar conceptualmente. Es más sencillo conceptuar “el
promedio de las desviaciones respecto de la media” que “la raı́z cuadrada del promedio
del cuadrado de las desviaciones respecto de la media”. En segundo lugar, dado que en
el cálculo de la varianza y de la desviación tı́pica se elevan al cuadrado las desviaciones
individuales, estas dos medidas se verán más influenciadas por observaciones extremada-
mente grandes o extremadamente pequeñas que la desviación media. A pesar de sus
ventajas, la desviación media se emplea con poca frecuencia en la práctica, debido a las
complicaciones que pueden surgir si se usa para hacer inferencias sobre una población a
partir de las observaciones de una muestra.
La varianza y la desviación estándar tienen una limitación seria: pueden verse afec-
tadas en presencia de observaciones aberrantes, pues ambas dependen de la media, que
se modifica por las medidas extremas. Cuando en un conjunto de datos están presentes
observaciones aberrantes y se requiere una medida resistente a ellas, debe utilizarse el
rango intercuartil.
Varianza y desviación tı́pica para datos en tablas de frecuencia

A menudo tendremos ocasión de encontrar la varianza y la desviación estándar para
datos desplegados en una tabla de frecuencia.
Definición 1.3.43 Las varianzas poblacional y muestral (ponderadas) de

un conjunto de datos x1, . . . , xn con frecuencias f1, . . . , fn se calculan mediante las
siguientes fórmulas:
f1(x1 − µ)2 + · · · + fn(xn − µ)2 f1(x1 − µ)2 + · · · + fn(xn − µ)2

σ2 = , s2 = .
f1 + · · · + fn (f1 + · · · + fn) − 1
Estas medidas se pueden calcular, equivalentemente, de la siguiente manera:

2 f1 x21 + · · · + fn x2n 2 2 f1 x21 + · · · + fn x2n − (f1 + · · · + fn )x2
σ = − µ , s = ,
f1 + · · · + fn (f1 + · · · + fn ) − 1
respectivamente.
Ejemplo 1.3.44 Dados los siguientes datos de una población, hallar la media, varianza y
desviación estándar.
Dato 28 31 34 37 40 43 46
Frecuencia 1 10 14 33 14 7 3
SOLUCION:
Primero construimos la tabla 1.12 que nos ayudará en los cálculos.
Dato x Frecuencia f fx x−µ (x − µ)2 f(x − µ)2

28 1 28 -9 81 81
31 10 310 -6 36 360
34 14 476 -3 9 126
37 33 1.221 0 0 0
40 14 560 3 9 126
43 7 301 6 36 252
46 3 138 9 81 243
Sumas 82 3.034 1.188
Tabla 1.12: Tabla de frecuencias para el ejemplo 1.3.44
Se encuentra que la media poblacional es

P
fx 3.034
µ = P = = 37.
f 82
Además, P
2 f(x − µ)2 1.188
σ = P = = 14, 4878
f 82
√
y de esta forma σ = 14, 4878 = 3, 806. ◭
Aplicaciones de la desviación estándar poblacional

Hasta ahora, hemos visto que la varianza y la desviación estándar son muy útiles para
comparar la dispersión de dos poblaciones. Pero también podemos interpretar la desvia-
ción de una única población. Concretamente, puede usarse esta cantidad para estimar
el porcentaje de valores de la población que se encontrarán a menos de una distancia
especı́fica de la media. Para construir tales estimaciones, utilizaremos dos reglas: la
regla de Tchebychev (válida para cualquier población) y la empı́rica.
Teorema 1.3.45 (Regla de Tchebychev) Para cualquier población con media µ

y desviación estándar σ, por lo menos el 100(1−1/k2)% de los valores de la población
se encuentran a una distancia de la media menor que k veces la desviación estándar,
para cualquier número k > 1. En otras palabras, dentro del intervalo que va desde
µ − kσ hasta µ + kσ se encuentra por lo menos el 100(1 − 1/k2)% de los valores de
la población.
Para ver como funciona la regla de Tchebychev en la práctica, hemos construido la

siguiente tabla:
k 1,5 2 2,5 3 3,5 4

100(1 − 1/k2)% 55,6% 75% 84% 88,9% 91,18% 93,7%
Es decir, de acuerdo con la regla de Tchebychev, al menos el 55,6% de los valores

de la población se encuentran a una distancia de la media menor que 1,5 veces de la
desviación tı́pica. O, dicho de otra forma, dentro del intervalo que va desde µ − 1, 5σ
hasta µ + 1, 5σ se encuentra por lo menos el 55, 6% de los valores de la población. Esta
situación se ilustra en la figura 1.10.
Fig. 1.10: Ilustración de la regla de Tchebychev

Ejemplo 1.3.46 Consideremos los datos de la empresa 1 de la tabla 1.11(a), que tenı́a una
media de 33.000 dólares y una desviación estándar de 1.554 dólares. La regla de Tchebychev
nos dice que, para esta población, al menos el 55% de los salarios deben estar a una distancia
de la media menor que (1,5)(1.554)=2.331 dólares. En otras palabras, dentro del intervalo
que va desde 31.169 dólares a 35.831 dólares están por lo menos el 55,6% de los salarios.
Analogamente, dentro del intervalo que va desde 30.392 a 36.608 dólares se encuentran por
lo menos el 75% de los salarios. ◭
Ejemplo 1.3.47 Un inspector de control de calidad selecciona aleatoriamente 14 clavos de

una caja de 100 clavos de 1 pulgada (una pulg.=2,54 cm). Las longitudes, en cm, son
2, 54 2, 55 2, 50 2, 60 2, 51 2, 52 2, 70 2, 40 2, 36 2, 53 2, 54 2, 52 2, 51 2, 55.
Si el inspector decide excluir los clavos que están fuera del intervalo x ± 2s, ¿cuál es el
porcentaje de clavos excluidos? ¿Se verifica la regla de Tchebychev?
SOLUCION:
Vemos que x = 2, 52 y s = 0, 07. Como deseamos desechar los clavos que están fuera
del intervalo x ± 2s, es decir, [2, 38; 2, 66], observamos que dos clavos no pertenecen a ese
intervalo (los de longitud 2,70 y 2,36) que corresponde al 14, 28% de la muestra. La regla
de Tchebychev afirma que por lo menos el 75% de los clavos deberán estar en el intervalo
x ± 2s, es decir, a lo más el 25% estarán fuera de dicho intervalo, lo cual verifica la regla de
Tchebychev. ◭
La ventaja de la regla de Tchebychev es que se puede aplicar a cualquier población.

Pero, en contrapartida, tiene un importante inconveniente. Para muchas poblaciones, el
porcentaje de valores que se encuentran de un intervalo determinado es mucho mayor
que el mı́nimo asegurado por la regla de Tchebychev. Para poblaciones que tengan
forma acampanada, es posible establecer una regla empı́rica que proporcione estima-
ciones fiables.
Teorema 1.3.48 (Regla empı́rica) Para las poblaciones que tengan forma acam-
panada, aproximadamente el 68% de los valores de la población se encuentran a una
distancia de la media menor que una desviación estándar, y aproximadamente el
95% están a una distancia de la media menor que dos veces la desviación tı́pica
(compárese con la figura 1.11).
Ejemplo 1.3.49 Supongamos que tenemos una población de salarios que tienen forma
acampanada con una media de 33.000 dólares y una desviación estándar de 1.554 dólares.
La regla empı́rica estimarı́a que aproximadamente el 68% de los salarios estarán dentro del
intervalo que va desde 31.946 dólares a 35.054 y que aproximadamente el 95% estará dentro
del intervalo que va desde 30.392 a 36.608 dólares. ◭
El coeficiente de variación
Para comparar las dispersiones de dos o más conjuntos de valores no podemos confrontar
simplemente las varianzas o las desviaciones estándar respectivas, puesto que estos coe-
ficientes de dispersión vienen afectados por la escala de medida del respectivo valor. Es
necesario, por tanto, eliminar esa influencia convirtiendo dichos valores en números sin
(a) El 68% de los datos se encuentran en el intervalo (µ −

1σ, µ + 1σ).
(b) El 95% de los datos se encuentran en el intervalo (µ −

2σ, µ + 2σ).
Fig. 1.11: Ilustración de la regla empı́rica para una población con forma acampanada
unidades de medidas. Una medida que cumple perfectamente con este cometido es el
llamado coeficiente de variación de Pearson.
Definición 1.3.50 El coeficiente de variación de Pearson de un conjunto

de datos, simbolizado por CV, es igual a la desviación estándar dividida entre la
media, multiplicada por 100 por ciento. Es decir,

desviación estándar de los datos
CV = · 100%.
media aritmética de los datos
Observemos que al dividir la desviación estándar por la media aritmética se elimina la

influencia de la escala de medida, convirtiéndose ası́ el coeficiente de variación en una

medida útil para comparar conjuntos de datos con diferentes unidades de medida. El
inconveniente de este coeficiente está en que deja de ser utilizable cuando la media es
igual a cero.
El siguiente ejemplo ilustra el cálculo del coeficiente de variación.
Ejemplo 1.3.51 Los siguientes datos representan el promedio de millas por galón diario
por cinco dı́as para un determinado auto: 20, 25, 30, 15, 35. Encuentre el coeficiente de
variación e interprete su respuesta.
SOLUCION:
La media y desviación estándar de millas por galón están dadas por x = 25 y s = 7, 9,
respectivamente. Por tanto, el coeficiente de variación de estos datos es
s
7, 9
CV = · 100% = · 100% = 31, 6%.
x 25
Por consiguiente, el tamaño relativo de la “dispersión media alrededor de la media” con

relación a la media es 31,6%. ◭
Como medida relativa, el coeficiente de variación resulta especialmente útil cuando se

compara la variabilidad de dos o más conjuntos de datos, que se expresan en diferentes
unidades de medidas. Esto se muestra en el siguiente
Ejemplo 1.3.52 El gerente de operaciones de un servicio de paqueterı́a desea adquirir una

nueva flota de autos. Cuando los paquetes se guardan con eficiencia en el interior de los
autos (durante la preparación de las entregas), se deben considerar dos restricciones prin-
cipales: el peso (en libras) y el volumen (en pies cúbicos) de cada paquete. Ahora, en una
muestra de 200 paquetes, el peso promedio es 26 libras con una desviación estándar de 3,9
libras. Además, el volumen promedio de cada paquete es 8,8 pies cúbicos con una desviación
estándar de 2,2 pies cúbicos. ¿Cómo se puede comparar la variación del peso y del volumen?
SOLUCION:
Como las unidades de medida difieren para las restricciones de peso y volumen, si el
gerente de operaciones desea comparar las fluctuaciones en estas medidas, debe conside-
rar la variabilidad relativa en ambos tipos de medidas. Para el peso, el coeficiente de
variación es CV = (3, 9/26)100% = 15%; para el volumen, el coeficiente de variación es
CV = (2, 2/8, 8)100% = 25%. Entonces, con relación a la media, el volumen de un paquete
es mucho más variable que su peso porque el coeficiente de variación del peso es menor que
el del volumen. ◭
El coeficiente de variación es muy útil cuando se comparan dos o más conjuntos de datos
que se miden con las mismas unidades, pero son tan diferentes que una comparación
directa de las desviaciones estándar respectivas no ayuda mucho. Esto se ilustra en el
siguiente
Ejemplo 1.3.53 Un inversionista potencial piensa adquirir acciones en una de dos compañı́as
A o B, listadas en la Bolsa de Valores de Nueva York. Si ninguna de las compañı́as ofrece
dividendos a sus clientes y ambas tienen igual clasificación (según varios servicios de in-
versión) en términos de crecimiento potencial, el posible inversionista quizás considere la
volatilidad (variabilidad) de ambas acciones para ayudar en la decisión de inversión. En los
últimos meses, el precio promedio de las acciones en la compañı́a A fue de 50 dólares con una
desviación estándar de 10 dólares. Además, durante el mismo periodo, el precio promedio
de las acciones en la compañı́a B fue de 12 dólares con una desviación estándar de 4 dólares.
¿Cómo puede determinar el inversionista cuáles acciones son más variables?
SOLUCION:
En términos de la desviación estándar, el precio de las acciones de A parece más volátil
que el de las acciones de B. Sin embargo, como los precios promedio por acción de las dos
compañı́as son tan diferentes, serı́a conveniente que el inversionista potencial considere la
variabilidad en precio respecto al promedio a fin de examinar la volatilidad/estabilidad de
ambas acciones.
Para la compañı́a A, el coeficiente de variación es CV = (10/50)100% = 20%; para la

compañı́a B, el coeficiente de variación es CV = (4/12)100% = 33, 3%. Entonces, en relación
con la media, el precio de las acciones B es mucho más variable que el de las acciones A. ◭
1.3.4 Medidas de formas

Una vez iniciado el análisis estadı́stico de sintetización de la información, para lo cual
hemos estudiado las medidas de tendencia central, de posición relativa y de dispersión de
un conjunto de datos, necesitamos conocer más sobre el comportamiento de tales datos.
Para ello estudiaremos las medidas de forma, las cuales nos proporcionan información
sobre cómo se distribuyen los datos.
Las medidas de forma se clasifican en medidas de asimetrı́a (o coeficiente de sesgo)

y medidas de curtosis (o de apuntamiento). A continuación, explicaremos cada una de
ellas. Antes, estudiaremos los conceptos de simétrı́a y asimétrı́a.
Simétrı́a y asimétrı́a
Una distribución de frecuencias será simétrica o asimétrica según lo sea su representación
gráfica.
Definición 1.3.54 Decimos que una distribución de frecuencias es simétrica

cuando lo es su representación gráfica, es decir, los datos equidistantes a una
medida central de la misma tienen frecuencias iguales. Esta medida central coincide
con la mediana y la media.
Una distribución de frecuencias que no es simétrica, se denomina asimétrica. La

asimetrı́a se puede presentar a la derecha ( asimetrı́a positiva) o a la izquierda
( asimetrı́a negativa) si la representación gráfica está más “estirada” hacia la
derecha o hacia la izquierda, respectivamente.
Los conceptos explicados en la defición se ilustran en la figura 1.12. Ahora, consideremos

los siguientes comentarios para el caso en que la distribución de frecuencias tiene una
sola moda:
• En una distribución simétrica, la media, la media y la moda siempre coinciden

(compárese con la figura 1.13a). Es decir, se cumple la relación
Media = mediana = moda.

(a) Distribución simétrica uni- (b) Distribución simétrica bi-

modal modal
(c) Distribución asimétrica a (d) Distribución asimétrica a

la derecha la izquierda
Fig. 1.12: Comparación de cuatro distribuciones cuya forma difiere.
En este tipo de distribuciones, los datos se encuentran repartidos a lo largo del

recorrido de forma que todas las medidas de tendencia central están justo en el
centro del conjunto de datos.
• Si la distribución es asimétrica a la derecha el orden en que aparecen las medidas
de tendencia central es moda-mediana-media (compárese con la figura 1.13b). Es
decir, se cumple la relación
Moda < mediana < media.
Esto es ası́ porque es en el lado derecho dónde se concentra la mayor frecuencia de

los datos, por lo tanto, observamos una cola larga a la derecha de la distribución.
• Si la distribución es asimétrica a la izquierda, el orden en que aparecen es media-
mediana-moda (compárese con la figura 1.13c). Es decir, se cumple la relación
Media < mediana < moda.
En este caso, la mayor frecuencia de los datos se concentra en el lado izquierdo.

Por lo tanto, observamos una cola larga hacia la izquierda de la distribución.
Consideremos el caso en que la distribución no es unimodal:
• Para distribuciones que no tengan moda, si la media es igual a la mediana, en-
tonces, la representación gráfica de la distribución es simétrica.
• Para distribuciones que tengan más de una moda, la media es igual a la mediana
si y sólo si la representación gráfica de la distribución es simétrica.
(a) Distribución simétrica (b) Distribución asimétrica a la derecha
(c) Distribución asimétrica a la izquierda
Fig. 1.13: Comparación de tres distribuciones unimodales cuya forma difiere.
Medidas de asimetrı́a
Las medidas de asimetrı́a o coeficientes de sesgo tienen como finalidad la
de elaborar un indicador que permita establecer el grado de simetrı́a (o asimetrı́a) que
presenta una distribución, sin necesidad de llevar a cabo su representación gráfica. La
medida de asimetrı́a más utilizada en la práctica es el llamado coeficiente de asimetrı́a
de Pearson.
Definición 1.3.55 El coeficiente de asimetrı́a de Pearson, simbolizado por

Ap, se define como la diferencia entre la media aritmética y la mediana dividida por
la desviación estándar. Es decir,
Media aritmética − Moda
Ap = .
Desviación estándar
Cuando As = 0, se dice que la distibución es simétrica; cuando As > 0, se dice que la distribución
es sesgada positivamente o a la izquierda y cuando As > 0, se dice que la distribución es
sesgada negativamente o a la derecha.
Consideremos la figura 1.13, en donde mostramos la forma de tres conjuntos de datos.
• Los datos en la figura 1.13(a) son simétricos. Por esta razón, el coeficiente de
sesgo es cero.
• Los datos de la figura 1.13(b) están sesgados a la derecha. Por lo tanto, el

coeficiente de sesgo es positivo.
• Los datos de la figura 1.13(c) están sesgados a la izquierda. Por consiguiente, el

el coeficiente de sesgo es negativo.
Ahora bien, por diversas razones, el coeficiente de asimetrı́a de Pearson tan sólo es apli-
cable en las distribuciones de forma acampanada y unimodales . En distribuciones de
otro tipo se puede utilizar, entre otros, los llamados coeficiente de asimetrı́a de Fisher
y coeficiente de asimetrı́a de Fisher estandarizado.
Definición 1.3.56 Los coeficientes de asimetrı́a de Fisher (simbolizado por

g1) y de Fisher estandarizado (simbolizado por gs) de un conjunto de datos
x1, . . . , xn con frecuencias f1, . . . , fn se definen, respectivamente, como
(x1 − x)3f1 + · · · + (xn − x)3fn g1

g1 = , gs = p .
s3n 6/n
Si g1 = 0 la distribución es simétrica; si g1 > 0, la distribución es sesgada positivamente, y si
g1 > 0, la distribución es sesgada negativamente. Interpretaciones análogas se tienen con el valor
de gs .
Relación empı́rica entre media, mediana y moda

El siguiente terema fue encontrado empı́ricamente por Pearson. Allı́ se puede observar
claramente una relación empı́rica entre la media, la mediana y la moda.4
4
Téngase en cuenta que, en las distribuciones moderadamente asimétricas, la mediana siempre
se sitúa entre la media y la moda.
Teorema 1.3.57 Para distribuciones campanoides, unimodales y moderadamente

asimétricas se cumple aproximadamente la relación empı́rica
Media − Moda ≈ 3(Media aritmética − Mediana),
Con lo anterior, el coeficiente de asimetrı́a de Pearson se puede calcular también a

través de la fórmula
3(Media aritmética − Mediana)

Ap = .
Desviación estándar
Medidas de curtosis o apuntamiento

Las medidas de curtosis estudian la distribución de frecuencias en la zona central de la
misma. La mayor o menor concentración de frecuencias alrededor de la media y en la
zona central de la distribución dará lugar a una distribución más o menos apuntada. Por
esta razón, a las medidas de curtosis se aplican a distribuciones campaniformes, es decir,
unimodales simétricas o con ligera asimetrı́a. Para estudiar la curtosis de una distribución
es necesario definir previamente una distribución tipo, que vamos a tomar como modelo
de referencia. Esta distribución es la normal, que sólo introduciremos en la sección ??.
Por esta razón, aplazaremos nuestro estudio de la curtosis de una distribución para más
adelante, una vez que hallamos introducido la distribución normal.

23. Responda las siguientes preguntas. Justifique sus respuestas.
(a) ¿Qué escala de medida se requiere para la mediana? ¿Y para la moda?
(b) ¿En qué condiciones coinciden la media, la mediana y la moda de una muestra?
(c) ¿En qué caso será demasiado grande la diferencia entre la media y la mediana?
(d) ¿Qué efecto tiene el tamaño de la muestra en la desviación estándar y en la varianza?
24. Supongamos que en un conjunto de 10 observaciones la media es 20 y la mediana es 15.
Si hay en ese conjunto dos seis, y todos los otros valores son diferentes, ¿cuál es la moda?
25. Veintiún personas en un salón de clase tienen altura promedio de 168 centı́metros. Si al
salón entra una persona adicional, entonces, ¿cuál es la altura que debe tener esta persona
para que la altura promedio se incremente en un centı́metro?
26. Una empresa de servicio eléctrico de una ciudad le realiza la lectura del contador de luz a
un usuario, obteniendo los siguientes datos:
Fecha Lectura
Agosto 27 00553 Kwh
Agosto 30 00571 Kwh
Septiembre 4 00605 Kwh
El recibo de pago le llegó al usuario con lectura de 00638 Kwh, realizada el 9 de septiembre,
pero la empresa no dejó constancia de lectura, hecho que motivó el reclamo del usuario
alegando que le estaban cobrando de más. ¿Tiene la razón el usuario? Explique.
27. Un piloto A de la Fórmula 1 ganó 60 carreras de las 152 en las cuales participó, mientras
que otro piloto B ganó 52 carreras de las 115 en las que participó. ¿Cuál de los dos es
mejor piloto? Explique su respuesta.
28. Durante cierto dı́a caluroso en Barranquilla, se registró una temperatura de 38 ◦ C a las
3:00 p.m. De repente un viento frı́o se hizo acompañado con lluvias que hizo descender
la temperatura a 25 ◦ C a las 3:35 p.m. Se puede afirmar que la temperatura promedio de
ese da fue de 31,5 ◦ C? Justifique sus respuestas.
29. Según el recibo de energı́a eléctrica, los consumos de los últimos cinco meses de un usuario
son: 1, 6, 33, 40 y 51 Kwh, respectivamente. Para el sexto mes, el recibo le llega con
una lectura estimada (no real) de 50 Kwh. ¿Debe el usuario reclamar ante la empresa de
energı́a eléctrica? ¿Por qué?
30. Una cadena de grandes almacenes tiene diez establecimientos. Se analiza el volumen
de ventas durante el perı́odo de navidad y se comparan con las obtenidas en el mismo
perı́odo del año anterior. Los porcentajes de incrementos de ventas en dólares de los diez
establecimiento fueron
10,2 3,1 5,9 7,0 3,7 2,9 6,8 7,3 8,2 4,3
Halle la media, la mediana, la varianza muestral, la desviación tı́pica, el rango y el rango

intercuartil del porcentaje de incremento de ventas en dólares. Interprete sus respuestas.
31. Los neumáticos de cierta marca tiene una duración de vida con media de 29.000 kilómetros
y desviación tı́pica de 3.000 kilómetros.
(a) Encontrar un intervalo en el que se pueda garantizar que se encuentra por lo menos
el 75% de los tiempos de vida de los neumáticos de esta marca.
(b) Usando la regla impı́rica y suponiendo que la población tiene forma acampanada,
encontrar un intervalo en el cual se estime que se encuentra aproximadamente el 95%
de los tiempos de vida de los neumáticos de esta marca.
32. Se ha estimado, que la media de la cantidad de dinero que gastan en ropa las mujeres
colombianas es de 500.000 pesos, mientras que para los hombres, la media es de 350.000
pesos. Dibujar un diagrama de barras que represente esta información.
33. Considere las siguientes observaciones de resistencia al corte (en megapascales), de una
unión pegada de cierta manera:
73,7 36,6 109,9 4,4 33,1 66,7 30,0 81,5 22,2 40,4 16,4
Determine el valor de la media y mediana muestrales. ¿Por qué la mediana es tan diferente
de la media?
34. Los valores de presión sanguı́nea se reportan a veces a los 5 mm Hg más cercanos (100,
105, 110, etc.). Suponga que los valores reales de presión sanguı́nea para nueve individuos
seleccionados al azar son:
130,0 113,7 122,0 108,3 131,5 133,2 118,6 127,4 138,4
(a) ¿Cuál es la mediana de los valores reportados de presión sanguı́nea?

(b) Suponga que la presión del octavo individuo es 127,6 en lugar de 127,4 (un pequeño
cambio en su valor). ¿Cómo afectarı́a esto a la mediana de los valores reportados?
¿Qué dice esto sobre la sensibilidad de la mediana para redondear o agrupar los datos?
35. La propagación de grietas por fatiga en diversas partes de aeronaves ha sido objeto de
profundo estudio en años recientes. Los datos que aparecen a continuación constan de
tiempo de propagación (horas de vuelo/104 ) para llegar a un tamaño de grieta dado en
agujeros sujetadores que se usan en aeronaves militares:
0,915 0,937 0,983 1,007 0,736 0,863 0,865 0,913
1,132 1,140 1,153 1,253 1,394 1,011 1,064 1,109
(a) Calcule los valores de la media y mediana muestrales.

(b) ¿En cuánto se puede reducir la observación muestral más grande, sin afectar el valor
de la mediana?
36. Una manifestación interesante de la variación surge cuando se efectúan los análisis de
emisión de gases en los vehı́culos automotores. Los requisitos de costo y tiempo del
procedimiento federal de prueba (PFT) en cierto pais evitan la difusión de su uso en los
programas de inspección vehicular. Como resultado, muchas agencias han desarrollado
análisis menos costosos y más rápidos con la esperanza de reproducir los resultados.
Según un artı́culo de una prestigiosa revista, se dice que la eceptación del PFT como
patrón de excelencia ha conducido a la creencia de que las mediciones repetidas en el
mismo vehı́culo darán resultados idénticos (o casi). Los autores del artı́culo aplicaron el
PFT a siete vehı́culos caracterizados como “grandes emisores”. Los resultados de uno de
esos vehı́culos son los siguientes:
HC (g/mi) 32,2 32,5 13,8 18,3
CO (g/mi) 232 236 118 149
(a) Calcule las desviaciones estándar muestrales de las observaciones de HC y CO. ¿Parece
justificada la creencia general?
(b) Compare los coeficientes de variación de cada conjunto de datos para determinar
cuáles presentan mayor o menor variación.
37. Los puntajes finales de 20 alumnos en un curso de Estadı́stica son:

50 55 61 60 71 73 53 54 67 67
54 77 72 76 81 83 87 44 48 67
¿Qué proporción de estos puntajes cae
(a) dentro de ±1 desviación estándar de la media?
(b) dentro de ±2 desviaciones estándar de la media?
(c) dentro de ±3 desviaciones estándar de la media?
38. Un taller de mecánica acepta una orden por 10.000 ruedas de 2 pulgadas de diámetro.
Las especificaciones de tamaño del producto podrán ser mantenidas sólo si el diámetro
medio es de 2 pulgadas y la desviación estándar es muy pequeña. En este caso, ¿cuál es
el margen de tolerancia permitido para la desviación estándar?
39. Un procesador de alimentos debe envasar su café instantáneo en frascos de 400 gramos
y para ello considera que la operación de llenado está funcionando adecuadamente si el
peso medio de cada frasco es de 405 gramos y la desviación estándar es de 1 gramo.
¿Aproximadamente, cuántos frascos contienen menos de 400 gramos?
40. Millones de habitantes de un cierto pais se levantan cada mañana y trabajan en sus propias
casas. Se sugiere que el uso creciente de computadoras es una de las razones por las que
las personas pueden trabajar en empresas caseras. A continuación vemos una muestra de
datos sobre las edades de esas personas.
57 31 30 41 22 58 24 50 29 52
37 32 44 49 29 44 40 46 29 31
(a) Calcule la media y la moda.

(b) Suponga que se sabe que la mediana de edad de la población de todos los adultos
es de 35.1 años. Use la mediana de la edad de los datos anteriores para comentar si
los trabajadores en casa tiende a ser más jóvenes o más viejos que la población de
todos los adultos.
(c) Calcule el primer y el tercer cuartil y el 42% percentil. Interprete sus resultados.
41. En una prueba de rendimiento y consumo de gasolina se probaron 13 autos, durante 400
millas, en condiciones de tránsito en ciudad y en el campo; de lo anterior se obtuvieron
los siguientes datos en millas por galón.
Ciudad: 14,4 13,2 15,3 16,8 16,2 16,7 15,9

16,0 15,3 16,2 16,1 15,3 15,2
Campo: 18,3 18,6 19,2 17,4 19,4 20,6 17,2
18,6 18,5 18,7 19,0 21,1 19,4
Para llegar a una conclusión sobre la diferencia de rendimiento en la ciudad y en el campo,

use la media, la mediana y la moda.
42. La asociación de Inversionistas Independientes de cierto pais lleva a cabo una encuesta
anual de descuentos con los corredores. En la tabla de datos del ejercicio ?? se ven las
comisiones que se cobran en una muestra de 20 corredores con dos tipos de operaciones:
500 acciones a $ 50 cada una, y 1.000 acciones a $ 5 cada una. Calcule el rango, el rango
intercuartil, la varianza, la desviación estándar, el coeficiente de variación y la variabilidad
del costo para cada tipo de transación.
43. La profesora Greyci borra accidentalmente la calificación de uno de sus seis estudiantes; las
cinco calificaciones restantes son 3,8; 4,3; 2,2; 4,5 y 3,3; y la media de las seis calificaciones
es 3,5. Encuentre la calificación que borró Greyci.
44. En un esfuerzo por reducir su consumo de cigarillo, un trabajador de oficina registra los
números siguientes de cigarillos fumados durante un periodo de 21 dı́as:
5 6 5 8 4 0 2 3 7 5 6 4 5 3 6 7 1 2 3 0 3
¿Qué la medida de tendencia central le servirá mejor para su propósito? ¿Cuál es su valor
numérico?
45. La tabla siguiente contiene los salarios (en miles de pesos) de 30 trabajadores.
Salario anual 550 600 700 800 3.000

(a) Determine la moda, la media, la mediana, el rango medio y el sesgo.

(b) ¿Cuál medida de tendencia usarı́a para determinar el valor central? Explique.
(c) ¿Cuál es el primer cuartil, el tercer cuartil y el sexto decil?
(d) Encuentre el rango, la desviación estándar y el rango intercuartil.
46. Una maestra hizo un examen con el mismo grado de dificultad en cada uno de sus tres
grupos. Con los resultados determinó las tres medianas y las promedió para estimar el
punto central de su habilidad profesional. ¿Puede engañarse al hacer esto? Diga por qué.
47. Suponga que una muestra tiene media 26 y desviación estándar 3,1.
1.4 Análisis de datos en tablas de frecuencias agrupadas 61
(a) Determine un intervalo que contenga al menos 95% de las medidas de las muestras.
(b) ¿Cuál es el mı́nimo porcentaje de la muestra que está contenido en el intervalo 18 -
34?
48. Suponga que una muestra tiene media 542 y desviación estándar 10,4.
(a) Determine un intervalo que contenga al menos 93% de las medidas de las muestras.
(b) ¿Cuál es el mı́nimo porcentaje de la muestra que está contenido en el intervalo 523,22
- 567,22?
49. La tabla siguiente da una muestra de los tiempos de recorrido (en minutos) de un camino
de 2,5 millas para el carro de Humberto y el de Greyci.
Humberto 0,8 0,9 1,0 0,9 1,0 1,0 0,9 1,0

Greyci 1,1 0,9 1,4 1,3 1,3 1,3 1,0 0,9
(a) Encuentre el promedio de los tiempos de recorrido para cada uno de los carros.
(b) Calcule la varianza de los tiempos de recorrido para cada uno de los carros, respecti-
vamente.
(c) ¿Qué auto tuvo un desempeño más consistente, si la consistencia se mide con la
varianza?
(d) Encuentre el coeficiente de variación para cada carro y comente al respecto.
50. Una gran lecherı́a vigila continuamente el nivel de contenido de grasa en su producto. El
porcentaje de grasa no debe desviarse mucho del 1% de la leche, siendo aceptable una
desviación estándar del 8%. Se obtuvo una muestra de 20 cartones de leche y se registró
el porcentaje grasa en cada uno. Los resultados se anotan a continuación:
1,97 1,80 2,05 2,23 1,65 1,86 1,85 2,25 2,01 1,90
2,14 1,93 2,08 2,17 1,91 1,93 2,02 2,09 2,04 2,07
Calcule la media y la desviación estándar para la muestra de contenidos de grasa. ¿Hay

evidencia de que el contenido de grasa es demasiado alto? Explique.
1.4 Análisis de datos en tablas de frecuencias agrupadas

Es posible calcular las medidas de tendencia central y dispersión para datos exhibidos
en una tabla de frecuencia agrupada, pero sus valores no son exactos sino únicamente
aproximados. Eso se debe al desconocimiento de las medidas en grupo, las cuales se
han colocado en intervalos de clase. En esta sección, describiremos procedimientos
para calcular medidas numéricas que resuman la información cuando sólo disponemos
de datos agrupados.
Media para datos agrupados

Si debemos encontrar la media para datos proporcionados en tablas de frecuencia agru-
pada, usamos marcas de clase para representar las medidas para cada clase. De esta
forma, usamos la fórmula conocida de la media aritmética para determinar la llamada
media muestral aproximada xa, puesto que los datos originales se desconocen y
cada observación está representada por su marca de clase.
Ejemplo 1.4.1 Los datos siguientes representan el número de personas que han entrado a
un establecimiento diariamente durante un periodo de 25 dı́as.
60 36 61 56 19 35 51 42 21 28 33 67 30
49 57 54 59 28 63 38 15 24 35 46 53
Los √
datos han sido agrupados en la tabla de frecuencias agrupadas 1.13 usando la fórmula
c = n para el número de clases.
Número de personas Número de dı́as

14,5 - 25,5 4
25,5 - 36,5 7
36,5 - 47,5 3
47,5 - 58,5 6
58,5 - 69,5 5
Tabla 1.13: Tabla de frecuencias agrupadas para el ejemplo 1.4.1
(a) Calcular la media x del número de personas que entran por dı́a.
(b) Calcular la media aproximada xa del número de personas que entran por dı́a.
SOLUCION:
(a) Se puede comprobar que la media de los datos es x = 42, 4.
(b) Primero debemos calcular la marca de cada clase (recordemos que una marca de clase
es el punto medio de cada intervalo de clase). Cada marca de clase se multiplica por su
frecuencia correspondiente, como se muestra en la tabla 1.14.
Número de personas Número de dı́as f Marca de clase X fX

14,5 - 25,5 4 20 80
25,5 - 36,5 7 31 217
36,5 - 47,5 3 42 126
47,5 - 58,5 6 53 318
58,5 - 69,5 5 64 320
Sumas 25 1.061
Por consiguiente, la media aproximada es

P
fx 1.061
xa = P = = 42, 44,
f 25
el cual es sólo un valor aproximado para la media de las 25 medidas muestrales originales.
La aproximación se considera buena comparada con el valor exacto x = 42, 40, obtenido
en la parte (a). ◭
Clase Frecuencia Frecuencia acumulada

49,5 - 59,5 3 3
59,5 - 69,5 7 10
69,5 - 79,5 18 28
79,5 - 89,5 12 40
89,5 - 99,5 8 48
99,5 - 109,5 2 50
Tabla 1.15: Distribución de frecuencia
Mediana para datos agrupados

Si se han registrado datos en una tabla de frecuencias, no pueden colocarse en un arreglo
ordenado para calcular la mediana. A manera de ilustración, presentamos la siguiente
tabla de frecuencias:
Primero se halla la clase de la mediana de la distribución de frecuencia. La clase
mediana es la mı́nima clase cuya frecuencia acumulada es mayor o igual a n/2, siendo
n el número total de datos. Debido a que n es igual a 50, se necesita localizar la primera
clase que tenga una frecuencia acumulada de 25 o más. En este caso, la tercera clase
es la clase mediana porque tiene una frecuencia acumulada de 28. La mediana puede
determinarse entonces como

n/2 − F
Mediana = Lmed + · w,
fmed
en donde
• Lmed es la frontera inferior de la clase de la mediana (de la tabla, es 69,5),
• F es la frecuencia acumulada de la clase que antecede a la clase de la mediana (en

este caso, es la frecuencia acumulada correspondiente a la segunda clase, o sea
F = 10),
• fmed es la frecuencia de la clase de la mediana (en este caso, f = 18),
• w es la amplitud del intervalo de clase de la clase de la mediana (w = 10).
Es decir,
25 − 10
Mediana = 69, 5 + · 10 = 77, 83.
18
Moda para datos agrupados

Una desventaja de usar la moda con una distribución de frecuencia agrupada es que
el valor de la moda a menudo depende del agrupamiento arbitrario de los datos. La
clase que contiene al mayor número de datos suele denominarse clase modal o moda
cruda.
Para estimar la moda en el caso de datos agrupados, se utiliza la siguiente fórmula:

Da
Moda = Lmod + · w,
Db + Da
en donde
• Lmod es la frontera inferior de la clase modal (por ejemplo, de la tabla de la figura

1.15, Lmod = 69, 5),
• Da es la diferencia entre la frecuencia de la clase modal y de la clase que la

antecede (por ejemplo, de la tabla de la figura 1.15, Da = 18 − 7 = 11),
• Db es la diferencia entre la frecuencia de la clase modal y de la clase que le sigue

(por ejemplo, de la tabla de la figura 1.15, Db = 18 − 12 = 6),
• w es el ancho del intervalo de clase de la clase modal (por ejemplo, de la tabla de

la figura 1.15,w = 10).
De la tabla 1.15, la moda es

11
Moda = 69, 5 + · 10 = 75, 97.
6 + 11
Rango medio para datos agrupados

Para datos organizados en una tabla de frecuencias agrupadas, el rango medio es aprox-
imadamente el promedio de la frontera inferior de clase de la primera clase y la frontera
superior de clase de la última clase.
Ejemplo 1.4.2 El rango promedio aproximado para los datos del ejemplo 1.4.1 es
26, 5 + 47, 5
Rango promedio = = 74. ◭
2
Puntos de posición para datos de una tabla de frecuencia agrupada

Supongamos que queremos encontrar el sexagésimo punto percentil de los datos que
presentamos en la tabla 1.15. Para ello, primero debemos hallar la clase del sexagésimo
punto percentil de la distribución de frecuencias. En general, la clase del p-ésimo
punto percentil es la mı́nima clase cuya frecuencia acumulada es mayor o igual a
p%n, siendo n el número total de datos. Como n = 50 y p = 60, entonces, necesitamos
localizar la primera clase que tenga una frecuencia acumulada de (60%)(50)=30 o más.
En este caso, la cuarta clase es la clase donde se encuentra el sexagésimo punto percentil
de los datos porque tiene una frecuencia acumulada de 40. Entonces, el sexagésimo
punto percentil puede determinarse como

p%n − F
p-ésimo punto percentil = Lp + · w,
fp
en donde
• Lp es la frontera inferior de la clase del p-ésimo punto percentil (de la tabla, es

79,5),
• F es la frecuencia acumulada de la clase que antecede a la clase del p-ésimo punto
percentil (en este caso, es la frecuencia acumulada correspondiente a la tercera
clase, o sea F = 28),
• fp es la frecuencia de la clase del p-ésimo punto percentil (en este caso, f = 12),
• w es la amplitud del intervalo de clase de la clase del p-ésimo punto percentil
(w = 10).
Es decir,

30 − 28
Sexagésimo punto percentil = 79, 5 + · 10 ≈ 81, 16.
12
Varianza y desviación tı́pica

Las marcas de clase se usan tı́picamente para representar medidas que caen en las
clases de una tabla de frecuencia agrupada cuando se necesita obtener la varianza o
la desviación estándar aproximadas de los datos. Al hacerse esto, se usan las fórmulas
análogas para calcular la varianza y la desviación estándar, para el caso de distribuciones
de frecuencias no agrupada.
Ejemplo 1.4.3 Calcular la varianza y desviación estándar de los datos del ejemplo 1.4.1.
SOLUCION:
Como antes, debemos encontrar las marcas de clase m y con ello construimos la tabla 1.16,
siendo µa la media poblacional aproximada de los datos.
Clase m f fm m − µa (m − µa)2 f(m − µa)2

26,5 - 29,5 28 1 28 -9 81 81
29,5 - 32,5 31 10 310 -6 36 360
32,5 - 35,5 34 14 476 -3 9 126
35,5 - 38,5 37 33 1.221 0 0 0
38,5 - 41,5 40 14 560 3 9 126
41,5 - 44,5 43 7 301 6 36 252
44,5 - 47,5 46 3 138 9 81 243
Sumas 82 3.034 1.188
Se encuentra que la media poblacional aproximada es

P
fm 3.034
µa = P = = 37.
f 82
Además, la varianza poblacional aproximada es
P
2 f(m − µa )2 1.188
σa = P = = 14, 4878
f 82
√
y de esta forma la desviación poblacional aproximada será σa = 14, 4878 = 3, 806. ◭

51. Situémonos en el contexto del ejercicio 17, en el que se recogı́an los porcentajes de
rentabilidad de las acciones de 25 empresas:
(a) A partir de la agrupación de datos usada para construir el histograma, estimar la
media, la mediana, la desviación tı́pica y el rango intercuartil de los porcentajes de
rentabilidad.
(b) Calcular directamente la media y la desviación tı́pica a partir de las 25 observaciones
y compararlas con las obtenidas en el apartado (a).
52. Se toma una muestra de 20 estudiantes. La tabla siguiente muestra la cantidad de tiempo
(en horas) empleado por cada uno de estos estudiantes de dicha muestra en preparar un
examen.
Tiempo de estudio (Horas) 0-3 3-6 6-9 9-12 12-15
Número de estudiantes 2 6 7 4 1
(a) Hallar las frecuencias relativas y las frecuencias relativas acumuladas.

(b) Estimar la media, la mediana, la moda y la desviación tı́pica del tiempo de estudio.
53. Durante una epidemia de gripe, los tiempos de espera en cierto centro de salud fueron
más largos de lo habitual. La siguiente tabla resume la distribución de los tiempos de
espera para una muestra de 24 pacientes que visitaron el centro de salud durante este
perı́odo.
Tiempo de espera (horas) 0-1 1-2 2-3 3-4

Número de pacientes 7 10 5 2
(a) Hallar las frecuencias acumuladas, relativas y relativas acumuladas.

(b) Dibujar el histograma, un polı́gono y una ojiva.
(c) Estimar la media, la mediana, la moda, la varianza y la desviación tı́pica del tiempo
de espera.
(d) Estimar el rango intercuartil.
54. Se dispone de la siguiente información acerca de las rentas familiares (en millones de
pesos) en los hogares de cierta ciudad.
Renta familiar 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,0 4,0-4,5 4,5-5,0

Frec. relativa 0,10 0,20 0,22 0,12 0,13 0,08 0,15
Estimar la media y la desviación tı́pica poblacional de la renta familiar.

55. Las ayudas concedidas, en miles de euros, por cierto gobierno a 60 proyectos empresariales
innovadores, vienen reflejadas en la siguiente tabla:
Importe de la ayuda 0-600 600-1.200 1.200-1.800 1.800-2.400

No. de proyectos 10 15 20 15
(a) Calcular la ayuda media y ver si este valor es representativo.

(b) Calcular la ayuda máxima concedida al 70% de los proyectos menos favorecidos en el
reparto.
(c) Calcular la ayuda mı́nima concedida al 65% de los proyectos más favorecidos.
1.5 Análisis exploratorio de datos 67
(d) Si se aumenta posteriormente las ayudas en once mil euros a cada proyecto, ¿cómo
afecta a los incisos anteriores?
(e) Si para el año siguiente las ayudas aumentan un 5% sobre el valor inicial, man-
teniéndose el criterio del reparto, ¿cuál será ahora la ayuda media? ¿Sigue siendo
representativa?
56. A continuación se presentan algunas medidas estadı́sticas (mediana, primer y segundo

cuartiles) y una tabla de frecuencia agrupada, para las edades de un grupo de personas
que hay en una sala de concierto. A partir de estos datos, responder las preguntas que
aparecen abajo. Mediana = 20, primer cuartil = 17,5 y tercer cuartil = 23.
Frecuencia Frecuencia Frec. acum.

Edades Frecuencia relativa acumulada relativa
11,5 - 14,5 2 0,0500 2 0,0500
14,5 - 17,5 8 0,2000 10 0,2500
17,5 - 20,5 11 0,2750 21 0,5250
20,5 - 23,5 10 0,2500 31 0,7750
23,5 - 26,5 8 0,2000 39 0,9750
26,5 - 29,5 1 0,0250 40 1,0000
(a) ¿Cuál era el número exacto de personas que habı́an en la sala del concierto?
(b) ¿Cuál es la media aproximada de las personas que asistieron al concierto?
(c) ¿Qué edad tienen el 77,5% de las personas?
(d) ¿Qué porcentaje de personas tienen una edad entre 11,5 y 20,5?
(e) ¿Qué porcentaje de personas tienen una edad mayor de 23,5?
(f) ¿Cuántas personas tienen una edad entre 17,5 y 20,5?
(g) ¿Cuántas personas tienen una edad mayor que 14,5?
(h) ¿Qué interpretación tiene el valor de la mediana y el de los cuartiles?
1.5 Análisis exploratorio de datos

Una vez que hemos estudiado las cuatro propiedades más importante de los datos
numéricos (tendencia central, posición relativa, dispersión y forma), es importante iden-
tificar y describir las caracterı́sticas principales de los datos en forma resumida. Un en-
foque a este análisis exploratorio de datos5 consiste en desarrollar un resumen
de cinco números y construir un diagrama de caja y bigotes.
1.5.1 Resumen de cinco números
Definición 1.5.1 Un resumen de cinco números consiste en cinco cantidades

que se emplean para resumir los datos: valor mı́nimo, primer cuartil (Q1), Mediana
(Q2), tercer cuartil (Q3) y valor máximo.
5
En general, las técnicas del análisis exploratorio de datos consisten en operaciones aritmé-
ticas sencillas y representaciones fáciles de trazar, que pueden emplearse para resumir con rapidez los
datos. Muchos autores presentan el diagrama de tallo y hoja como técnica del análisis exploratorio
de datos.
A partir del resumen de cinco números se pueden obtener, entre otras, dos medidas de
tendencia central (la mediana y el rango medio) y dos medidas de variación (el rango
intercuartil y el rango) para tener una mejor idea de la forma de la distribución.
Si la distribución es simétrica, la relación entre las diversas medidas nos la da el siguiente

teorema.
Teorema 1.5.2 (Situaciones para reconocer la simetrı́a de los datos) Si la

distribución es simétrica:
• La distancia de Q1 a la mediana es igual a la distancia de la mediana a Q3.
• La distancia del valor mı́nimo a Q1 es igual a la distancia de Q3 al valor

máximo.
• La mediana y el rango medio son iguales. (Estas medidas son iguales a la

media de los datos.)
Por otra parte, si se trata de distribuciones no simétricas, la relación de las diversas

medidas se expresan en el siguiente teorema.
Teorema 1.5.3 (Situaciones para reconocer a los datos no simétricos) Si

la distribución no es simétrica:
• En las distribuciones sesgadas a la derecha, la distancia de Q3 al valor máximo

excede la distancia del valor mı́nimo a Q1. Además, la mediana es menor que
el rango medio.
• En las distribuciones sesgadas a la izquierda, la distancia del valor mı́nimo a

Q1 excede la distancia de Q3 al valor máximo. Además, el rango medio es
menor que la mediana.
Ejemplo 1.5.4 Utilice el resumen de cinco números para estudiar la forma de la dis-
tribución de los datos del ejemplo 1.3.24.
SOLUCION:
En el ejemplo 1.3.26 calculamos que el primer cuartil es 2,365; la mediana es 2,405 y el
tercer cuartil es 2,500. Por tanto, el resumen de cinco números es
2, 210 2, 365 2, 405 2, 500 2, 825.
De las situaciones que se presentaron en los teoremas 1.5.2 y 1.5.3 es claro que los salarios
están sesgados a la derecha porque la distancia del valor mı́nimo a Q1 (es decir, 0,155) es
bastante menor que la distancia de Q3 al valor máximo (es decir, 0,325).
Además, si se compara la mediana (2,405) y el rango medio (2,5175), se observa que el
rango medio se mueve debido al valor extremo 2,825, y es por mucho la más grande de estas
medidas de resumen (compárese con la figura 1.14). ◭
Fig. 1.14: Diagrama de barras para los datos del ejemplo 1.5.4
1.5.2 Diagrama de caja y bigotes

El diagrama de caja y bigotes, como el que se muestra en la figura 1.15, propor-
ciona una representación gráfica de los datos mediante el resumen de cinco números.
Esta herramienta de análisis exploratorio de datos va a permitir estudiar la simetrı́a de los
datos, detectar los valores atı́picos y vislumbrar un ajuste de los datos a una distribución
de frecuencias determinada.
Fig. 1.15: Diagrama de caja y bigotes
El diagrama de caja y bigotes divide los datos en cuatro áreas de igual frecuencia, una
caja central dividida en dos áreas por una lı́nea vertical y otras dos áreas representadas
por dos segmentos horizontales (bigotes) que parten del centro de cada lado de la caja.
La caja central encierra el 50% de los datos. En el interior de caja central se acostumbra
a representar la media con un signo más y se dibuja la mediana como una lı́nea vertical
en el interior de la caja (compárese con la figura 1.15). Si esta lı́nea está en el centro de
la caja no hay asimetrı́a en los datos. Los lados verticales están situados en los cuartiles
inferior y superior de los datos. Partiendo del centro de cada lado vertical de la caja se
dibujan los dos bigotes, uno hacia la izquierda y el otro hacia la derecha, teniendo en
cuenta lo siguiente:
• El bigote de la izquierda tiene un extremo en el primer cuartil Q1 y el otro en el

valor dado por el primer cuartil menos 1,5 veces el rango intercuartil R.I, esto es,
Q1 − 1, 5R.I.
• El bigote de la derecha tiene un extremo en el tercer cuartil Q3 y el otro en el

valor dado por el tercer cuartil más 1,5 veces el rango intercuartil R.I, esto es,
Q3 + 1, 5R.I.
Si hay datos que se encuentran a la izquierda del bigote izquierdo y a la derecha del
bigote derecho se les denomina valores atı́picos.
Definición 1.5.5 Todo valor que está más alejado del 1,5R.I del cuarto más
cercano se dice que es atı́pico. Un valor atı́pico es extremo si está a más de
3R.I del cuarto más cercano y es moderado en otro caso.
En el diagrama de caja, los valores atı́picos moderados se representan mediante un pequeño

cuadrado y los extremos, con un pequeño cuadrado con un signo más en su interior.
Un valor atı́pico puede ser un elemento para el cual se haya anotado su valor en forma
errónea. Si es ası́, puede corregirse antes de proseguir con el análisis. También, un valor
atı́pico puede ser uno que por error se incluyó en el conjunto de datos y, en estos casos,
debe eliminarse. Por último, puede ser tan sólo un elemento poco común que se haya
anotado en forma correcta y que sı́ pertenece al conjunto de datos. En estos casos ese
elemento debe mantenerse.
Ejemplo 1.5.6 Construir un diagrama de caja y bigotes para los datos del ejemplo 1.5.4.
SOLUCION:
Tenemos que el rango intercuartil es R.I = 2, 500 − 2, 365 = 0, 135, de donde se obtiene que
la longitud de los bigotes es 1, 5R.I = 0, 2025. Ahora
• El bigote de la izquierda tiene un extremo en el primer cuartil Q1 = 2, 365 y el otro
en el valor Q1 − 1, 5R.I = 2, 1625.
• El bigote de la derecha tiene un extremo en el tercer cuartil Q3 = 2, 500 y el otro en
el valor Q3 + 1, 5R.I = 2, 7025.
La figura 1.16 es el diagrama de caja y bigotes pedido. En el diagrama podemos observar
que hay un valor atı́pico (el valor 2,825) porque éste se encuentra por fuera de los bigotes.
Debido a que Q3 + 3R.I = 2, 905, este valor atı́pico es moderado porque está 2,825 es menor
que 2,905. Además, podemos afirmar que la distribución de frecuencias está sesgada a la
derecha porque el área del rectángulo a la izquierda de la mediana es menor que el del
rectángulo a la derecha de la mediana. Esto también se puede concluir al tener en cuenta
que media es mayor que la mediana. ◭
Fig. 1.16: Diagrama de caja y bigotes para los datos del ejemplo 1.5.4
Diagramas de cajas múltiples (o comparativos)

Un diagrama de caja múltiple (o comparativo) es una forma muy eficaz de mostrar
semejanzas y diferencias entre dos o más conjuntos de datos.
Ejemplo 1.5.7 La figura 1.17 contiene los diagramas de caja de las calificaciones en un
examen de matemáticas para quince estudiantes de primer curso de primaria, quince de
segundo y quince de tercero.
Fig. 1.17: Diagrama de caja y bigotes de las calificaciones en un examen
En el diagrama puede apreciarse que no hay valores atı́picos en ninguno de los tres gru-
pos. Los estudiantes del tercer curso consiguieron la mejor mediana, pero sus calificaciones
tienen una variabilidad considerablemente que la de los otros grupos. Otro hecho que llama
la atención es la gran cantidad de calificaciones bajas obtenidas por los estudiantes de primer
curso. Finalmente, podemos afirmar que las distribuciones de frecuencias de los tres con-
juntos de datos están sesgadas a la izquierda. ◭

57. Un fabricante de baterı́as para linternas tomó una muestra de 13 baterı́as de un dı́a de
producción y las usó hasta que se agotaron. Las horas que funcionaron hasta fallar son:
166 342 426 492 562 298 264 631 451 1.049 317 545 512
Proporcione el resumen de cinco números, construya el diagrama de caja y bigotes, deter-

mine en cada caso si hay valores atı́picos y haga un análisis exploratorio de cada conjunto
de datos.
58. Los siguientes datos muestran las yardas acumuladas durante la temporada de fútbol
americano colegial para una muestra de 20 receptores:
451 1.023 852 809 596 744 652 576 1.112 971
1.278 820 511 907 1.251 941 975 400 711 1.174
Forme el resumen de cinco números, trace un diagrama de caja e indentifique en él el o

los valores atı́picos.
59. Los siguientes datos representan los rendimientos porcentuales anuales en cuentas de
mercado de dinero de una muestra de 15 bancos comerciales en el área metropolitana de
una ciudad a una determinada fecha:
Nombre del Banco Rendimiento Nombre del banco Rendimiento
Banco su cuenta 3,10 Banco el Pais 2,28
The Bank 2,63 Banco la Clave 3,01
Mein Bank 2,79 Banco del Norte 2,53
Your Bank 3,25 Banco del Sur 2,00
El Banco del pueblo 1,90 Banco Nacional 3,05
Aero Bank 2,79 Nuestro Banco 2,02
Union Bank 2,90 Banco el dinero 3,05
Bank del cliente 2,73
(a) Proporcione el resumen de cinco números.

(b) Construya el diagrama de caja y bigotes y describa la forma.
(c) Si alguien le dijera:“los rendimientos del mercado de dinero no varı́an mucho de un
banco a otro”, con base en estos datos, ¿qué dirı́a?
60. Una de las metas de toda administración es ganar lo más posible en relación con el
capital invertido en la empresa. Una medida del éxito en alcanzarla es el retorno sobre
la aportación, que es la relación de la ganancia neta entre el valor de las acciones. A
continuación se muestran los porcentajes de ganancia sobre las acciones para 25 empresas.
11,4 15,8 52,7 17,3 12,3 9,0 19,6 22,9 41,6

5,1 17,3 31,1 6,2 19,2 14,7 9,6 8,6 11,2
16,6 5,0 30,3 12,8 12,2 14,5 9,2
Forme el resumen de cinco números, trace un diagrama de caja y bigotes y determine si

hay valores atı́picos. ¿Cómo podrı́a un analista financiero usar esta información?
61. Una revista publica regularmente las clasificaciones de funcionamiento y de calidad para
muchos productos de consumo. Se publicaron calificaciones generales de una muestra de
16 televisores de precio intermedio en esta revista. Las marcas y las calificaciones aparecen
en la tabla siguiente.
1.6 Uso de Statgraphics en la estadı́stica descriptiva 73
Fabricante Calificación Fabricante Calificación Fabricante Calificación

PCG 73 Rernat 72 Katze 81
Monch 89 Kuril 77 Sheck 76
RMA 79 Tosh 79 Fish 77
Cuark 75 Pate 78 Karl 79
Magnifon 80 Wand 78 Wind 90
Sodium 86
(a) Determine la calificación promedio y forme el resumen de cinco números.

(b) Una evaluación similar de radios proporcionó calificaciones que tuvieron una media
de 82,56, una desviación estándar 6,39 y un resumen de cinco números 75, 77, 82,
86 y 93. Compare los datos de calificaciones de la revista de televisores con los del
radio. Trace los diagramas de caja de ambos.
(c) ¿Hay valores atı́picos en los datos de televisores? Explique su respuesta.
62. Dos modos que usan las empleados para ir a trabajar diariamente son el transporte público
y el automóvil. A continuación vemos unas muestras de tiempos de cada modo. Las cifras
son minutos:
Transporte público: 25 29 32 41 34 28 29 32 37 33
Automóvil: 30 31 32 35 33 29 31 33 32 34
(a) Calcule la media y la desviación estándar de la muestra del tiempo que se lleva en
cada modo de transporte.
(b) Con base en los resultados del inciso (a), ¿qué modo de transporte debe preferirse?
Explique sus razones.
(c) Trace un diagrama de caja para cada modo. Al comparar los diagramas de caja, ¿se
respalda la conclusión del inciso (b)?
1.6 Uso de Statgraphics en la estadı́stica descriptiva

A continuación presentaremos una breve descripción de la forma cómo se utiliza Stat-
graphics en el análisis descriptivo de uno o más conjuntos de datos.
1.6.1 Análisis de un solo conjunto de datos

En esta sección, trabajaremos con los datos que aparecen en el archivo calles.sf3. Este
contiene las variables longitud, anchura y nombre, que son la longitud, anchura y el
nombre de 112 calles del antiguo casco de Madrid (España). Utilizando este archivo y
con ayuda de Statgraphics realizaremos un análisis de la variable longitud. Al abrir el
archivo calles.sf3 sale la ventana de hojas de cálculos que se muestra en la figura 1.18.
El acceso a todas las opciones analı́ticas y gráficas que se necesitan en cualquier práctica
se realiza de la misma manera:
• Se selecciona Describe . . . Numeric Data . . . One-Variable Analysis y aparecen

todas las variables que contiene el archivo.
• Con el ratón se elige la variable deseada (que en nuestro caso será la variable lon-
gitud), aparecerá resaltada, y a continuación se pulsa el botón Data, apareciendo
el nombre de dicha variable como variable activa. Dicha ventana tiene la opción
Fig. 1.18: Aspecto de la ventana de hojas de cálculos
ordenar (sort) las variables alfabéticamente. Los botones que aparecen en la parte
inferior permiten realizar el análisis, cancelar el análisis, transformar los datos y
consultar la ayuda. Se pulsa la opción OK para realizar el análisis y aparece la
llamada ventana del análisis, dando informaciones estadı́sticas acerca del conjunto
de datos con el que se está trabajando (véase la figura 1.19).
Fig. 1.19: Aspecto de la ventana del análisis
Los ı́conos principales que hay en la barra de herramientas de esta ventana son los cuatro
de la izquierda (los restantes se activan en algunas opciones gráficas):
• El primer ı́cono (Input dialog, ı́cono de diálogos) permite la selección (o cambio)
de variables dentro del archivo y análisis seleccionado. Por ejemplo, dentro del
archivo calles.sf3 se puede cambiar la variable longitud por la varible anchura
utilizando este ı́cono.
• El segundo ı́cono (Tabular options, ı́cono de opciones tabulares) permite selec-

cionar opciones analı́ticas.
• El tercer ı́cono (Graphical options, ı́cono de opciones gráficas) permite seleccionar

diferentes opciones de gráficos.
• El cuarto ı́cono (Save results, ı́cono de salvar resultados) permite salvar los resul-
tados del análisis para tratarlos posteriormente o para imprimirlos.
Opciones numéricas
Al marcar el segundo ı́cono (Tabular options) de la barra de herramientas de la ventana
del análisis podemos seleccionar las siguientes opciones:
• Analysis Summary (Resumen de procedimiento).

Nos presenta una información muy general del análisis (nombre de la variable,
número de datos que ella tiene, datos mayor y menor, etc.).
• Summary Statistics (Resumen estadı́stico).

Esta opción permite obtener algunas medidas estadı́sticas. Por defecto, ofrece el
numero de datos, la media, varianza, desviación tı́pica, valores máximo y mı́nimo,
los coeficientes de asimetrı́a y apuntamiento estandarizados y la suma de los valores
de las observaciones. Para obtener un número mayor o menor de medidas es
suficiente con pulsar el botón derecho del ratón y seleccionar Pane options, con lo
que aparece una ventana con un amplio conjunto de medidas.
• Percentiles.
Permite el cálculo simultáneo de hasta 10 percentiles a voluntad del usuario. Si,
estando situado sobre esta salida, pulsamos el botón derecho del ratón y elegimos
Pane options, se introducen los percentiles que se deseen calcular.
• Frequency Tabulation (Tabla de frecuancia).

Nos permite resumir la distribución de los datos en una tabla de frecuencias abso-
lutas, relativas, absolutas acumuladas y relativas acumuladas. Si, estando situados
sobre esta salida, pulsamos el botón derecho del ratón y elegimos Pane options,
obtenemos la ventana de diálogo Frequency Tabulation Options, en donde tenemos
los siguientes campos:
– Number of Classes (Número de clases).

Aquı́, se introduce el número de intervalos de clase para agrupar los datos
de la distribución.
– Lower Limit (Lı́mite inferior ).
Se introduce el lı́mite inferior para la primera clase.
– Upper Limit (Lı́mite superior ).
Se introduce el lı́mite superior para la última clase.
– Hold (Mantener ).
Se señala cuando se quiere mantener la definición actual de clase para la
siguiente tabla de frecuencias que se realice.
• Stem-and-Leaf Display (Diagrama de Tallo y Hojas).

Esta opción permite mostrar el diagrama de tallo y hojas. En este caso, el dia-
grama de tallo y hojas para la variable longitud está formado por cuatro tallos.
Los valores que están a la izquierda de cada tallo son la frecuencia absoluta acu-
mulada de los tallos, donde dicha frecuencia se comienza a contar tanto por arriba
como por abajo, a excepción de valor que aparece entre paréntesis que corre-
sponde al tallo donde se encuentra la mediana. Si, estando situados sobre esta
opción, pulsamos el botón derecho del ratón y elegimos Pane options, obtenemos
la ventana de diálogo Stem-and-Leaf Display Options, cuyo campo Flag Outliers
(Valores Anómalos) permite marcar valores atı́picos en el diagrama. Como puede
observarse, el diagrama de tallo y hojas de la variable longitud presenta cuatro
valores atı́picos.
• Las otras dos opciones Confidence Intervals (Intervalos de confianza) y Hypothesis

Tests (Pruebas de hipótesis) corresponden a conceptos de la estadı́stica inferencial.
Opciones gráficas
Al marcar el tercer ı́cono (Graphical options) de la barra de herramientas de la ventana
del análisis podemos seleccionar las siguientes opciones:
• Scatterplot (Gráfico de dispersión).

Nos presenta un diagrama de dispersión para la variable en el que se presentan sus
valores mediante puntos no conectados a lo largo de un eje horizontal agrupados
por intervalos.
• Box-and-Whisker Plot (Gráfico de Cajas y Bigotes).

Nos permite realizar diagramas de cajas y bigotes. Si, estando situados sobre esta
salida, pulsamos el botón derecho del ratón y elegimos Pane options, obtenemos la
ventana de diálogo Frequency Tabulation Options, en donde tenemos los siguientes
campos:
– Direction (Dirección).
Se puede elegir Vertical u Horizontal para orientar el diagrama en el sentido
que uno lo desee.
– Features (Aspectos).
Esta opción nos permite señalar o no en el gráfico la media (Mean Marker ),
los valores atı́picos (Outlier Symbols) y muescas sobre la mediana (Median
Nocht).
• Frequency Histogram (Histograma de Frecuencia).

Esta opción nos permite realizar histogramas y polı́gonos de frecuencias absolutas
y relativas, que también pueden ser acumulados.6 Si, estando situados sobre el
6
Recordemos que los polı́gonos acumulados o acumulados relativos son las llamadas ojivas.
gráfico del histograma, pulsamos el botón derecho del ratón y elegimos Pane op-
tions, obtenemos la ventana de diálogo Frequency Plot Options con las siguientes
opciones:
– En los campos Number of Classes, Lower Limit y Upper Limit podemos

definir el número de clases deseado, el lı́mite inferior de la primera clase y el
lı́mite superior de la última clase, respectivamente.
– El campo counts permite seleccionar frecuencias relativas (Relative) y acu-
muladas (Cumulative).
– El campo Hold (Mantener ) permite mantener la escala actual para los gráficos
siguientes.
– El histograma de frecuencias absolutas se obtiene se obtiene señalando el
botón Histogram del campo Plot Type y dejando en blanco los dos botones
del campo Counts; el de frecuencias relativas, señalando el botón Histogram
del campo Plot Type y el botón Relative del campo Counts; el de frecuencias
acumuladas, señalando el botón Histogram del campo Plot Type y el botón
Cumulative del campo Counts; el de frecuencias acumuladas, señalando el
botón Histogram del campo Plot Type y los botones Cumulative y Relative
del campo Counts.
– El polı́gono de frecuencias absolutas se obtiene señalando el botón Polygon
del campo Plot Type y dejando en blanco los dos botones del campo Counts;
el de frecuencias relativas, señalando el botón Polygon del campo Plot Type
y el botón Relative del campo Counts.
– La ojiva de frecuencias acumuladas se obtiene señalando el botón Polygon
del campo Plot Type y el botón Cumulative Relative del campo Counts; la
de frecuencias acumuladas relativas, señalando el botón Polygon del campo
Plot Type y los botones Relative y Cumulative del campo Counts.
• Density Trace (Gráfico de densidad).

Esta opción nos permite visualizar en cierta forma el histograma suavizado.
• Symmetry Plot (Gráfico de simetrı́a).

Este gráfico nos permite analizar visualmente el grado de simetrı́a de un conjunto
de datos. En el eje de las abcisas se representan las distancias de los datos a la
mediana que quedan por debajo de ella. Si la simetrı́a fuese perfecta, el conjunto
de puntos resultante serı́a la diagonal principal. Mientras más se aproxime la
gráfica a la diagonal, más simetrı́a existirá en la distribución de los datos.
Conclusiones sobre la variable longitud

Tiene especial interés la comparación de la media (Average) y la mediana (Median),
donde se observa que la media es mayor que la mediana en 40 unidades. Esto indica
cierta asimetrı́a en los datos, que debe concordar con un coeficiente de asimetrı́a grande
y positivo.
En el histograma observamos asimetrı́a, con mayor concentración de datos en la parte

izquierda. Es recomendable modificar el número de clases del histograma, para ası́ ob-
servar las variaciones que se producen en éste.
El diagrama de caja de la variable longitud pone claramente de manifiesto la asimetrı́a

de los datos, con mayor concentración en la parte izquierda que en la derecha, y la
presencia de valores atı́picos. La caja está delimitada por el primer y tercer cuartil con
valores respectivos de 89 y 210. La lı́nea que separa la caja en dos partes es la mediana
con magnitud igual a 135. El valor mı́nimo es 25, no observándose valores atı́picos en
la parte izquierda de los datos. En la parte derecha aparecen varios valores atı́picos.
Si se desea obtener una distribución simétrica y con probable desaparición de ciertos

valores atı́picos es recomendable realizar una transformación.
Transformación de la variable longitud

Las cuatro transformaciones más habituales para resolver este tipo de problemas son:
logaritmo, raı́z cuadrada, inversa y cuadrado.
Los comandos que representan estas tres transformaciones son:
• LOG(nombre variable) para el logaritmo neperiano,
• SQRT(nombre variable) para la raı́z cuadrada
• y 1/(nombre variable) para la inversa.
Para trabajar con la variable transformada es suficiente con escribir en lugar del nombre
de la variable la transformación adecuada. Por ejemplo, si quisiéramos trabajar con el
logaritmo de la variable escribimos LOG(longitud) en vez de longitud. Otro método para
escribir la transformación adecuada es desde la opción de One Variable Analysis; en la
parte inferior de la ventana activar el botón Transform, lo que nos permite acceder a los
diferentes operadores (Operators) entre los que se encuentran las transformaciones antes
mencionadas. De las estas transformaciones, la que ofrece una distribución más simétrica
es el logaritmo. A continuación presentamos las conclusiones obtenidas del estudio
descriptivo (medidas caracterı́sticas, diagrama de tallo y hojas, caja e histograma) de la
variable LOG(longitud).
Conclusiones sobre el logaritmo de la variable longitud

Se repite todo el análisis realizado para la variable longitud, pero ahora con la variable
transformada (LOG(longitud)). Como consecuencia de la transformación realizada se
obtiene un comportamiento simétrico, aunque se detecta la presencia de un valor atı́pico
correspondiente a la calle Atocha de 1260 metros.7
7
La presencia de este valor atı́pico se puede explicar acudiendo a razones históricas. Por ejemplo,
la calle Atocha está ubicada entre la Plaza de Santa Cruz y el Paseo del Prado, con existencia desde
1589, al igual que las calles de su entorno. Una explicación de su carácter peculiar (atı́pico) es su
función como unión entre Madrid capital y el Hospital General (inicialmente en la periferia).
1.6.2 Análisis simultáneo de dos o más conjuntos de datos

Mediante la opción Compare . . . Two Samples . . . Two Sample Comparison . . . pode-
mos analizar dos conjuntos de datos simultáneamente (véase el ejercicio 68).
Para obtener diagramas de cajas múltiples para dos o más conjuntos de datos, una
alternativa es mediante las opciones Compare . . . Multiple Samples . . . Multiple-Sample
Comparison . . . Multiple Data Columns . . . Ok . . . Samples= (en esta última opción
mencionar los datos que se quieren comparar).
Statgrpahics también habilita la subopción Plot . . . Exploratory Plots . . . Multiple Box-

and-Whishker Plot . . . Data=distancia . . . Level codes=year . . . para obtener diagramas
de cajas múltiples de varios conjuntos de datos con respecto diferentes grupos en que
se puede dividir los conjuntos de datos (véase el ejercicio 64c).

s 63. Considere la variable anchura que contiene el conjunto de datos que se encuentra en el
archivo calles.sf3 y que corresponde al ancho de 112 calles de Madrid (España).
(a) Obtenga la media y la mediana, la moda, el primer y tercer cuartiles, el segundo y
octavo deciles, los percentiles 35, 66, 81 y 93, el sesgo y el coeficiente de variación.
Interprete cada uno de sus resultados.
(b) Formar la tabla de frecuencias con 8 clases para los datos, en donde la primera
frontera inferior sea 0 y la última frontera superior sea 40. A partir de ella, responda
las siguientes preguntas:
i. ¿Cuántas calles tienen un ancho entre 5 y 25 kilómetros?
ii. ¿Qué porcentaje de calles tienen un ancho entre 10 y 30 kilómetros?
iii. ¿Cuántas calles tienen un ancho mayor de 20 kilómetros?
iv. ¿Qué porcentaje de calles tienen un ancho mayor 25 kilómetros?
v. ¿Cuántas calles tienen un ancho menor de 15 kilómetros?
vi. ¿Qué porcentaje de calles tienen un ancho menor de 35 kilómetros?
(c) Con 8 clases (en donde la primera frontera inferior sea 0 y la última frontera superior
sea 40), construir los histogramas de frecuencias absolutas y de frecuencias absolutas
acumuladas, los polı́gonos de frecuencia y de frecuencias relativas y las ojivas de fre-
cuencias acumuladas y de frecuencias relativas acumulada. A partir de estos gráficos,
responda las siguientes preguntas:
i. ¿Aproximadamente cuántas calles tienen un ancho mayor que 16,9 kilómetros?
ii. ¿Aproximadamente cuántas calles tienen un ancho menor que 12,5 kilómetros?
iii. ¿Qué porcentaje aproximado de calles tienen un ancho mayor de 7,7 kilómetros?
iv. ¿Qué porcentaje aproximado de calles tienen un ancho menor de 13,8 kilómetros?
(d) Estudie la simetrı́a de la distribución de los datos.
(e) ¿Existen valores atı́picos? ¿Cuántos? ¿Cuáles?
(f) ¿Existe alguna transformación que mejora la simetrı́a? ¿Y la presencia de valores
atı́picos? Indique en caso positivo la transformación seleccionada.
s 64. En el archivo de datos autos.sf3 se muestran las distancias recorridas (dadas en millas
por galón) de 154 modelos de automóviles sacados al mercado entre los años 1978 y
1982 por diferentes fabricantes: americanos (origen=1), europeos (origen=2) y japoneses
(origen=3). También aparecen los respectivos cilindrajes de los autos, las potencias, etc.
(a) Construya un diagrama de caja y bigotes para los datos de la distancia recorrida y a
partir de él, responda las siguientes preguntas: ¿Entre cuáles valores varı́a la distancia
recorrida? ¿Cuánto recorre el 50% central de los autos? ¿Hay valores atı́picos? ¿Es
simétrica o asimétrica la distribución de los datos? En caso de ser asimétrica, ¿es
asimétrica a la izquierda o a la derecha? ¿Cuáles son los valores de la media y de la
mediana?
(b) Estudie el grado de simetrı́a de los datos de la distancia recorrida de cuatro maneras
diferentes (compare sus respuestas):
i. Utilizando las medidas estadı́sticas (media, mediana, moda, sesgo, etc. )
ii. Construyendo un histograma de frecuencias con 5 clases.
iii. Construyendo un un histograma con 13 clases. ¿Porqué este histograma resulta
más adecuado que el que construyó con 5 clases?
iv. Construyendo un gráfico de simetrı́a con la opción graphical options . . . symmetry
plot de Statgraphics.
(c) Considere ahora por separado los conjuntos de distancias recorridas de los modelos
de cada uno de los cinco años.
i. Analice gráfica y numéricamente cada uno de estos conjuntos.
ii. Utilizando la opción Plot . . . Exploratory Plots . . . Multiple Box-and-Whishker
Plot . . . Data=distancia . . . Level codes=year . . . obtenga los diagramas de cajas
(múltiples) de los cinco conjuntos de distancias recorridas con respecto a cada
uno de los años. ¿Qué se observa? ¿Conoce alguna razón que pueda explicar
lo que resulta de los análisis numéricos y de la observación de los diagramas de
cajas?
(d) Ahora, construya el diagrama de caja múltiple de la distancia recorrida de los au-
tomóviles según su cilindrada.
i. Teniendo en cuenta cada uno de los diagramas, responda las preguntas formu-
ladas en la parte (a).
ii. Compare entre sı́ los distintos diagramas y responda las siguientes preguntas:
¿Dónde es más fuerte la asimetrı́a? ¿Dónde es menor? ¿Dónde no existe? ¿Varı́a
bastante los valores de la media y de la mediana para los diferentes grupos?
(e) Construya el diagrama de caja múltiple de la potencia de los automóviles según su
origen y responda las preguntas formuladas en el inciso anterior.
s 65. Se han medido los diámetros (en milı́metros) de 50 tornillos y se han obtenido los resultados
que se encuentran en el archivo tornillos.sf3.
(a) Obtenga la mediana, la moda, el primer y tercer cuartiles, el sexto y séptimo deciles
y los percentiles 54, 47, 82. Interprete cada uno de sus resultados.
(b) Formar la tabla de frecuencias con 6 clases para los datos y, a partir de ella, responda
i. ¿Cuántos tornillos tienen un diámetro entre 29 y 32 milı́metros?
ii. ¿Qué porcentaje de tornillos tienen un diámetro entre 30 y 34 milı́metros?
iii. ¿Cuántos tornillos tienen un diámetro mayor de 32 milı́metros?
iv. ¿Qué porcentaje de tornillos tienen un diámetro mayor 34 milı́metros?
v. ¿Cuántos tornillos tienen un diámetro menor de 31 milı́metros?

vi. ¿Qué porcentaje de tornillos tienen un diámetro menor de 33 milı́metros?
(c) Con 6 clases, construir los histogramas de frecuencias absolutas y de frecuencias
absolutas acumuladas, los polı́gonos de frecuencia y de frecuencias relativas y las
ojivas de frecuencias acumuladas y de frecuencias relativas acumulada. A partir de
estos gráficos, responda las siguientes preguntas:
i. ¿Aproximadamente cuántos tornillos tienen un diámetro mayor que 34,4 milı́metros?
ii. ¿Aproximadamente cuántos tornillos tienen un diámetro menor que 32,2 milı́metros?
iii. ¿Qué porcentaje aproximado de tornillos tienen un diámetro mayor de 31,6
milı́metros?
iv. ¿Cuántos tornillos tienen un diámetro menor de 32,8 milı́metros?
s 66. Los datos del archivo fotocopia.sf3 muestran el gasto en fotocopias (en miles de pesos)
de 70 estudiantes universitarios durante un determinado año.
(b) Formar la tabla de frecuencias con 8 clases para los datos, en donde la primera frontera
inferior sea 0 y la última frontera superior sea $ 1.400.000. A partir de ella, responda
i. ¿Cuántos estudiantes han gastando entre $ 175.000 y $ 525.00 en el año?
ii. ¿Qué porcentaje de estudiantes han gastando entre $ 700.000 y $ 1.225.000 en
el año?
iii. ¿Cuántos estudiantes han gastando más de $ 1.050.000 en el año?
iv. ¿Qué porcentaje de estudiantes han gastando más de $ 350.000 en el año?
v. ¿Cuántos estudiantes han gastando menos de $ 875.000 en el año?
vi. ¿Qué porcentaje de estudiantes han gastando menos de $ 525.000 en el año?
(c) Con 8 clases (en donde la primera frontera inferior sea 0 y la última frontera superior
sea $ 1.400.000), construir los histogramas de frecuencias absolutas y de frecuencias
absolutas acumuladas, los polı́gonos de frecuencia y de frecuencias relativas y las
ojivas de frecuencias acumuladas y de frecuencias relativas acumulada. A partir de
estos gráficos, responda las siguientes preguntas:
i. ¿Aproximadamente cuántos estudiantes han gastando más de $ 767.810 en el
año?
ii. ¿Aproximadamente cuántos estudiantes han gastando menos de $ 391.821 en el
año?
iii. ¿Qué porcentaje aproximado de estudiantes han gastando más de $ 601.583 en
el año?
iv. ¿Cuántos estudiantes han gastando menos de $ 1.104.220 en el año?
(e) ¿Existen valores atı́picos? ¿Cuántos? ¿Cuáles?
(f) Realice una transformación logarı́tmica de los datos e interprete los resultados. Co-
mente las diferencias con los datos sin transformar.
s 67. En el archivo de datos doscientos.sf3 se proporcionan las sesenta y nueve mejores marcas
de todos los tiempos en la prueba de 200 metros lisos masculinos (las marcas se dan en
segundos), ası́ como el nombre del atleta y la fecha en que se consiguió la marca.

(b) Formar la tabla de frecuencias con 8 clases para los datos, en donde la primera frontera
inferior sea 19,2 segundos y la última frontera superior sea 20,2 segundos. A partir
de ella, responda las siguientes preguntas:
i. ¿Cuántos atletas han recorrido entre 19,325 y 19,7 segundos?
ii. ¿Qué porcentaje de atletas han recorrido entre 19,45 y 19,95 segundos?
iii. ¿Cuántos atletas han recorrido más de 19,7 segundos?
iv. ¿Qué porcentaje de atletas han recorrido más de 19,45 segundos?
v. ¿Cuántos atletas han recorrido menos de 19,95 segundos?
vi. ¿Qué porcentaje de atletas han recorrido menos de 19,825 segundos?
(c) Con 8 clases (en donde la primera frontera inferior sea 19,2 segundos y la última fron-
tera superior sea 20,2 segundos.), construir los histogramas de frecuencias absolutas
y de frecuencias absolutas acumuladas, los polı́gonos de frecuencia y de frecuencias
relativas y las ojivas de frecuencias acumuladas y de frecuencias relativas acumulada.
A partir de estos gráficos, responda las siguientes preguntas:
i. ¿Aproximadamente cuántos atletas han recorrido más de 19,818 segundos?
ii. ¿Qué porcentaje aproximado de atletas han recorrido más de 19,845 segundos?
iii. ¿Qué porcentaje aproximado de atletas han recorrido más de 19,782 segundos?
iv. ¿Aproximadamente cuántos atletas han recorrido menos de 20,03 segundos?
(e) ¿Se detecta algo peculiar en la distribución de estos datos?
(f) ¿Se detecta algún valor potencialmente atı́pico? ¿Cuál es?
s 68. En el archivo de datos gemelos.sf3 se muestran los resultados de tests de inteligencia

realizados a parejas de gemelos monozigóticos. Los gemelos monozigóticos se forman
por la división en dos de un mismo óvulo ya fecundado y, por tanto, tienen la misma
carga genética. Al mismo tiempo, por razones obvias, es muy frecuente que compartan el
entorno vital y es difı́cil separar ambos factores. En el conjunto de datos, los datos de la
columna A corresponden al gemelo criado por sus padres naturales, los de la columna B al
criado por un familiar u otra persona. Mediante la opción Compare . . . Two Samples . . .
Two Sample Comparison . . . Sample 1=A . . . Sample 2=B . . . Ok, resuelva lo siguiente:
(a) Compare la simetrı́a de los datos de la columna A y B.
(b) Construya un diagrama de caja múltiple para los datos de la columna A y B y describa
sus interesantes propiedades.
(c) ¿Cómo interpreta el coeficiente de variación de ambos conjuntos de datos?
s 69. En el archivo de datos Cavendish.sf3 se presentan 29 medidas de la densidad de la tierra

obtenidas por Henry Cavendish en 1798 empleando una balanza de torsión. La densidad
de la tierra se proporciona como un múltiplo de la densidad del agua.
(a) Utilice los diagramas de tallo y hojas y de cajas para determinar si existe algun valor
atipico.
(b) Proponga, razonando la respuesta, un valor para la densidad de la tierra.
s 70. En 1893 Lord Rayleigh investigó la densidad del nitrógeno empleando en su obtención
distintas fuentes. Previamente habı́a comprobado la gran discrepancia existente entre la
densidad del nitrógeno producido tras la eliminación del oxı́geno del aire y el nitrógeno
1.7 Uso de la calculadora en la estadı́stica 83
producido por la descomposición de ciertos compuestos quı́micos. Los datos del archivo
Rayleigh.sf3 muestran esta diferencia de forma clara. Esto llevó a Lord Rayleigh a in-
vestigar detenidamente la composicion del aire libre de oxı́geno y al descubrimiento de un
nuevo elemento gaseoso, el argón.
(a) Analice numérica y gráficamente estos datos. Preste especial atención a los diagramas
de tallo y hojas y al diagrama de cajas. ¿Hay alguna peculiaridad de la población de
pesos que se manifieste en un diagrama y no en el otro?
(b) Realice diagramas de cajas dividiendo los datos en los pesos obtenidos a partir de aire
y los obtenidos a partir de compuestos quı́micos del nitrógeno. ¿Qué se observa?
s 71. Una de las medidas de seguridad de los reactores nucleares frente a desajustes en el proceso
de generación de energı́a o de extracción de ésta es el disparo del reactor. Esta medida
consiste en la detención del proceso de fusión mediante la inserción en el núcleo del reactor
de venenos neutrónicos. El número de disparos no previstos de un reactor en un periodo es
un indicador de problemas de comportamiento y de fiabilidad en la planta. En el archivo
de datos disparos.sf3 se proporciona, para dos años diferentes (1984 y 1993), el número
de disparos no previstos en sesenta y seis reactores nucleares de los Estados Unidos de
Norteamérica.
(a) Analice numérica y gráficamente, por separado, el número de disparos de reactor en
cada uno de los dos años considerados.
(b) Compare gráficamente las distribuciones de ambas variables ¿Se aprecian diferencias
importantes entre ellas? ¿Qué conclusiones le merece esta comparación?
1.7 Uso de la calculadora en la estadı́stica

El objetivo de esta sección es ilustrar en forma breve el manejo de la calculadora como
herramienta de ayuda en los cálculos estadı́sticos, pero utilizando directamente las fun-
ciones estadı́sticas que están allı́ incorporadas. En particular, las explicaciones se basarán
en la utilización de la calculadora Casio fx-82MS, fx-83MS, fx-85MS, fx-270MS, fx-
300MS y fx-350MS.
Cálculos estadı́sticos
Para realizar cálculos estadı́sticos en la calculadora, tenga en cuenta los siguientes co-
mentarios:
• Utilice las teclas mode 2 para ingresar el modo SD cuando desea realizar cálculos
estadı́sticos con ayuda de las funciones estadı́sticas que hay incorporadas en la
calculadora.
• El ingreso de datos comienza siempre con shift clr 1 = para borrar la
memoria de estadı́sticas.
• Ingrese los datos usando la secuencia de tecla siguiente: <Dato> dt .
• Los
P datos ingresados se usan paraP calcular los valores para n (el total de datos),
x (la suma de todos los datos), x2 (la suma de los cuadrados de los datos), x
(la media), σn (la desviación estándar poblacional) y σn−1 (la desviación estándar
muestral), que pueden llamarse usando las operaciones de tecla indicados a con-
tinuación:
1.7 Uso de la calculadora en la estadı́stica 84
Para llamar este tipo de valor: Realice esta operación:

P 2
Px shift s-sum 1
x shift s-sum 2
n shift s-sum 3
x shift s-var 1
σn shift s-var 2
σn−1 shift s-var 3
P P
Ejemplo 1.7.1 Calcular n, x, x2 , x, σn y σn−1 para los datos siguientes: 55, 54, 51,
55, 53, 53, 54 y 52.
SOLUCION:
• Primero, ingresamos al modo SD con las teclas mode 2.
• Luego, borramos la memoria con la secuencia de teclas shift clr 1 =.

• Posteriormente, ingresamos los datos: 55 dt 54 dt 51 dt 55 dt 53 dt 53 dt
54 dt 52 dt
• Por último, calculamos las medidas estadı́sticas pedidas:
P 2
Suma de los cuadrados de los valores x = 22.805 shift s-sum 1 =
P
Suma de valores x = 427 shift s-sum 2 =
Número de datos n = 8 shift s-sum 3 =
Media aritmética x = 53, 375 shift s-var 1 =
Desviación estándar poblacional σn = 1, 316956719 shift s-var 2 =
Desviación estándar muestral σn−1 = 1, 407885953 shift s-var 3 =
Precauciones con el ingreso de datos

• dt dt ingresa el mismo dato dos veces.
• También puede ingresar múltiples entradas del mismo dato usando shift ; . Por
ejemplo, para ingresar el dato 110 diez veces presiones 110 shift ; 10 dt .
• Mientras ingresa datos o después de completar el ingreso de datos, puede usar
las teclas △ y ∇ para ir visualizando a través de los datos que ha ingresado.
Si ingresa múltiples ingresos del mismo dato usando shift ; para especificar la
frecuencia de datos (número de ı́temes de datos) como se describe anteriormente,
pasando a través de los datos muetra el ı́tem de dato y una pantalla separada para
la frecuencia de datos (freq).
• Los datos visualizados pueden editarse, si ası́ lo desea. Ingrese el valor nuevo y
presione la tecla = para reemplazar el valor antiguo por el valor nuevo. Esto
también significa que si desea realizar alguna otra operación (cálculo, llamada de
resultados de cálculos estadı́sticos, etc.), siempre deberá presionar primero la tecla
ac para salir de la presentación de datos.
• Presionando la tecla dt en lugar de = después de cambiar un valor sobre la

presentación, registra el valor que ha ingresado como un elemento de dato nuevo,
y deja el valor antiguo tal como está.
Cap. 1. Ejercicios complementarios 85
• Puede borrar el valor del dato visualizado usando △ y ∇ , y luego presionando

shift cl . Borrando un valor de dato ocasiona que todos los valores siguientes
se desplacen hacia arriba.
• Después de ingresar los datos estadı́sticos en el modo SD, no podrá visualizar

o editar más los datos ı́temes de datos individuales, después de cambiar a otro
modo.

72. Una determinada persona es propietario de 12 terrenos cuyos tamaños (en kilómetros
cuadrados) son:
21 22 27 36 22 29 22 23 22 28 36 33
Hallar la media y la desviación tı́pica directamente de la calculadora.

73. Los porcentajes de rentabilidad de los fondos de inversión de diez grandes empresas fueron
17,6 26,6 15,6 12,4 22,9 25,0 22,4 18,5 27,9 11,6
Hallar la media y la desviación tı́pica directamente de la calculadora.

74. Directamente de la calculadora, hallar la media y la desviación tı́pica de los datos del
ejercicio 45.
75. Sea dada la siguiente tabla de frecuencias. Hallar la media y la desviación tı́pica directa-
mente de la calculadora.
Dato 5,0 2,5 3,2 2,0
Frecuencia 8 2 6 3
✍ Ejercicios complementarios
76. Diga si la afirmación dada es verdadera o falsa. Justifique siempre su respuesta. En caso
que sea falso, dé un contraejemplo.
(a) La suma de las desviaciones de los valores respecto a la media para cualquier conjunto
de datos es uno.
(b) Si la desviación estándar de un conjunto de datos es 0, entonces, los datos son iguales.
(c) El valor de la desviación estándar es menor que el de la varianza.
(d) No existen datos de tal forma que sean iguales el rango y la desviación estándar.
(e) No existen datos de tal forma que sean iguales el rango y la varianza.
(f) Si el ingreso medio de 25 trabajadores es de $ 2.500.000, entonces, el ingreso total es
de $ 10.000.000.
(g) Si 10 calificaciones tienen una media de 2,0 y 27 calificaciones una media de 3,0,
entonces, la media del grupo total de 37 calificaciones es 2,5.
(h) Existen datos con desviación estándar negativa.
(i) En una distribución simétrica, la media, la mediana y la moda son iguales.
(j) En una distribución positivamente sesgada, la mediana es mayor que la media.
(k) La desviación estándar está dada por las mismas unidades que la media.
(l) Toda información numérica proporciona datos cuantitativos.

(m) Toda información no numérica ofrece datos cuantitativos.
(n) Cuando todos los datos son categóricos, la moda es la única medida de tendencia
central que se puede utilizar.
(o) Si el primer cuartil en el primer examen de estadı́stica fue de 3,0, entonces, este valor
indica que el 25% de los estudiantes ganaron el examen.
(p) Si x es un dato de una muestra y s2 es la varianza de esa muestra, entonces, la
expresión x − s2 carece de sentido.
(q) Si un conjunto de datos no es asimétrico, entonces, su coeficiente de sesgo es 1.
77. Un determinado reporte presenta las siguientes observaciones de resistencia de vigas (los
datos están en megapascales):
6,8 7,0 7,6 6,8 5,9 7,2 7,3 6,3 8,1 11,6 9,0 11,8 10,7 11,3
6,5 7,0 6,3 7,9 8,2 8,7 7,8 9,7 7,7 9,7 7,8 7,7 7,4
(a) Construya un diagrama comparativo de tallo y hojas de los datos. ¿Cuál parece
ser un valor representativo de la resistencia? ¿Parecen estar las observaciones muy
concentradas cerca del valor representativo, o sólo están dispersas?
(b) ¿Parece ser razonablemente simétrico el diagrama respecto a un valor representativo,
o describirı́a su forma de otra manera?
(c) ¿Parece haber algún valor extraño o atı́pico?
(d) ¿Qué proporción de observaciones de resistencia fueron mayores que 10 megapascales?
78. El reporte del ejercicio 77 también presenta las siguientes observaciones de resistencia de
cilindros:
9,2 6,6 8,3 7,0 8,3 6,1 5,8 7,8 7,1 7,2
9,8 9,7 14,1 12,6 11,2 7,8 8,1 7,4 8,5 8,9
(a) Construya un diagrama comparativo de tallo y hojas de los datos para vigas y para
cilindros y a continuación conteste las preguntas de la parte (b) a (d) de aquél ejercicio,
sobre las observaciones con cilindros.
(b) ¿En qué aspectos se parecen los dos lados del diagrama? ¿Hay diferencias obvias
entre las observaciones para vigas y para cilindros?
79. Según un diario, en Colombia la donación y disponibilidad de sangre es muy baja, tomando
en cuenta que la captación anual es tan sólo de 485 mil unidades, lo que equivale al 1 por
ciento de la población. ¿Cuál es el promedio de unidades de sangre para 1.000 personas?
80. Un multicentro ha vendido el 70 por ciento de sus metros cuadrados por un valor de 399
millones de dólares. Si el multicentro tiene 190 mil metros cuadrados, ¿cuál es el precio
promedio por metro cuadrado? ¿Cuánto recibirá aproximadamente la cadena por la venta
de todos los locales del multicentro?
81. Si cada colombiano consume cien botellas de 8 onzas de una marca de gaseosa al año,
¿cuánto consume de dicha gaseosa diariamente en botellas y en onzas?
82. Una revista efectuó una encuesta para estudiar sus suscriptores en ciertos paı́ses. Una de
las preguntas pedı́a el valor del portafolio del suscriptor (acciones, bonos, fondos hipote-
carios y certificados de depósitos). La siguiente distribución de frecuencias porcentuales
fue preparada con las respuestas.
Inversión (dólar) Frecuencia porcentual

Menos de 15.000 27
15.000 - 40.000 7
40.000 - 90.000 10
90.000 - 240.000 18
240.000 - 490.000 5
490.000 - 990.000 13
990.000 y más 20
(a) ¿Qué porcentaje de suscriptores tienen inversiones menores de 90.000 dólares?

(b) ¿Qué porcentajes de suscriptores tienen inversiones en el intervalo de 40.000 a 490.000
dólares?
(c) ¿Qué porcentajes de suscriptores tienen inversiones de 490.000 dólares o más?
(d) La distribución porcentual de frecuencias se basa en 816 respuestas. ¿Aproximada-
mente cuántos encuestados dijeron tener inversiones entre 40.000 y 990.000 dólares?
(e) Estime la cantidad de encuestados que aseguran tener inversiones menores a 90.000
dólares.
83. De todos los anuncios de bebidas alcohólicas en vallas publicitarias, el 60% son de cerveza,
el 30% de licores con alta graduación, el 6% sobre vino, y el 4% restantes de bebidas
con bajas graduación alcohólica. Construir un diagrama de barras y uno de pastel que
represente esta información.
84. Una sucursal bancaria que se localiza en la zona comercial de una ciudad desarrolló un
proceso para atender a sus clientes durante la hora pico de almuerzo, de 12:00 p.m. a
1:00 p.m. Se registró el tiempo de espera en minutos (definido como el tiempo desde que
el cliente se forma en la cola hasta que lo atienden) para todos los clientes que asisten a
esta hora durante una semana. Se seleccionó una muestra aleatoria de 15 clientes y los
resultados fueron:
2,34 3,02 3,54 3,20 5,13 4,21 5,55 4,77
4,50 6,10 6,19 3,79 5,12 6,46 0,38
(a) Calcule la media, la mediana, la moda, el rango medio, los tres cuartiles, el rango, el
rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación.
(b) ¿Están los datos sesgados? Si es ası́, ¿cómo?
(c) Un cliente entra en la sucursal a la hora del almuerzo y pregunta cuánto tiempo tendrá
que esperar. Éste responde: “es casi seguro que no tendrá que esperar más de cinco
minutos”. Evalúe esta afirmación según los resultados obtenidos en el inciso (a).
85. Un auditor ha comprobado que el valor de la facturas pagadas por cierta empresa norte-
americana tiene una media de 300 dólares, y una desviación tı́pica de 65 dólares. Hallar
un intervalo en el cual se pueda garantizar que se encuentra por lo menos (a) 60%, (b)
80% de estos valores.
86. Los siguientes tiempos fueron registrados por corredores de cuarto de milla de un equipo
universitario de pista (tiempos en minutos).
Tiempos en el cuarto de milla: 1,04 0,90 0,99 0,92 0,98
Tiempos en la milla 4,60 4,70 4,50 4,52 4,35
Después de ver esta muestra de tiempos, uno de los entrenadores comentó que los corre-
dores de cuarto de milla corrı́an con más consistencia. Emplee la desviación estándar y
el coeficiente de variación para resumir la variabilidad de los datos. ¿El coeficiente de
variación indica que es cierta la afirmación del entrenador?
87. La máxima temperatura registrada durante el verano en una ciudad europea durante los
últimos 8 años son: 25; 24; 23,2; 25,5; 24,8; 23,6; 26 y 35 ◦ C. ¿Se puede considerar la
última temperatura como fuera de lo normal? Justifique.
88. Dos poblaciones constan de n datos cada una. La media de estas dos poblaciones es
la misma, y también lo son sus desviaciones tı́picas. Si (a) n = 2, (b) n = 3, ¿son
necesariamente iguales los valores numéricos de los datos de las dos poblaciones?
⋆ 89. Sean dados los datos x1 , . . ., xn .
Pn
(a) ¿Para qué valor de c la cantidad i=1 (xi − c)2 es minimizada?
Pn
(b) P
Mediante el resultado del inciso (a), ¿cuál de las dos cantidades i=1 (xi − x)2 y
n 2
i=1 (xi − µ) será menor que la otra (suponiendo que x 6= µ)?
⋆ 90. Supongamos que a cada dato de un conjunto de datos se le suma una constante c, es
decir, supongamos que se agrega una constante c a cada xi en una muestra, obteniendo
yi = xi + c.
(a) Demuestre que la media del nuevo conjunto de datos es igual a la media de los datos
originales más la constante. Es decir, y = x + c.
(b) Demuestre que la mediana del nuevo conjunto de datos es igual a la mediana de los
datos originales más la constante. Es decir,
(Mediana de los yi ) = (Mediana de los xi ) + c.
(c) Demuestre que la varianza del nuevo conjunto de datos es igual a la varianza de los
datos originales. Es decir,
(Varianza de los yi ) = (Varianza de los xi ).
(d) Demuestre que la desviación estándar del nuevo conjunto de datos es igual a la
desviación estándar de los datos originales. Es decir,
(Desviación estándar de los yi ) = (Desviación estándar de los xi ).
⋆ 91. Supongamos que a cada dato de un conjunto de datos se le multiplica una constante, es
decir, supongamos que se multiplica una constante k a cada xi en una muestra, obteniendo
yi = kxi .
(a) Demuestre que la media del nuevo conjunto de datos es igual a la media de los datos
originales multiplicada por la constante. Es decir, y = kx.
(b) Demuestre que la mediana del nuevo conjunto de datos es igual a la mediana de los
datos originales multiplicada por la constante. Es decir,
(Mediana de los yi ) = k (Mediana de los xi ).
(c) Demuestre que la varianza del nuevo conjunto de datos es igual a la varianza de los
datos originales por la constante al cuadrado. Es decir,
(Varianza de los yi ) = k2 (Varianza de los xi ).
(d) Demuestre que la desviación estándar del nuevo conjunto de datos es igual a la
desviación estándar de los datos originales multiplicada por el valor absoluto de la
constante . Es decir,
(Desviación estándar de los yi ) = |k| (Desviación estándarde los xi ).

Aplique los resultados de los ejercicios 90 y 91 para resolver los problemas 92 y 93.
92. (a) Una muestra de temperatura para iniciar cierta reacción quı́mica dio una media mues-
tral de 87, 3◦ C y una desviacón estándar muestral de 1, 04◦ C. ¿Cuál son la media y
desviación estándar muestrales medidas en ◦ F? (Sugerencia: F = 95 C + 32.)
(b) Si se suma 5 a cada dato en un conjunto de diez que tiene una desviación estándar
de 7, ¿cuál es la desviación estándar del nuevo conjunto de datos?
(c) Suponga que 3,0 es la media de una muestra de cuatro calificaciones.
i. Si se suma 5 décimas a cada calificación, ¿cuál es la media del nuevo conjunto?
ii. Si cada calificación se multiplica por 1,5 puntos, ¿cuál será la media?
93. El propietario de una pequeña empresa tiene asignado un sueldo de 3.910 euros mensuales.
Los salarios de los empleados aparecen a continuación:
480 510 739 883 859 499 505 1.106 980

1.172 853 487 553 944 920 1.713 1.893 595
(a) ¿Cuál es el salario medio de todos los que trabajan en la empresa incluyendo al
propietario? ¿Cuál es la desviación estándar?
(b) Si se decide aumentar el salario a cada uno en 20 euros, ¿cómo varı́a la media? ¿Y
la desviación estándar?
(c) Si se aumenta sólo el sueldo del dueño en 600 euros, ¿qué ocurre con la media?
(d) Hallar la mediana. ¿Cómo varı́a la mediana si se aumentan todos los sueldos en 300
euros? ¿Y si sólo se aumenta el salario del director en 1.200 euros?
s 94. Se pidió a los alumnos de la facultad de Aministración de Empresas de una prestigiosa

universidad, llenar un cuestionario de evaluación del curso final del mismo. Consiste en una
diversidad de preguntas cuyas respuestas se clasifican en cinco categorı́as: mala, regular,
buena, muy buena, excelente. Una de las preguntas es: En comparación con otros cursos
que has estudiado, ¿cuál es la calidad general de éste? En una muestra de 60 alumnos
que terminaron un curso de estadı́stica durante un determinado semestre de cierto año se
obtuvieron las respuestas que se presentan a continuación (para facilitar el procesamiento
de los resultados del cuestionario en el computador, se usó una escala numérica en la que
1 = mala, 2 = regular, 3 = buena, 4 = muy buena, 5 = excelente):
5 2 4 5 4 4 3 3 4 4 5 1 5 4 3 5 4 5 4 3
2 5 4 2 4 4 4 4 5 5 4 4 4 5 1 5 3 3 4 3
3 4 5 4 3 5 4 5 5 3 4 5 5 2 4 5 3 4 4 3
(a) Comente porqué estos datos son cualitativos.

(b) Elabore un diagrama de frecuencias y una distribución de frecuencias relativas de los
datos.
(c) Trace un resumen de los datos en forma de gráfica de barras y de diagrama circular.
(d) Con base en sus resúmenes, haga comentarios sobre la evaluación general del curso
por parte de los alumnos.
s 95. En el archivo de datos bombeo.sf3 se proporcionan los nombres y potencias instaladas

(en Megawatios) de las veinticuatro centrales españolas de bombeo en funcionamiento en
el año 2.000. Se desea analizar numérica y gráficamente este conjunto de datos.
s 96. Una de las principales atracciones turı́sticas del Parque Nacional de Yellowstone (Estado de
Wyoming, Estados Unidos de Norteamérica) es el geiser Old Faithful, cuyo nombre procede
del hecho de que sus erupciones siguen una pauta bastante estable a lo largo del tiempo.
En el archivo de datos parque.sf3 se proporcionan los lapsos de tiempo transcurridos
entre sucesivas erupciones (variable Lapso) y las duraciones de esas erupciones (variable
Duración). Ambas variables se dan en minutos. Estudie numérica y gráficamentre ambas
variables. ¿Se observa alguna peculiaridad en ellas?
s 97. En el archivo de datos pi.sf3 se proporcionan los 200 primeros dı́gitos del número π.
Analice numérica y gráficamente este conjunto de datos.
s 98. En el archivo de datos sismo.sf3 se muestran el tiempo transcurrido (dado en dı́as) entre
sismos sucesivos acaecidos en el mundo. Todos los sismos considerados o tuvieron una
intensidad de al menos 7,5 en la escala de Richter o produjeron más de 1000 vı́ctimas
mortales. Los sismos registrados ocurrieron entre el 16 de diciembre de 1902 y el 4 de
marzo de 1977. Estudie numérica y gráficamente estos datos.
Respuestas a ejercicios impares
seleccionados
Capı́tulo 1
5. (b) Se ha cometido un error. 43. 2,9
7. (a) de barras, circular (b) histograma,
ojiva (c) de barras 45. (a) 963,33; 550; 700; 1.775; 413,3 (b)
Mediana (c) 550; 800; 700 (d) 2.450;
9. (a) Ordinal 803,52; 250
13. (a) 80% (b) 40%
47. (a) [12,05; 39,95] (b) Por lo menos
15. (c) 149 en la clase 138,5 - 157,5 (d)
aproximadamente el 85%
Ojiva
17. (a) 16% (b) 20 (c) 12% (d) 13 49. (a) H:0,9375; G:1,15 (b) H:5,53 ×
23. (a) Ordinal, nominal (b) Distribución 10−3 ; G:0,04 (c) El de Humberto (d)
simétrica unimodal CV(H)=0,075; CV(G)=0,173
25. 190
51. (a) x = 27, 95; e
x = 27, 639;
27. El piloto A s = 8, 0829; R.I = 5, 42 (b)
29. Sı́ x = 27, 944; s = 8, 1061
31. (a) 23.000 - 35.000

53. (c) x = 1, 6; e
x = 2, 6; M0 = 0, 875;
33. Media 46,81 y mediana 36,6 s = 1, 0208
35. (a) Media 1,0297 y mediana 1,0090
(b) Disminuir máximo en 0,385 55. (a) 1.300 (b) 1.710 (c) 1.040 (d)
12.300; 12.710; 12.040 (e) 1.365
37. x = 65, s = 12, 18 (a) 70% (b) 100%
(c) 100%
57. Resumen de cinco números: 166; 317;
39. Sı́ (aplicar regla de Tchebychev) 451; 545; 1.049
Respuestas a ejercicios impares seleccionados 92
59. (a) 1,9; 2,28; 2,79; 3,05; 3,25 (b) La tiende a ser grande si el rango es grande
distribución está sesgada a la izquierda comparada con un valor representativo”
(c) El rango de los datos de 1,35 (en este caso, “grande” significa que el
puntos es grande dado los pequeños porcentaje está más cerca de 100% que
rendimientos porcentuales sobre los que a 0%). Aquı́, el rango es 5,9. Esto
está calculado. Las tasas del mercado constituye un 5, 9/7, 9 ≈ 75% del valor
de dinero varı́an entre bancos. representativo. Por tanto, la variación
61. (a) x = 79, 31; Resumen de cinco es grande. (b) Tendencia a ser sesgada
números: 72; 76,5; 78,5; 80,5; 90 (c) Sı́ a la derecha (c) No parece (d) 15%
73. x = 20, 05; s = 5, 7812; σ = 5, 484 79. 10 unidades

75. x = 3, 694; s = 1, 214; σ = 1, 182
81. 0,273 botellas; 2,19 onzas
77. (a) El valor representativo parece ser
7,9. Regla usada a veces: “La variación 85. (a) [402,7; 197,3] (b) [445,34; 145,34]
Indice
Amplitud de clase, 15 tı́pica, ver desviación estándar, ver desviación

Análisis exploratorio de datos, 67 estándar
Diagrama
Censo, 9 circular o de pastel, 22
Clase, 14 de barras, 23
del p-ésimo punto percentil, 64 de caja y bigotes, 69
mediana, 63 comparativos, 71
modal, 63 de tallo y hoja, 27
Coeficiente Distribución
de sesgo, 55 asimétrica, 53
de asimetrı́a negativamente, 53
de Fisher, 56 positivamente, 53
de Fisher estandarizado, 56 sesgada
de Pearson, 56 negativamente o a la derecha, 56
de variación de Pearson, 51 positivamente o a la izquierda, 56
Cuartil, 42, 64 simétrica, 53
Dato, 8 Elemento de una población, 8

categórico o cualitativo, 11 Escala de medida, 12
numérico o cuantitativo, 11 de intervalo, 13
continuo, 12 de razón, 13
discreto, 12 nominal, 12
Datos ordinal, 12
agrupados, 14 Estadı́stica
de nivel descriptiva o deductiva, 9
de intervalo, 13 inferencial o inductiva, 9
de razón, 13 Estadı́stico, 8
nominal, 12 método, 10
ordinal, 12 Estadı́stica, 4, 5
no agrupados, 14
Decil, 42 Frecuencia, 14
Desviación, 44 acumulada, 21
estándar de clase, 14
muestral, 46 relativa, 21
poblacional, 45 relativa acumulada, 21
media, 47 Frontera
INDICE 94
de clase, 15 Regla
inferior de clase, 15 de Sturges, 16
superior de clase, 15 de Tchevichev, 49
empı́rica, 50
Histograma, 24 Resumen de cinco números, 67
suavizado, 32
Tabla de frecuencias, 14
Individuo de una población, 8 acumuladas, 21
Intervalos de clase, ver clase agrupadas, 14
bivariadas, 21
Lı́mite no agrupadas, 14
de clase, 15 relativas, 21
inferior de clase, 15 relativas acumuladas, 21
real
inferior de clase, ver Frontera inferior Valor atı́pico, 70
de clase extremo, 70
superior de clase, ver Frontera supe- moderado, 70
rior de clase Varianza
real de clase, ver frontera de clase muestral, 46
superior de clase, 15 muestral ponderada, 48
poblacional, 45
Marca de clase, 15 poblacional ponderada, 48
Media
aritmética ponderada, 33
aritmética, 33, 61
armónica, 39
armónica ponderada, 39
geométrica, 37
geométrica ponderada, 37
Mediana, 34, 63
Medidas
de asimetrı́a, 55
de colocación o de posición relativa, 40
de curtosis o apuntamiento, 57
de forma, 53
de tendencia central, 33
Moda, 35, 63
cruda, 63
Muestra, 8
Observación, 8
Ojiva, 26
Parámetro, 8
Percentil, 41, 64
Pictógrafos, ver pictograma
Pictograma, 23
Población, 8
Polı́gono, 25
Rango, 16, 43
intercuartil, 44
medio, 36, 64
Recorrido, ver Rango

Capitulo 1 Descriptiva LLinás

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Capitulo 1 Descriptiva LLinás

Cargado por

Copyright:

Formatos disponibles

Contenido

Respuestas a ejercicios impares seleccionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

☞ Objetivos del capı́tulo

En general, el término estadı́stica tiene tres acepciones gramaticales perfectamente

3. Finalmente, estadı́stica, significa en su última acepción, la técnica o método

Se considera fundador de la estadı́stica a Godofredo Achenwall (1719-1772;53),

1.1.2 ¿Por qué usted necesita conocer estadı́stica?

1. Presentar y describir la información en forma adecuada.

2. Inferir conclusiones sobre poblaciones grandes basándose solamente en la infor-

3. Utilizar modelos para obtener pronósticos confiables.

1.1.3 Algunas aplicaciones de la estadı́stica

Fig. 1.1: Mapa de rutas del texto

1.1.4 Los computadores, la calculadora y la estadı́stica

disponibles para grandes sistemas de cómputo y para computadores personales. Entre

1.1.5 Términos comúnmente usados en estadı́stica

Definición 1.1.3 Una muestra es un subconjunto de la población.

Definición 1.1.5 Los datos u observaciones son números o denominaciones

Definición 1.1.7 Un parámetro es cualquier caracterı́stica medible de una

Definición 1.1.9 Un estadı́stico es cualquier caracterı́stica medible de una mues-

1.1.6 Estadı́sticas descriptiva e inferencial

Definición 1.1.13 La estadı́stica descriptiva comprende aquellos métodos que

Ejemplo 1.1.14 Las siguientes situaciones utilizan estadı́stica descriptiva:

Definición 1.1.15 La estadı́stica inferencial abarca aquellos métodos y con-

Definición 1.1.17 Las técnicas y métodos utilizados por la ciencia estadı́stica,

✍ Ejercicios de la sección 1.1

Ventas Utilidades Código del ramo

Tabla 1.1: Muestra de 10 empresas que publica una revista

1.2 Organización de datos

1.2.1 Organización de datos de acuerdo al tipo

Fig. 1.2: Tipos de datos

1. Los datos categóricos o cualitativos representan categorı́as o atributos

• Los datos discretos producen respuestas numéricas que surgen de un

1.2.2 Organización de datos de acuerdo a escalas de medidas

Datos de nivel nominal

Una escala nominal para datos categóricos es un agrupamiento no ordenado de los

Datos de nivel ordinal

1. Clasificaciones por letra: A, B, C y D; estos grados indican categorı́as de perfec-

2. Rangos académicos: Doctor, magister, especialista y licenciado.

3. La evaluación de un maestro: insuficiente, aceptable, bueno y excelente.

4. Los grados de la escuela: primero, segundo, tercero, etc.

Datos de nivel de intervalo

1. Puntajes en las pruebas de inteligencia. Un puntaje de inteligencia de 110 es cinco

Datos de nivel de razón

1.2.3 Organización de datos mediante tablas

Definición 1.2.1 La frecuencia (absoluta) de un dato, simbolizado con la letra

Ejemplo 1.2.2 En el conjunto de datos 4 5 5 3 2 6 7 7 7 2, el cuatro sólo aparece una vez

Tabla de frecuencias no agrupadas

Ejemplo 1.2.3 La tabla de frecuencias (no agrupada) para el conjunto de datos 3 5 7 6 4

Tabla de frecuencias agrupadas

Tiempo de auditorı́a (dı́as) Frecuencia

Tabla 1.2: Distribución de frecuencias para los datos de tiempo de auditorı́a ◭

Tabla 1.3: Distribución de frecuencias para los datos de tiempo de auditorı́a ◭

Sugerencias para construir una tabla de frecuencias agrupadas

1. En la realidad, se acostumbra siempre a agrupar los datos en clases en donde los

4. Para mayor comodidad en el proceso de construcción de las clases, acordaremos

Determinación de la amplitud de clase. Para determinar la amplitud de clase en

Regla de Sturges. La regla de Sturges establece como número de clases

donde n es el número de medidas y log n es el logaritmo de n en base 10. El

Otra regla razonable para el número de clases es

6. Luego, determinar el rango R, que es la diferencia entre las medidas mayor y

7. Posteriormente la amplitud de clase w se encuentra como se muestra en el si-

Amplitud de clase. La amplitud de clase w se determina calculando el cociente

agrupadas, empezando siempre la primera clase con la frontera inferior teniendo