Está en la página 1de 94

Contenido

1 Estadı́stica descriptiva 3
1.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 ¿Qué significa estadı́stica? . . . . . . . . . . . . . . . . . . . . 4
1.1.2 ¿Por qué usted necesita conocer estadı́stica? . . . . . . . . . . . 5
1.1.3 Algunas aplicaciones de la estadı́stica . . . . . . . . . . . . . . 5
1.1.4 Los computadores, la calculadora y la estadı́stica . . . . . . . . 7
1.1.5 Términos comúnmente usados en estadı́stica . . . . . . . . . . . 8
1.1.6 Estadı́sticas descriptiva e inferencial . . . . . . . . . . . . . . . 9
1.2 Organización de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.1 Organización de datos de acuerdo al tipo . . . . . . . . . . . . 11
1.2.2 Organización de datos de acuerdo a escalas de medidas . . . . . 12
1.2.3 Organización de datos mediante tablas . . . . . . . . . . . . . . 13
1.2.4 Organización de datos mediante representaciones gráficas . . . . 22
1.3 Análisis de datos en tablas de frecuencias no agrupadas . . . . . . . . . 32
1.3.1 Medidas de tendencia central o de centralización . . . . . . . . 33
1.3.2 Medidas de colocación o de posición relativa . . . . . . . . . . . 40
1.3.3 Medidas de dispersión o de variabilidad . . . . . . . . . . . . . 42
1.3.4 Medidas de formas . . . . . . . . . . . . . . . . . . . . . . . . 53
1.4 Análisis de datos en tablas de frecuencias agrupadas . . . . . . . . . . . 61
1.5 Análisis exploratorio de datos . . . . . . . . . . . . . . . . . . . . . . . 67
1.5.1 Resumen de cinco números . . . . . . . . . . . . . . . . . . . . 67
1.5.2 Diagrama de caja y bigotes . . . . . . . . . . . . . . . . . . . . 69
1.6 Uso de Statgraphics en la estadı́stica descriptiva . . . . . . . . . . . . . 73
1.6.1 Análisis de un solo conjunto de datos . . . . . . . . . . . . . . 73
1.6.2 Análisis simultáneo de dos o más conjuntos de datos . . . . . . 79
1.7 Uso de la calculadora en la estadı́stica . . . . . . . . . . . . . . . . . . 83
✍ Ejercicios complementarios . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Contenido 2

Respuestas a ejercicios impares seleccionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91


CAPÍTULO 1

Estadı́stica descriptiva

Contenido
1.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 ¿Qué significa estadı́stica? . . . . . . . . . . . . . . . . . . . 4
1.1.2 ¿Por qué usted necesita conocer estadı́stica? . . . . . . . . . 5
1.1.3 Algunas aplicaciones de la estadı́stica . . . . . . . . . . . . 5
1.1.4 Los computadores, la calculadora y la estadı́stica . . . . . . 7
1.1.5 Términos comúnmente usados en estadı́stica . . . . . . . . 8
1.1.6 Estadı́sticas descriptiva e inferencial . . . . . . . . . . . . . 9
1.2 Organización de datos . . . . . . . . . . . . . . . . . . . . . 11
1.2.1 Organización de datos de acuerdo al tipo . . . . . . . . . . 11
1.2.2 Organización de datos de acuerdo a escalas de medidas . . 12
1.2.3 Organización de datos mediante tablas . . . . . . . . . . . . 13
1.2.4 Organización de datos mediante representaciones gráficas . 22
1.3 Análisis de datos en tablas de frecuencias no agrupadas 32
1.3.1 Medidas de tendencia central o de centralización . . . . . . 33
1.3.2 Medidas de colocación o de posición relativa . . . . . . . . . 40
1.3.3 Medidas de dispersión o de variabilidad . . . . . . . . . . . 42
1.3.4 Medidas de formas . . . . . . . . . . . . . . . . . . . . . . . 53
1.4 Análisis de datos en tablas de frecuencias agrupadas . . 61
1.5 Análisis exploratorio de datos . . . . . . . . . . . . . . . . 67
1.5.1 Resumen de cinco números . . . . . . . . . . . . . . . . . . 67
1.5.2 Diagrama de caja y bigotes . . . . . . . . . . . . . . . . . . 69
1.6 Uso de Statgraphics en la estadı́stica descriptiva . . . . 73
1.6.1 Análisis de un solo conjunto de datos . . . . . . . . . . . . . 73
1.6.2 Análisis simultáneo de dos o más conjuntos de datos . . . . 79
1.7 Uso de la calculadora en la estadı́stica . . . . . . . . . . . 83
✍ Ejercicios complementarios . . . . . . . . . . . . . . . . . . . 85
1.1 Introducción 4

☞ Objetivos del capı́tulo


1. Presentar una visión amplia sobre el campo de estudio de la estadı́stica y sus aplica-
ciones.
2. Distinguir entre estadı́stica descriptiva e inferencial.
3. Estudiar los tipos de datos.
4. Mostrar cómo organizar datos.
5. Construir tablas y gráficas para datos numéricos y categóricos.
6. Describir las medidas de tendencia central, de posición relativa, de variación y de
forma de los datos numéricos.
7. Describir las técnicas para realizar un análisis exploratorio de datos.
8. Presentar aplicaciones del uso de Statgraphics y de la calculadora en la estadı́stica.

☞ Empleo de la estadı́stica
≪La directora de producción de una empresa debe informar a su superior sobre
el número de dı́as promedio que los empleados de la empresa se ausentan del tra-
bajo. Sin embargo, la planta emplea más de dos mil trabajadores, y la directora de
producción no tiene tiempo de revisar los registros personales de cada empleado.
Como asistente usted debe decidir cómo puede ella obtener la información nece-
saria. ¿Qué consejo podrı́a darle?≫

1.1 Introducción
1.1.1 ¿Qué significa estadı́stica?
En la vida diaria los diversos fenómenos de orden económico, social, polı́tico, educa-
cional, e incluso biológico, aparecen, se transforman y finalmente desaparecen. Para
tan abundante y complejo material es preciso tener un registro ordenado y continuo a
fin de conseguir en un momento dado los datos necesarios para un estudio de lo que
ha sucedido, sucede o puede suceder. Para ello se requiere contar con un método, con
un conjunto de reglas o principios, que nos permita la observación, el ordenamiento, la
cuantificación y el análisis de dichos fenómenos.

En general, el término estadı́stica tiene tres acepciones gramaticales perfectamente


definidas:
1. Estadı́stica, en su acepción más común, no es más que una colección de datos
numéricos ordenados y clasificados según un determinado criterio. Nos referimos
a este significado cuando hablamos de estadı́sticas de producción, estadı́sticas de
cotizaciones bursátiles, estadı́sticas demográficas, etc.
2. Estadı́stica, en una segunda acepción, es la ciencia que, utilizando como ins-
trumento a las matemáticas y al cálculo de probabilidades, estudia las leyes de
comportamiento de aquellos fenómenos que, no estando sometidos a las leyes
fı́sicas y basándose en ellas predice e infiere resultados. El término estadı́stica
matemática viene a ser el nombre propio de esta acepción.
1.1 Introducción 5

3. Finalmente, estadı́stica, significa en su última acepción, la técnica o método


cientı́fico usado para recolectar, organizar, resumir, presentar, análizar, interpretar,
generalizar y contrastar los resultados de las observaciones de los fenómenos reales.

Se considera fundador de la estadı́stica a Godofredo Achenwall (1719-1772;53),


profesor y económista alemán quien, siendo profesor de la universidad de Leipzig (Ale-
mania), escribió sobre el descubrimiento de una nueva ciencia que llamó estadı́stica (pa-
labra derivada del término alemán “Staat” que significa “estado”) y que definió como
“el conocimiento profundo de la situación respectiva y comparativa de cada estado”.
Achenwall y sus seguidores estructuraron los métodos estadı́sticos que se orientaron
a investigar, medir y comparar las riquezas de las naciones. Lo anterior no significa que,
antes de los estudios de G. Achenwall, los estados no hubiesen efectuado inventarios
de sus riquezas. Estos inventarios se efectuaron desde la antigüedad. Se sabe que 2.000
a 2.500 años antes de Cristo, los inventarios que efectuaron los chinos y los egipcios
eran muy elementales.

1.1.2 ¿Por qué usted necesita conocer estadı́stica?


En general, el problema que enfrentan las compañı́as e industrias no es la escasez de
información, sino cómo utilizar la información disponible para tomar las decisiones más
adecuadas. Por esta razón, desde la perspectiva de una toma de decisiones informada,
cabe preguntarse por qué un ingeniero, un administrador y un economista necesita saber
estadı́stica. Para dar respuesta a esta inquietud podemos decir que éstos deben com-
prender la estadı́stica, básicamente, por tres razones fundamentales:

1. Presentar y describir la información en forma adecuada.

2. Inferir conclusiones sobre poblaciones grandes basándose solamente en la infor-


mación obtenida de subconjuntos de ellas.

3. Utilizar modelos para obtener pronósticos confiables.

En el diagrama de la figura 1.1 se presenta un esquema general de las rutas que sugeri-
mos tomar desde la perspectiva de estas tres razones para aprender estadı́stica. En este
esquema se observa que para tener en cuenta la primera razón, se abordan los métodos
referentes a la recopilación, descripción y presentación de la información (que corres-
ponde al capı́tulo 1 de nuestro texto). Para la segunda razón, necesitaremos desarrollar
los conceptos de distribuciones muestrales, estimación y pruebas de hipótesis. Debido
a que estos temas no hacen parte de los objetivos de este texto, sólo se desarrollarán
los conceptos básicos de probabilidad (capı́tulo 2) y algunas distribuciones (capı́tulos 3,
4 y 5), temas que sirven como base para desarrollar lo expresado en la segunda razón.
Para la tercera razón, sugerimos realizar el enfoque al análisis de regresión, modelado
y análisis de series de tiempo que proporcionan métodos para hacer pronósticos (temas
que tampoco tratamos en este texto).

1.1.3 Algunas aplicaciones de la estadı́stica


En esta sección presentaremos ejemplos que ilustran algunas de las aplicaciones de la
estadı́stica en la ingenierı́a, en la administración y en la economı́a.
1.1 Introducción 6

Fig. 1.1: Mapa de rutas del texto

Ingenierı́a
La importancia de la estadı́stica en la ingenierı́a ha sido subrayada por la participación
de la industria en el aumento de la calidad. Muchas empresas se han dado cuenta de
que la baja calidad de un producto (ya sea en la forma de defectos de fabricación, en
una baja confiabilidad en su rendimiento, o en ambos), tiene un efecto muy pronunciado
en la productividad global de la compañı́a, en el mercado y la posición competitiva y,
finalmente, en la rentabilidad de la empresa. Mejorar estos aspectos de la calidad puede
eliminar el desperdicio; disminuir la cantidad de material de desecho, la necesidad de
volver a maquilar las piezas, los requerimientos para inspección y prueba y las pérdidas
por garantı́a. Además de mejorar la satisfacción del consumidor y permitir que la empresa
se convierta en un productor de alta calidad y bajo costo en el mercado. En este sentido,
la estadı́stica es un elemento decisivo en el incremento de la calidad, ya que las técnicas
estadı́sticas pueden emplearse para describir y comprender la variabilidad.1

Contabilidad
Las empresas de contadurı́a pública emplean procedimientos estadı́sticos de muestreo
para llevar a cabo auditorı́as a sus clientes. Por ejemplo, supongamos que una empresa
de contadores desea determinar si la cantidad que aparece en las cuentas por cobrar, en el
balance de un cliente, representa fielmente la cantidad real de ese rubro. Normalmente,
la cantidad de cuentas individuales por cobrar es tan grande que serı́a demasiado lento y
costoso revisar y validar cada cuenta. En casos como éste, regularmente se acostumbra
que el personal del auditor seleccione un subconjunto de las cuentas (llamado muestra).
1
La variabilidad es el resultado de cambios en las condiciones bajo las que se hacen la observa-
ciones.
1.1 Introducción 7

Después de revisar la exactitud de las cuentas muestreadas, los auditores llegan a una
conclusión acerca de si la cantidad que aparece en cuentas por cobrar, en los estados
financieros de sus cliente, es aceptable.

Finanzas
Los asesores financieros recurren a una gama de información estadı́stica para guiarse
en sus recomendaciones de inversión. En el caso de las acciones, revisan una variedad
de datos financieros, que incluyen relaciones de precio a rendimiento y los dividendos.
Al comparar la información de determinadas acciones con la correspondiente acerca
de promedios del mercado accionario, un asesor financiero puede comenzar a sacar
conclusiones sobre si esas acciones están sobre o subevaluadas.

Mercadotecnia
Los escáners en las cajas de los almacenes al detalle se emplean para reunir datos que
tienen muchas aplicaciones de investigación de mercados.

Producción
Con el énfasis actual hacia la calidad, el control de calidad es una aplicación importante
de la estadı́stica en la producción. Para vigilar el resultado de un proceso de producción
se emplean diversas gráficas de control estadı́stico de calidad, en especial, se usa una
gráfica para vigilar el promedio de un producto. Por ejemplo, supongamos que una
máquina llena envases con 12 onzas de una bebida muy conocida. Periódicamente
se selecciona una muestra de envases y se le determina su contenido promedio. Este
promedio, o valor x, se anota en una gráfica, a partir de la cual se observa si es necesario
ajustar o corregir el proceso de producción.

Economı́a
Con frecuencia se pide a los economistas su pronóstico acerca del futuro de la economı́a
o de alguno de sus aspectos. Recurren a diversas informaciones estadı́sticas para ela-
borarlo. Ası́, para pronosticar las tasas de inflación usan indicadores como el ı́ndice de
precios al productor, la tasa de desempleo y la ocupación de la capacidad de producción.
Muchas veces, esos indicadores estadı́sticos se introducen en modelos computarizados
de pronóstico, cuyo resultado son predicciones sobre las tasas de inflación.

1.1.4 Los computadores, la calculadora y la estadı́stica


El computador se ha convertido en una herramienta importante en la presentación y el
análisis de datos. Si bien muchas técnicas estadı́sticas sólo necesitan una calculadora de
mano, cuyo empleo consume mucho tiempo y esfuerzo, el computador realiza las tareas
con mucha eficiencia.

La mayor parte del análisis estadı́stico se realiza utilizando una biblioteca de progra-
mas estadı́sticos. El usuario introduce los datos y luego selecciona los tipos de análisis
y la presentación de los resultados que le interesan. Los paquetes estadı́sticos están
1.1 Introducción 8

disponibles para grandes sistemas de cómputo y para computadores personales. Entre


los paquetes más utilizados están SAS (Statistical Analysis System), SPSS (Statisti-
cal Package for Social Sciencies), Statgraphics e, inclusive, Excel. En la sección 1.6
explicaremos cómo utilizar Statgraphics en la estadı́stica y en la 1.7, cómo emplear la
calculadora para hacer cálculos estadı́sticos.

1.1.5 Términos comúnmente usados en estadı́stica

Definición 1.1.1 Una población es el conjunto total de objetos que son de in-
terés para un problema dado. Los objetos pueden ser personas, animales, producto
fabricados, etc. Cada uno de ellos recibe el nombre de elemento o individuo de
la población

Ejemplo 1.1.2 Todos los niños nacidos en determinado año pueden constituir una población.
Si el director de una gran empresa manufacturera desea estudiar la producción de todas
las plantas de propiedad de la firma, entonces, la producción de todas estas plantas es la
población. ◭

Definición 1.1.3 Una muestra es un subconjunto de la población.

Ejemplo 1.1.4 Si todos los niños nacidos en determinado año constituyen una población,
entonces, los niños nacidos en el mes de febrero pueden constituir una muestra. ◭

Definición 1.1.5 Los datos u observaciones son números o denominaciones


que podemos asignar a un individuo o elemento de la población.

Ejemplo 1.1.6 Son ejemplos de datos: la edad de una persona, la respuesta a la pregunta
“¿Usted fuma?”, el tipo de sangre, el salario mensual de una trabajador, etc. ◭

Definición 1.1.7 Un parámetro es cualquier caracterı́stica medible de una


población.

Ejemplo 1.1.8 El ingreso promedio de todos los trabajadores de una determinada empresa
es un ejemplo de parámetro, si todos los trabajadores se consideran como una población. ◭

Definición 1.1.9 Un estadı́stico es cualquier caracterı́stica medible de una mues-


tra.

Ejemplo 1.1.10 El ingreso promedio de todos los asalariados de una determinada sección
de la empresa (viendo a los trabajadores de ésta como una muestra de todos los trabajadores
de esta empresa) es un ejemplo de estadı́stico. ◭
1.1 Introducción 9

Definición 1.1.11 Un censo (palabra derivada del latı́n “ censere” que significa
valuar o tasar) es una enumeración completa de la población.

Ejemplo 1.1.12 Según el censo llevado a cabo por el DANE (Departamento Administra-
tivo Nacional de Estadı́stica), en 1.993 Colombia tenı́a 33.109.840 habitantes, de los cuales
16.296.539 eran hombres y 16.813.301, mujeres. ◭

1.1.6 Estadı́sticas descriptiva e inferencial


Los procedimientos y análisis que aparecen en estadı́stica caen en dos categorı́as gene-
rales, estadı́stica descriptiva (o deductiva) y estadı́stica inferencial (o inductiva), depen-
diendo del propósito del estudio.

Definición 1.1.13 La estadı́stica descriptiva comprende aquellos métodos que


incluyen técnicas para recolectar, presentar, analizar e interpretar datos.

En general, la estadı́stica descriptiva tiene como función el manejo de los datos recopila-
dos en cuanto se refiere a su ordenación y presentación, para poner en evidencia ciertas
caracterı́sticas en la forma que sea más objetiva y útil. En este sentido, investiga los
métodos y procedimientos y establece reglas para que el manejo de los datos sea más
eficiente y para que la información entregada resulte confiable, y exprese correctamente
ciertos contenidos en un lenguaje que permita que cualquier persona los comprenda y
pueda establecer comparaciones.

Ejemplo 1.1.14 Las siguientes situaciones utilizan estadı́stica descriptiva:


(a) A un empresario le interesa determinar el promedio semanal total de sus gastos en
algunos productos durante un tiempo determinado.
(b) Una entidad quiere calcular la proporción de colombianos encuestados que están a
favor de determinado candidato polı́tico. ◭

Definición 1.1.15 La estadı́stica inferencial abarca aquellos métodos y con-


juntos de técnicas que se utilizan para obtener conclusiones sobre las leyes de com-
portamiento de una población basándose en los datos de muestras tomadas de esa
población.

Ejemplo 1.1.16 Las situaciones siguientes, que son paralelas a las situaciones descriptivas
dadas anteriormente, requieren estadı́stica inferencial:
(a) Con base en una muestra de estudiantes, cierta universidad desea determinar el por-
centaje de estudiantes que fuman.
(b) Con base en una encuesta de opinión, al polı́tico le gustarı́a calcular la oportunidad
de reelegirse en las próximas elecciones. ◭
1.1 Introducción 10

Definición 1.1.17 Las técnicas y métodos utilizados por la ciencia estadı́stica,


tanto en su parte descriptiva como en la parte inferencial son los llamados métodos
estadı́sticos.

✍ Ejercicios de la sección 1.1


1. Describa una posible muestra de tamaño 5 de cada una de las siguientes poblaciones:
(a) Todos los periódicos publicados en Colombia.
(b) Todas las empresas importantes de Colombia.
(c) Todos los estudiantes de su curso.
(d) Todos los promedios de calificaciones de los alumnos de su universidad.
2. Una revista publica datos sobre la clasificación de las 300 corporaciones industriales más
grandes de un pais, en términos de ventas y utilidades. En la tabla 1.1 vemos datos acerca
de una muestra de estas 300 compañı́as.
(a) ¿Cuántos elementos hay en este conjunto de datos?
(b) ¿Cuál es la población?
(c) Calcule las ventas anuales en la muestra.
(d) Con el resultado del inciso (c), ¿cuál es la estimación de las ventas promedio para la
población?

Ventas Utilidades Código del ramo


Compañı́a ($ millones) ($ millones) industrial
Todo Confort 38.420 2.586,0 12
Alles klar 20.847 5.157,0 15
Ramos del Caribe 8.071 234,0 2
Sofort 3.075 212,2 22
Express 8.092 168,7 48
El único 10.272 1.427,0 8
Integer 8.588 213,3 11
Good 6.371 49,7 10
Pueblo City 9.844 580,0 19
Report Info 6.454 87,0 19

Tabla 1.1: Muestra de 10 empresas que publica una revista

3. Una empresa desea probar la eficacia de un nuevo comercial de televisión. Como parte
de la prueba, el comercial se pasa a las 8:30 p.m. en un programa de noticias locales
en cierta ciudad. Tres dı́as después, una empresa de investigación de mercado lleva a
cabo una encuesta telefónica para obtener información sobre la frecuencia de recuerdos
(procentaje de los telespectadores que recuerdan haber visto el comercial) y las impresiones
del comercial.
(a) ¿Cuál son la población y la muestra para este estudio?
1.2 Organización de datos 11

(b) ¿Por qué se necesita usar una muestra en este caso? Explique su respuesta.
4. El señor Marimón, candidato a alcalde de un pueblo pequeño, quiere determinar si debe
hacer una campaña más fuerte contra su oponente. Para ello entrevistará a 300 de los
1, 700 votantes registrados. Si los resultados indican que tiene 35% más votos que su
oponente, no intensificar sus esfuerzos de campaña contra su rival.
(a) Identifique la población, la muestra, un estadı́stico y un parámetro.
(b) ¿Qué harı́a el señor Marimón si tuviera el 75% de los votos de la muestra?
5. Se estableció que el costo promedio de los textos escolares en un colegio pequeño durante
el ultimo año fue de $ 354.400, con base en una inscripción de 1.500 estudiantes. Como
un trabajo de clase en el colegio, un grupo de estadı́stica encuestó a 30 estudiantes para
determinar el promedio del costo de un libro de texto en el último año y se concluyó que
fue de $ 399.700.
(a) Identifique la población, la muestra, los parámetros y dos estadı́sticos.
(b) ¿Qué podrı́a concluir el grupo de estadı́stica si el costo promedio de un libro para la
muestra de 30 estudiantes fuera de $ 1.050.000?

1.2 Organización de datos


Nosotros estudiaremos cuatro formas de organizar los datos, a saber, por el tipo de dato,
de acuerdo a escalas de medidas, mediante tablas y mediante representaciones gráficas.

1.2.1 Organización de datos de acuerdo al tipo


Como se ilustra en la figura 1.2, existen dos tipos de datos: categóricos (o cualitativos)
y numéricos (cuantitativos).

Fig. 1.2: Tipos de datos

1. Los datos categóricos o cualitativos representan categorı́as o atributos


(como, por ejemplo, sı́ o no) que pueden clasificarse como un criterio o cualidad.
2. Los datos numéricos o cuantitativos producen respuestas numéricas como
el peso en kilogramos o el número de universidades que hay en la Costa Atlántica.
Estos datos son de dos tipos: dicretos y continuos.
1.2 Organización de datos 12

• Los datos discretos producen respuestas numéricas que surgen de un


conteo. Ejemplos de datos discretos son la cantidad de universidades que hay
en la Costa Atlántica, el número de estudiantes en la Universidad del Norte
en 2.003, la cantidad de hermanos que tiene un determinado estudiante de
administración, el número de personas en una fila, etc.
• Los datos continuos producen respuestas numéricas que surgen de un
proceso de medición, donde la caracterı́stica de que se mide puede tomar
cualquier valor numérico en un intervalo. Ejemplos datos continuos son el
peso (en kilogramos) de una persona, su estatura (en metros), el tiempo que
usted tarda en llegar a la Universidad del Norte, etc.

1.2.2 Organización de datos de acuerdo a escalas de medidas


Los datos también se pueden clasificar según la escala de medición o el procedimiento
que los generó. Cuatro tipos de escalas de medición usados en estadı́stica son las escalas
nominal, ordinal, de intervalo y de razón.

Datos de nivel nominal


Un dato nominal se crea cuando se utilizan nombres para establecer categorı́as con la
condición de que cada dato pertenezca única y exclusivamente a una de estas categorı́as.
Existen escalas nominales tanto para los datos numéricos como categóricos. Una escala
nominal para datos numéricos asigna números a las categorı́as. Por ejemplo, entre los
datos numéricos que son nominales se incluyen los números en las camisetas deportivas,
los números telefónicos, etc.

Una escala nominal para datos categóricos es un agrupamiento no ordenado de los


datos en categorı́as discretas, donde cada dato puede incluirse solamente en uno de los
grupos. Por ejemplo, los datos nominales que son cualitativos incluyen el género, la
raza, el tipo de sangre y la religión.

Datos de nivel ordinal


Los datos medidos en una escala nominal ordenada de alguna manera se denominan
datos ordinales. Una escala ordinal coloca las medidas en categorı́as, cada una de
las cuales indica un nivel distinto respecto a un atributo que se está midiendo. La lista
de datos ordinales comprende:

1. Clasificaciones por letra: A, B, C y D; estos grados indican categorı́as de perfec-


cionamiento, ası́ como los niveles alcanzados.

2. Rangos académicos: Doctor, magister, especialista y licenciado.

3. La evaluación de un maestro: insuficiente, aceptable, bueno y excelente.

4. Los grados de la escuela: primero, segundo, tercero, etc.

No es posible determinar la diferencia o distancia entre los valores medidos en una escala
ordinal. Aun cuando codifiquemos las letras A como 4, B como 3, C como 2 y D como
1.2 Organización de datos 13

1, esto no quiere decir que con A, el estudiante sabe el doble que un estudiante con C.
Todo lo que podemos decir es que la calificación A es mejor o de un grado superior a la
de C, ya que una escala ordinal no admite unidad de distancia.

Datos de nivel de intervalo


Los datos medidos en una escala ordinal para los cuales pueden clasificarse las distancias
entre valores, se llaman datos de intervalos. La distancia entre dos valores es
importante y los datos de intervalo son numéricos por necesidad; una escala de intervalo
no siempre tiene un punto cero (es decir, un punto que indique la ausencia de lo que se
quiere medir). La lista de datos de intervalo comprenden:

1. Puntajes en las pruebas de inteligencia. Un puntaje de inteligencia de 110 es cinco


puntos superior a uno de 105 (datos ordinales). En este caso, no sólo podemos
decir que un puntaje de 110 es superior a uno de 105, sino que también podemos
decir que es cinco puntos más alto; pero no podemos decir que una persona con
un puntaje de inteligencia de 180 es doblemente inteligente que una persona que
tiene uno de 90.

2. Temperaturas Celsius. Una temperatura Celsius de 80◦ es 40◦ más caliente que
una de 40, pero no es correcto decir que 80◦ es el doble de caliente que 40◦ .
Nótese también que una temperatura de 0 no representa la ausencia de calor. El
punto cero en la escala de temperatura Celsius fue escogido arbitrariamente como
el punto de congelamiento e indica que está presente algo de calor.

3. Fechas. Brian LLinás nació en Mainz (Alemania) en el año 2000, 31 años después
de su padre, el Dr. rer. nat Humberto LLinás (1969). Podemos especificar la
distancia entre estos dos sucesos ordenados, 31 años, pero si existiera el año cero,
no representarı́a la ausencia de tiempo.

Datos de nivel de razón


Los datos medidos en una escala de intervalo con un punto cero que significa “ninguno”,
se llaman datos de razón. Con datos medidos en una escala de razón, podemos de-
terminar cuántas veces es mayor una medida que otra. Las escalas de razón incluyen
salarios, unidades de producción, peso, altura, etc. El dinero nos da una buena ilus-
tración. Si usted tiene cero pesos, entonces, no tiene dinero. El peso es otro ejemplo.
Si la aguja marca cero en la escala, entonces, hay una completa ausencia de peso (sin
importar si se utiliza distintas escalas de razón como kilogramos, gramos o libras). Las
escalas de razón también incluyen escalas usadas comúnmente para medir unidades como
pies, libras, centı́metros, etc. Los resultados de contar objetos también son datos de
razón como, por ejemplo, diez peras es el doble que cinco.

1.2.3 Organización de datos mediante tablas


En esta forma de organización de datos es importante el concepto de frecuencia de un
dato.
1.2 Organización de datos 14

Definición 1.2.1 La frecuencia (absoluta) de un dato, simbolizado con la letra


f, es el número de veces que aparece ese dato en una colección de datos.

Ejemplo 1.2.2 En el conjunto de datos 4 5 5 3 2 6 7 7 7 2, el cuatro sólo aparece una vez


(por lo tanto, tiene frecuencia f = 1), el cinco aparece dos veces (o sea, frecuencia f = 2), el
7 tiene frecuencia f = 3, etc. ◭

Existen dos tipos generales de tablas para reportar datos usando frecuencias, éstas son:
tablas de frecuencias no agrupadas y tablas de frecuencias agrupadas. Ambas tablas se
mencionan simplemente como tablas de frecuencia.2

Tabla de frecuencias no agrupadas


Son aquéllas en donde cada dato tiene la frecuencia correspondiente. Los datos que
organizados en tablas de frecuencias no agrupadas se denominan usualmente datos no
agrupados.

Ejemplo 1.2.3 La tabla de frecuencias (no agrupada) para el conjunto de datos 3 5 7 6 4


3 7 6 6 7 5 7 es
Dato 3 4 5 6 7
Frecuencia 2 1 2 3 4

Tabla de frecuencias agrupadas


Otra posibilidad de organizar datos es agruparlos en intervalos (llamados intervalos
de clase o, simplemente, clases) y determinar la llamada frecuencia de clase
de cada clase, es decir, el total de datos que hay en cada clase. Posteriormente, las
clases y las frecuencias de clase se ubican en una tabla que llamaremos tabla de fre-
cuencias agrupadas . Los datos que organizados en tablas de frecuencias agrupadas
se denominan generalmente datos agrupados.

Ejemplo 1.2.4 La tabla 1.2 es un ejemplo de una tabla de frecuencias agrupada y 10-14 y
15-19 son ejemplos de clases. En ella se presentan las distribuciones de frecuencia para los
datos de tiempo de auditorı́as de fin de año.

Tiempo de auditorı́a (dı́as) Frecuencia


10 - 14 4
15 - 19 8
20 - 24 5
25 - 29 2
30 - 34 1

Tabla 1.2: Distribución de frecuencias para los datos de tiempo de auditorı́a ◭

2
En vez del término “tablas de frecuencia” se utiliza a menudo “distribución de frecuencias”.
1.2 Organización de datos 15

Las clases de frecuencias agrupadas poseen lo que se llama lı́mites de clase. Consi-
deremos la tabla 1.2. En la clase 10-14, a 10 se le llama lı́mite inferior de clase y
a 14, lı́mite superior de clase. La distancia entre cualquiera de dos lı́mites supe-
riores consecutivos o entre cualquiera de dos lı́mites inferiores consecutivos es llamada
amplitud de clase. La amplitud de cada clase en la tabla 1.2 es 5.

Cada clase en una tabla de frecuencia tiene lı́mites de clases teóricos llamados lı́mites
reales de clase o frontera de clase (término que utilizaremos en el texto). Al
lı́mite superior teórico se le llama frontera superior de clase (o lı́mite real
superior de clase) y al lı́mite inferior teórico de clase se le llama frontera infe-
rior de clase (o lı́mite real inferior de clase). En general, para una clase
dada, cualquier frontera se calcula de la siguiente manera:
lı́mite inf. de la clase dada + lı́mite sup. de la clase anterior
Frontera inferior = .
2
Observemos que la frontera inferior de una clase siempre conincide con la frontera supe-
rior de la clase superior. Por ejemplo, para los datos de la tabla 1.2, la frontera inferior
para la tercera clase es 19,5 (que es la misma frontera superior de la segunda clase) y la
frontera superior para esa misma clase es 24,5 (que es la misma frontera inferior de la
quinta clase). Todas estas fronteras aparecen ya calculadas en la segunda columna de
la tabla 1.3.
Tiempo de auditorı́a (dı́as) Fronteras inferior - superior Frecuencia
10 - 14 9,5 - 14,5 4
15 - 19 14,5 - 19,5 8
20 - 24 19,5 - 24,5 5
25 - 29 24,5 - 29,5 2
30 - 34 29,5 - 34,5 1

Tabla 1.3: Distribución de frecuencias para los datos de tiempo de auditorı́a ◭

El punto medio de cada clase se denomina marca de clase. Es decir, para una clase
dada, la marca de clase se encuentra usando la fórmula
frontera inferior de clase + frontera superior de clase
Marca de clase = .
2

Sugerencias para construir una tabla de frecuencias agrupadas


Para construir cualquier tabla de frecuencias agrupadas debe tenerse en cuenta los si-
guientes comentarios:

1. En la realidad, se acostumbra siempre a agrupar los datos en clases en donde los


extremos de la clase son las respectivas fronteras, en vez de los lı́mites de clase.
De ahora en adelante, nosotros lo haremos siempre ası́.
2. Para mayor comodidad en el proceso de construcción de las clases, acordaremos
que la primera clase debe contener por lo menos el dato menor (en la realidad,
esto no siempre es ası́).
1.2 Organización de datos 16

3. Las clases deben ser mutuamente excluyentes, es decir, cada dato debe quedar
exactamente en una sola clase, no en dos al mismo tiempo.

4. Para mayor comodidad en el proceso de construcción de las clases, acordaremos


que todas las clases deben tener la misma amplitud (en la realidad, esto no siempre
es ası́).

Determinación de la amplitud de clase. Para determinar la amplitud de clase en


cualquier tabla de frecuencias agrupadas, réstense dos lı́mites superiores de clases
consecutivos o dos lı́mites inferiores de clases consecutivos, o dos fronteras infe-
riores consecutivas, o dos fronteras superiores consecutivas, o réstese la frontera
inferior de una clase de la frontera inferior superior de dicha clase.

5. Mientras menos clases escojamos será más fácil el trabajo, pero se perderá más
información. Debido a que no hay un acuerdo general entre los estadı́sticos acerca
del número de clases que debe usarse y dado que la elección es arbitraria, para
nuestros fines, escogeremos entre 5 y 20. Una sugerencia útil para el número de
clases está dado por la regla de Sturges.

Regla de Sturges. La regla de Sturges establece como número de clases


necesario, aproximadamente

c = 3, 3(log n) + 1,

donde n es el número de medidas y log n es el logaritmo de n en base 10. El


valor de c es común redondearlo al entero más cercano.

Otra regla razonable para el número de clases es



c = n.

6. Luego, determinar el rango R, que es la diferencia entre las medidas mayor y


menor.

7. Posteriormente la amplitud de clase w se encuentra como se muestra en el si-


guiente recuadro.

Amplitud de clase. La amplitud de clase w se determina calculando el cociente


entre el rango R y el número de clases c. Es decir,
R
Amplitud de clase w = .
c
El valor de w es común redondearlo al entero siguiente.

8. El dato menor debe caer en la primera clase. Por esta razón, el lı́mite inferior de la
primera clase debe estar en, o un poco antes de, el dato menor. Ası́ que podemos
establecer un acuerdo general sobre las clases de nuestras tablas de frecuencias
1.2 Organización de datos 17

agrupadas, empezando siempre la primera clase con la frontera inferior teniendo


en cuenta que el lı́mite inferior coincide con el dato menor. Cuando hacemos esto,
el valor mı́nimo que puede tomar la amplitud de clase se determina redondeando
a w al siguiente valor entero.

Ejemplo 1.2.5 (Primer modelo: Los datos son enteros) Construya una tabla de fre-
cuencias agrupadas considerando los siguientes datos.
14 21 23 21 16 19 22 25 16 16 24 24 25 19
16 19 18 19 21 12 16 17 18 23 25 20 23 16
20 19 24 28 15 22 24 20 22 24 22 20
SOLUCION:
Paso 1. Primero determinamos el rango R. Como la medida mayor es 28 y la menor es 12,
entonces, el rango es
R = 28 − 12 = 16.

Paso 2. El ejemplo no nos dice con cuantas clases debemos construir la tabla de frecuencias
agrupadas. Podemos seleccionar esta cantidad arbitrariamente (entre 5 y 20) o aplicar
la regla de Sturges (que es la que utilizaremos). Como tenemos n = 40 datos, la regla
de Sturges sugiere usar c = 6 clases, porque el número de clase es

c = (3, 3) log 40 + 1 = (3, 3)(1, 60) + 1 = 6, 2867 ≈ 6.

donde ≈ significa “aproximadamente igual


√ que”. Observemos que con la otra regla se
obtiene el mismo resultado porque c = 40 = 6, 324 ≈ 6.
Paso 3. Ahora, determinamos w, la amplitud de cada clase. En este caso,
R 16
w = = = 2, 666.
c 6
Como la unidad de precisión para los datos es 1, escogemos el mı́nimo entero mayor
que 2,666 como el valor de la amplitud. En este caso, el mı́nimo entero mayor que
2,666 es 3. Por lo tanto, w = 3.
Paso 4. A continuación se construye la primera clase con un ancho de w = 3. Para ello,
primero, tenemos que encontrar las fronteras inferior y superior de esta clase. Como
la unidad de medida es 1 (porque todos los datos son enteros) y como el “punto medio”
de cada unidad de medida es

Unidad de medida 1
Punto medio de cada unidad de medida = = = 0, 5,
2 2
entonces, en este caso, la frontera inferior de la primera clase la hallaremos ası́:

Front. inf. de primera clase = dato menor − punto medio de unidad de medida
= 12 − 0, 5 = 11, 5.

Es decir, la frontera superior de la primera clase es 11,5. Como la amplitud es w = 3,


entonces, la frontera superior será

Frontera superior = frontera inferior + amplitud = 11, 5 + 3 = 14, 5.

En consecuencia, la primera clase resulta ser el intervalo 11,5 - 14,5.


1.2 Organización de datos 18

Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta que
la frontera inferior de la clase precedente coincide con la frontera superior de la clase
anterior y que la amplitud del intervalo es w = 3. De esta forma, las seis clases
resultan ser las siguientes:

Clase 1: 11,5 - 14,5


Clase 2: 14,5 - 17,5 (Observe: 17, 5 = 14, 5 + 3)
Clase 3: 17,5 - 20,5 (Observe: 20, 5 = 17, 5 + 3)
Clase 4: 20,5 - 23,5 (Observe: 23, 5 = 20, 5 + 3)
Clase 5: 23,5 - 26,5 (Observe: 26, 5 = 23, 5 + 3)
Clase 6: 26,5 - 29,5 (Observe: 29, 5 = 26, 5 + 3)

Paso 6. Para determinar la frecuencia de cada clase usamos una columna de marcas de cuenta.
Si uno de los datos cae en una clase, anotamos una marca (|) en la columna corre-
spondiente a esa clase. La tabla 1.4 contiene la tabla de frecuencias agrupadas para
los 40 datos dados.

Clase Cuenta Frecuencia


11,5 - 14,5 || 2
14,5 - 17,5 ||||| ||| 8
17,5 - 20,5 ||||| ||||| | 11
20,5 - 23,5 ||||| ||||| 10
23,5 - 26,5 ||||| ||| 8
26,5 - 29,5 | 1

Tabla 1.4: Tabla de frecuencia agrupada con 6 clases para 40 datos ◭

Ejemplo 1.2.6 (Segundo modelo: Datos con un solo lugar decimal) Forme una dis-
tribución de frecuencias considerando los siguientes datos:

8,9 10,2 11,5 7,8 10,0 12,2 13,5 14,1 10,0 12,2
6,8 9,5 11,5 11,2 14,9 7,5 10,0 6,0 15,8 11,5

SOLUCION:
Paso 1. Como la medida mayor es 15,8 y la menor es 6,0, entonces, el rango es

R = 15, 8 − 6, 0 = 9, 8.

Paso 2. Ya que tenemos n = 20 datos, entonces, por la regla de Sturges debemos usar c = 5
clases, porque el número de clase es

c = (3, 3) log 20 + 1 = (3, 3)(1, 30) + 1 = 5, 2933 ≈ 5.

donde ≈ significa “aproximadamente igual que”.


Paso 3. Ahora, determinamos w, la amplitud de cada clase. En este caso,
R 9, 8
w = = = 1, 96.
c 5

El mı́nimo entero mayor que 1,96 es 2. Por lo tanto, w = 2.


1.2 Organización de datos 19

Paso 4. Como la unidad de medida es 0,1 (por tener los datos un sólo lugar decimal) y como
el “punto medio” de cada unidad de medida es

Unidad de medida 0, 1
Punto medio de cada unidad de medida = = = 0, 05,
2 2
entonces, la frontera inferior de la primera clase es

Frontera inferior = dato menor − 0, 05 = 6, 0 − 0, 05 = 5, 95

y la frontera superior será

Frontera superior = frontera inferior + amplitud = 5, 95 + 2 = 7, 95.

En consecuencia, la primera clase es 5,95 - 7,95.


Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta que
la frontera inferior de la clase precedente coincide con la frontera superior de la clase
anterior y que la amplitud del intervalo es w = 2. De esta forma, las seis clases
resultan ser las siguientes:
Clase 1: 5,95 - 7,95
Clase 2: 7,95 - 9,95 (Observe: 9, 95 = 7, 95 + 2)
Clase 3: 9,95 - 11,95 (Observe: 11, 95 = 9, 95 + 2)
Clase 4: 11,95 - 13,95
Clase 5: 13,95 - 15,95

Paso 6. Para determinar la frecuencia de cada clase usamos una columna de marcas de cuenta.
Si uno de los datos cae en una clase, anotamos una marca (|) en la columna correspon-
diente a esa clase. La tabla 1.5 contiene la tabla de frecuencias agrupadas para los 20
datos dados. Además, allı́ también aparecen las marcas de clase X correspondientes
a cada clase. Por ejemplo, la primera marca de clase se calcula ası́:
6, 0 + 7, 9
X= = 6, 95.
2
Cada marca de clase sucesiva se encuentra sumando w = 2 a la marca anterior.

Clase Cuenta Frecuencia Marcas de clase X


5,95 - 7,95 |||| 4 6,95
7,95 - 9,95 || 2 8,95
9,95 - 11,95 ||||| ||| 8 10,95
11,95 - 13,95 ||| 3 12,95
13,95 - 15,95 ||| 3 14,95

Tabla 1.5: Tabla de frecuencia agrupada con 5 clases para 20 datos ◭

Ejemplo 1.2.7 (Tercer modelo: Datos con dos lugares decimales) Forme una dis-
tribución de frecuencias considerando los siguientes datos:

39,78 28,30 28,31 17,95 44,47 46,65 31,47 33,45 29,17


48,39 82,71 43,63 41,17 47,32 52,16 25,94 50,32 35,25
35,70 17,89 60,20 48,14 22,78 38,22 23,25
1.2 Organización de datos 20

SOLUCION:
Paso 1. El rango es R = 82, 71 − 17, 89 = 64, 82.
Paso 2. Aplicando la regla de Sturges, obtenemos que el número de clase es

c = (3, 3) log 25 + 1 = (3, 3)(1, 3979) + 1 = 5, 613 ≈ 6.



Observemos que con la otra regla se obtiene c = 25 = 5. Es decir, podemos construir
la tabla con 5 o con 6 clases. Escogeremos c = 6.
R
Paso 3. Como c = 6 y R = 64, 82, entonces, w = c = 10, 803. El mı́nimo entero mayor que
10,803 es 11. Por lo tanto, w = 11.
Paso 4. Como la unidad de medida es 0,01 (por tener los datos dos lugares decimales) y como
como el “punto medio” de cada unidad de medida es

Unidad de medida 0, 01
Punto medio de cada unidad de medida = = = 0, 005,
2 2

entonces, la frontera inferior de la primera clase es

Frontera inferior = dato menor − 0, 005 = 17, 89 − 0, 005 = 17, 885

y la frontera superior

Frontera superior = frontera inferior + amplitud = 17, 885 + 11 = 28, 885.

En consecuencia, la primera clase es 17,885 - 28,885.


Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta
que la frontera inferior de la clase precedente coincide con la frontera superior de la
clase anterior y que la amplitud del intervalo es w = 11. De esta forma, las seis
clases son como se muestran en la tabla 1.6. Allı́, tabién aparecen las marcas de clase
correspondientes a cada clase.

Clase Cuenta Frecuencia Marcas de clase X


17,885 - 28,885 ||||| || 7 23,385
28,885 - 39,885 ||||| || 7 34,385
39,885 - 50,885 ||||| ||| 8 45,385
50,885 - 61,885 || 2 56,385
61,885 - 72,885 0 67,385
72,885 - 83,885 | 1 78,385

Tabla 1.6: Tabla de frecuencia agrupada con 6 clases para 25 datos ◭

Tabla de frecuencia relativas, de frecuencias acumuladas y de frecuencias


relativas acumuladas
Son tablas de frecuencias agrupadas o no agrupadas en donde adicionalmente aparecen
las frecuencias relativas, las frecuencias acumuladas y/o las frecuencias acumuladas
relativas.
1.2 Organización de datos 21

Definición 1.2.8 (a) La frecuencia relativa de un dato o de una clase se en-


cuentra dividiendo la frecuencia de dicho dato (o de la clase) entre el total de
datos. Entonces, a la tabla se le llama tabla de frecuencias relativas.

(b) La frecuencia acumulada de cualquier dato o clase, es la suma de la fre-


cuencia de ese mismo dato o clase con las frecuencias de todos los demás datos o
clases anteriores. A la tabla se le llama tabla de frecuencias acumuladas.

(c) La frecuencia relativa acumulada de un dato o de una clase se obtiene


dividiendo la frecuencia acumulada del dato o de la clase por el número total de
datos. A la tabla que contiene a estas frecuencias se les denomina tabla de
frecuencias relativas acumuladas.

Ejemplo 1.2.9 En la tabla 1.7 se muestra la tabla de frecuencias relativas, de frecuencias


acumuladas y de frecuencias acumuladas relativas para los 40 datos del ejemplo 1.2.5.

Clase Frec. Frec. rel. Frec. acum. Frec. rel. acum.


11,5 - 12,5 2 2/40 = 0,05 ≈ 5% 2 2/40 = 0,05
12,5 - 15,5 8 8/40 = 0,20 ≈ 20% 10 (= 8+2) 10/40 = 0,25
15,5 - 18,5 11 11/40 = 0,275 ≈ 27,5% 21 (= 11+10) 21/40 = 0,525
18,5 - 21,5 10 10/40 = 0,25 ≈ 25% 31 (= 21+10) 31/40 = 0,775
21,5 - 24,5 8 8/40 = 0,32 ≈ 32% 39 (= 8+31) 39/40 = 0,975
24,5 - 27,5 1 1/40 = 0,025 ≈ 2,5% 40 (= 1+39) 40/ 40 = 1,0

Tabla 1.7: Tabla de frecuencias relativas, de frecuencias acumuladas y de frecuencias


relativas acumuladas con 6 clases para las datos del ejemplo 1.2.5. ◭

Tablas bivariadas
Una tabla de frecuencias bivariadas es un arreglo de datos clasificados en dos
categorı́as con sus respectivas frecuencias. Las categorı́as pueden ser números discretos,
intervalos numéricos o valores cualitativos como género, color de cabello o religión.

Ejemplo 1.2.10 Una encuesta sobre el deporte preferido tuvo los resultados en hombres y
mujeres que se muestran en la siguiente tabla bivariada.

Deporte preferido
Béisbol Básquetbol Fútbol Total
Hombres 19 15 24 58
Mujeres 16 18 16 50
Total 35 33 40 108

La información que sigue, entre otras, puede leerse fácilmente de la tabla:


(a) Se han encuestado en total a 108 personas.
1.2 Organización de datos 22

(b) Hay 19 hombres que juegan beisbol.


(c) Hay 40 personas que juegan fútbol.
(d) Hubo 50 mujeres entrevistadas. ◭

1.2.4 Organización de datos mediante representaciones gráficas


Hay gráficas de varios tipos, entre los cuales se encuentran los siguientes: el diagrama
circular o de pastel, el pictograma, el diagrama de barras, el diagrama de caja y bigote,
el histograma, el polı́gono (de frecuencia o de frecuencias relativas), la ojiva (o polı́gono
de frecuencias acumuladas o polı́gono de frecuencias relativas acumuladas) y el diagrama
de tallo y hojas. Discuteremos cada uno de ellos con excepción del diagrama de caja y
bigotes, que se introducirá en la sección 1.5.2.

Diagramas circulares (o de pastel)


Estos diagramas se utilizan para hacer representaciones porcentuales y se utilizan gene-
ralmente para datos categóricos.

Ejemplo 1.2.11 La siguiente tabla presenta los datos sobre la cantidad de refrescos de
marca A, B, C, D y E que se vendieron en una tienda.

Refresco Frecuencia Frecuencia relativa


A 19 0,38
B 8 0,16
C 5 0,10
D 13 0,26
E 5 0,10

Esta información se puede presentar a través de un diagrama circular como el que se muestra
en la figura 1.3.

Fig. 1.3: Diagrama de pastel sobre compras de refresco

Para trazarlo se dibuja primero un cı́rculo. A continuación, con las frecuencias relativas, se
divide el cı́rculo en sectores o partes que corresponden a la frecuencia relativa de cada clase.
Por ejemplo, como hay 360 grados en un cı́rculo, y como el refresco A tiene 0,38 de frecuencia
relativa, el sector del diagrama circular que le corresponde debe tener (0,38)(360)=136,8
1.2 Organización de datos 23

grados. Se efectúan cálculos semejantes para las demás clases, obteniéndose el diagrama
de la figura 1.3. Los valores numéricos que se ven para cada sector pueden ser frecuencias,
frecuencias relativas o porcentajes. ◭

Pictogramas o pictógrafos
Un pictograma es la representación de datos estadı́sticos por medio de sı́mbolos que
por su forma sugieren la naturaleza del dato.

Ejemplo 1.2.12 El siguiente pictograma representa una información sobre las casas cons-
truidas en algunos años por una firma constructora. En él se hacen las siguientes conven-
ciones: ∆ significa 1.000 casas construidas y Λ significa 500 casas construidas.

Años Casas construidas


2.000 ∆∆∆∆∆
2.001 ∆∆∆∆∆∆∆Λ
2.002 ∆∆∆∆∆Λ
2.003 ∆∆∆∆∆∆∆

Fácilmente se puede interpretar del diagrama que en el año 2.000, la firma construyó 5.000
casas y, el 2.002, construyó 5.500 casas. ◭

Diagrama de barras
Es una representación gráfica en la que cada una de las modalidades del aspecto de
interés se representa mediante una barra. En este gráfico se suelen disponer los datos
en el primer cuadrante de unos ejes coordenados, levantando sobre el eje de las abscisas
una barra para cada modalidad del dato observado. La altura de la barra ha de ser
proporcional a la frecuencia absoluta o relativa, que se representará en el eje de las
ordenadas. Estos diagramas se utilizan tanto para datos categóricos como numéricos.

Ejemplo 1.2.13 La figura 1.4 muestra un diagrama de barras sobre los datos del ejemplo
1.2.11.

Fig. 1.4: Diagrama de barras para la compra de refrescos ◭


1.2 Organización de datos 24

Histogramas
Los histogramas son una forma de representación gráfica de una distribución de fre-
cuencia que consiste en representar las frecuencias (absolutas, relativas, acumuladas o
relativas acumuladas) por medio de áreas de rectángulos (barras). Cuando utilizamos fre-
cuencias absolutas, hablamos de histograma de frecuencias; cuando usamos frecuencias
relativas, histogramas de frecuencias relativas, etc. Los histogramas pueden construirse
para distribuciones de frecuencias agrupadas y no agrupadas.

Histogramas para frecuencias agrupadas


La idea de construir un histograma para frecuencia no agrupada de los datos, es repre-
sentar cada frecuencia por una barra cuya área sea proporcional a ella. Tı́picamente, el
ancho de cada barra se escoge como 1 y ası́ el área de la barra es igual a la frecuencia
(absoluta, relativa, acumulada o relativa acumulada) del dato.

Es importante señalar que aquı́ los datos pueden ser categóricos o núméricos y que
estos se colocan en el horizontal y sus correspondientes frecuencias (absolutas, relativas,
acumuladas o relativas acumuladas) en el eje vertical del diagrama.

Ejemplo 1.2.14 El diagrama que se muestra en la figura 1.4 es un ejemplo de un histograma


para la frecuencia de los datos de compra de refrescos. ◭

Histogramas para frecuencias no agrupadas


Para construir un histograma para datos medidos en una escala de intervalo o en una
escala de razón, se acostumbra seguir dos pasos:
• Se organizan los datos en una tabla de frecuencias (absolutas, relativas, acumu-
ladas o relativas acumuladas) agrupadas.
• Se construye una gráfica de barras usando las fronteras de clase para colocar
barras, y las frecuencias (absolutas, relativas, acumuladas o relativas acumuladas)
para indicar las alturas de las barras.

Ejemplo 1.2.15 La tabla de frecuencias (absolutas, acumuladas y relativas) correspondien-


te a los datos del ejemplo 1.2.6 se muestra en la tabla 1.8.

Clase Frecuencia Frecuencia acumulada Frecuencia relativa


5,95 - 7,95 4 4 0,2
7,95 - 9,95 2 6 0,1
9,95 - 11,95 8 14 0,4
11,95 - 13,95 3 17 0,15
13,95 - 15,95 3 20 0,15

Tabla 1.8: Tabla de frecuencia agrupada para los datos del ejemplo 1.2.6

Los histogramas de frecuencias relativas y de frecuencias acumuladas para estos datos son
como se ve en las figuras 1.5 y 1.6, respectivamente.
1.2 Organización de datos 25

Fig. 1.5: Histograma de frecuencias relativas para los datos del ejemplo 1.2.6

Fig. 1.6: Histograma de frecuencias acumuladas para los datos del ejemplo 1.2.6◭

Polı́gonos
Estos gráficos se utilizan para representar series cronológicas y se construye usando una
tabla de frecuencias (absoluta o relativa) agrupadas con marcas de clase. Si se usan
frecuencias absolutas, se denomina polı́gono de frecuencias y si se utilizan frecuencias
relativas, polı́gono de frecuencias relativas.

Ejemplo 1.2.16 Construir un polı́gono de frecuencia para los datos del ejemplo 1.2.6.

SOLUCION:
Consideremos la tabla 1.5 corresponde a la tabla de frecuencias agrupadas para los 20 datos
del ejemplo 1.2.6, con sus correspondientes marcas de clase. Ahora, construimos el polı́gono
con frecuencias absolutas mostrada en la figura 1.7. Las marcas de clase se colocan en el eje
horizontal y las frecuencias en el eje vertical. Notemos que el polı́gono se “baja” en ambos
extremos, colocando el primer y el último puntos en puntos del eje horizontal que distan
w = 2 de las marcas de clase más cercanas.
1.2 Organización de datos 26

Fig. 1.7: Polı́gono de frecuencias para los datos del ejemplo 1.2.6 ◭

Ojivas
La ojiva, llamada también polı́gono de frecuencias acumuladas (o polı́gono de frecuen-
cias relativas acumuladas), se construye a partir de tablas de frecuencias (acumuladas o
relativas acumuladas). Las ojivas ofrecen un medio gráfico para interpolar o aproximar
el número o porcentaje de observaciones menores o iguales que un valor especı́fico.

Ejemplo 1.2.17 La figura 1.8 representa una ojiva con frecuencias acumuladas para los
datos del ejemplo 1.2.6. Para su construcción consideramos la tabla 1.8.

Fig. 1.8: Ojiva para los datos del ejemplo 1.2.6 ◭

Para localizar los puntos de la ojiva usamos las fronteras superiores de cada clase (ubicadas
1.2 Organización de datos 27

siempre sobre el eje horizontal) y sus correspondientes frecuencias acumuladas (ubicadas


siempre sobre el eje vertical). Después unimos los puntos consecutivos por segmentos de
recta (observe que la frecuencia acumulada para la frontera inferior de la primera clase es
0).

Diagrama de tallo y hojas


El uso de una tabla de frecuencia agrupada tiene una desventaja bastante obvia: los datos
originales se pierden en el proceso de agrupamiento. Para salvar esta limitación puede
usarse el llamado diagrama de tallo y hojas. Estos diagramas fueron creados por el
estadı́stico John Tukey y ofrecen una forma novedosa y rápida de exhibir información
numérica: si un numeral tiene dos o más digitos, entonces, se puede descomponer en
una rama y una hoja. Un tallo es el primer dı́gito o parte del numeral, mientra que
una hoja está formada por él o los dı́gitos restantes. Por ejemplo, el numeral 534 se
puede descomponer en dos formas:
5 | 34 53 | 4
↑ ↑ ↑ ↑
tallo hoja tallo hoja
La exhibición gráfica de datos es muy fácil de realizar usando tallos y hojas; cada dato
aporta una hoja de algún tallo.

Ejemplo 1.2.18 Los datos de abajo muestran el número de anuncios radiofónicos de 30


segundos pagados el año pasado por cada uno de los 45 miembros de una empresa. Organice
los datos en un diagrama de tallo y hojas y determine la forma que toma este diagrama.
¿Alrededor de qué valores tiende a acumularse el número de anuncios? ¿Cuál es el menor
número de anuncios pagados por un comerciante? ¿El mayor número pagado?

96 93 88 117 127 95 113 96 108 94 148 156 139 142 94


107 125 155 155 103 112 127 117 120 112 135 132 111 125 104
106 139 134 119 97 89 118 136 125 143 120 103 113 124 138

SOLUCION:
En el conjunto de datos se observa que el menor número de anuncios pagados es 88. Ası́ es
que el valor del primer tallo será 8. El número más grande es 156. Entonces, los valores de
los tallos empezarán en 8 e irán hasta 15. El primer número en los datos es 96, que tendrá
como tallo 9 y como hoja 6. Moviéndose por el renglón superior el segundo valor es 93 y el
tercero 88. Después de tomar los tres primeros valores del conjunto de datos, su diagrama
es
8 8
9 6 3
10
11
12
13
14
15

Despueés de organizar todos los datos, el diagrama de tallo y hojas se ve ası́:


1.2 Organización de datos 28

8 8 9
9 6 3 5 6 4 4 7
10 8 7 3 4 6 3
11 7 3 2 7 2 1 9 8 3
12 7 5 7 0 5 5 0 4
13 9 5 2 9 4 6 8
14 8 2 3
15 6 5 5
Lo que suele hacerse es ordenar los valores de las hojas de menor a mayor y, en este caso, el
diagrama final se verá ası́:
8 8 9
9 3 4 4 5 6 6 7
10 3 3 4 6 7 8
11 1 2 2 3 3 7 7 8 9
12 0 0 4 5 5 5 7 7
13 2 4 5 6 8 9 9
14 2 3 8
15 5 5 6
Del diagrama de tallos y hojas se pueden sacar varias conclusiones como, entre otras, las
siguientes:
• Primero, el menor número de anuncios comprados es 88 y el mayor es 156.
• Dos comerciantes compraron menos de 90 anuncios y tres, más de 150.
• Puede observarse, por ejemplo, que los tres comenrciantes que compraron más de 150,
compraron 155, 155 y 156 comerciales.
• La mayor concentración del número de comerciales está entre 110 y 130.
• Hubo 9 comerciantes que compraron entre 110 y 119 anuncios y que 8 compraron
entre 120 y 129.
• También podemos decir que dentro del grupo de 120 a 129 el número de anuncios
comprados se repartió uniformemente.
• Dos comerciantes compraron 120, un comenrciante compró 124, tres compraron 125
y dos, 127.
Para concentrarnos en la forma que toma el diagrama de tallos y hojas, coloquemos un
rectángulo para representar la “cantidad de hojas” de cada tallo. Al hacerlo obtenemos la
siguiente representación:
8 8 9
9 3 4 4 5 6 6 7
10 3 3 4 6 7 8
11 1 2 2 3 3 7 7 8 9
12 0 0 4 5 5 5 7 7
13 2 4 5 6 8 9 9
14 2 3 8
15 5 5 6
Si giramos la página 90 grados en el sentido de las manecillas del reloj, obtenemos una
imagen de los datos que se parece mucho a la de un histograma con clases de 80 a 90,
90 a 100, 100 a 110, etc. Aunque el diagrama de tallos y hojas parece ofrecer la misma
información que un histograma, tiene dos ventajas principales:
1.2 Organización de datos 29

1. Es más fácil de construir.


2. Dentro de un intervalo de clase, el diagrama de tallo y hojas da más información que
un histograma porque muestra los valores reales. ◭

✍ Ejercicios de la sección 1.2


6. Clasifique los datos siguientes en cuantitativos (numéricos) y cualitativos (categóricos).
En caso de ser numérico, como discretos o continuos:
(a) Estaturas en centı́metros de cuatro jugadores de fútbol.
(b) El número de goles anotados por Pelé en toda su carrera deportiva.
(c) Los sueldos ganados por unos profesores universitarios.
(d) Las temperaturas promedios diarias en el último mes.
(e) Clasificación étnica de 30 empleados.
(f) Números telefónicos ciertas personas.
(g) Calificaciones del primer parcial de Estadı́stica de unos estudiantes un universitarios.
(h) Distancia (en metros) recorrido por un atleta en una temporada.
(i) Peso perdido (en kilogramos) por 10 personas debido a una dieta.
(j) Fecha de cumpleaños de determinadas personas.
(k) Calificaciones (E, S, A, D, I) de unos estudiantes de bachillerato.
(l) Rango militar.
7. Diga la clase de gráficas que son apropiadas para datos (a) cualitativos, (b) cuantitativos
y (c) nominales.
8. La tabla siguiente contiene la distribución de vehı́culos que hay en un aparqueadero.

Clase Tipo de vehı́culo Cifra registrada


1 Taxi 30
2 Camioneta 20
3 Motocicleta 35
4 Bicicleta 40

(a) Identifique los datos de cada una de las tres columnas como cuantitativos o cualita-
tivos.
(b) Identifique los datos de la tercera columna como discretos o continuos.
(c) Determine los datos de cada una de las tres columnas como nominales, ordinales, de
intervalo o de razón.

9. A continuación, se presenta una escala numérica para medir la efectividad de la tecnologı́a


en la enseñanza de una determinada asignatura: 1, si necesita mejorarse; 3, si es efectiva
y competente; y 5, si es verdaderamente extraordinaria.
(a) Identifique el tipo de escala de medición.
(b) Suponga que 20 estudiantes usan esta escala para evaluar a su maestro de estadı́stica.
¿Será más fácil interpretar esos resultados que los que se obtendrı́an si los 20 es-
tudiantes evaluaran a su maestro mediante una opinión escrita de respuesta libre?
Explique.
1.2 Organización de datos 30

10. Los datos anotados representan los totales, en miles de pesos, gastados en fotocopias por
una muestra de 25 estudiantes durante un semestre.
29 89 77 72 39 47 64 84 88 57 28 63 38
42 36 72 69 68 41 52 39 84 45 52 72

Construya una tabla de frecuencias agrupadas usando la regla de Sturges.


11. Los datos adjuntos representan una muestra del aumento de precios (en pesos) de la
gasolina extra en una cierta ciudad a lo largo de un año en particular.
123,9 127,9 130,9 121,9 132,9 120,8 115,9 117,9 131,9
121,9 126,9 122,8 126,9 137,9 115,9 115,9 121,9
126,9 119,9 118,9 119,8 116,9 129,9 122,8 119,9

Mediante cinco clases construya una tabla de frecuencias relativas acumuladas agrupadas.
12. Se clasificó a los estudiantes de un programa universitario de acuerdo a con el semestre
que cursa y su preferencia deportiva. Los resultados están registrados en la siguiente tabla.

Primero Segundo Tercero Cuarto


Fútbol 15 14 5 9
Beisbol 12 22 6 6
Voleivol 5 5 9 5
Basquétbol 26 7 6 7
Natación 7 8 4 2

(a) ¿Qué porcentaje de los estudiantes de primer semestre prefieren el fútbol?


(b) ¿Qué porcentaje de los aficionados a la natación son de segundo semestre?
(c) ¿Qué porcentaje del total de los estudiantes prefieren el basquétbol?
(d) ¿Qué porcentaje de los estudiantes son de cuarto semestre?
(e) ¿Qué porcentaje del total de estudiantes son de tercer o cuarto semestre?
(f) ¿Qué porcentaje prefiere la natación, el voleibol o el beisbol?

13. Los siguientes datos representan las cuentas telefónicas mensuales, en miles de pesos, de
25 residentes de un pequeño pueblo:
21,48 21,15 25,12 23,47 27,81 19,80 36,05 28,50 26,66
20,35 30,22 25,49 20,80 23,83 25,35 23,48 25,81 21,07
26,83 30,96 33,38 20,77 19,98 35,87 22,02

(a) ¿Qué porcentaje del grupo pagó más de 21.000 pesos?


(b) ¿Qué porcentaje pagó más de 22.000 pesos pero menos de 27.000 pesos?

14. Considere la distribución de frecuencias:


Clase 20-40 40-60 60-80 80-100 100-120
Frecuencia 14 23 15 20 28

Trace un histograma de frecuencias relativas, un histograma de frecuencias relativas acu-


muladas, un polı́gono de frecuencias absolutas y una ojiva de frecuencias acumuladas para
estos datos.
15. Los datos que se indican a continuación representan el costo (en miles de pesos) de la
energı́a eléctrica durante un determinado mes del año para una muestra aleatoria de 50
apartamentos en cierta ciudad importante:
1.2 Organización de datos 31

128 144 168 109 167 141 149 206 175 123
153 197 127 82 96 171 202 178 147 102
135 191 137 129 158 108 119 183 151 114
111 148 213 130 165 157 185 90 116 172
143 187 166 139 149 95 163 150 154 130

(a) Obtenga una tabla de frecuencias con 7 intervalos de clase.


(b) Grafique el correspondiente histograma de frecuencias, el polı́gono de frecuencias
relativas y la ojiva con frecuencias acumuladas relativas.
(c) ¿Alrededor de qué cantidad parece concentrarse el costo mensual de energı́a eléctrica?
(d) Según su opinión, ¿cuál de las gráficas representa mejor la distribución de los costos
de energı́a eléctrica?

16. Se les pidió a 20 personas que identificaran su preferencia religiosa. Los resultados son:

C P P J J A J C P P C J J C P P A P C J

donde C denota católico; P, protestante; J, judı́o y A, ateo. Construya una tabla de


frecuencias (absolutas, relativas, acumuladas y acumuladas relativas), un diagrama de
barras, uno circular y un pictograma.
17. Los siguientes datos que aparecen a continuación presentan los porcentajes de rentabilidad
de las acciones de 25 empresas.

30,8 20,3 24,0 29,6 19,4 38,0 24,5 21,5 25,6


30,8 32,9 30,3 39,5 13,3 28,0 19,9 24,6 32,3
30,7 20,3 24,7 18,7 36,8 31,2 50,9

Construir un diagrama de tallo y hojas, una tabla de frecuencias y con ayuda de esta tabla
responda las preguntas que se formulan en los siguientes incisos:
(a) ¿Qué porcentaje de empresas tienen el porcentaje de rentabilidad de las acciones
mayor que 34,25%?
(b) ¿Cuántas empresas tienen el porcentaje de rentabilidad de las acciones entre 20,25%
y 48,25%?
(c) ¿Qué porcentaje de empresas tienen el porcentaje de rentabilidad de las acciones
entre 34,25% y 41,25%?
(d) ¿Cuántas empresas tienen el porcentaje de rentabilidad de las acciones menor que
27,25% o mayor que 41,25%?
18. Según un estudio reciente, en cierto paı́s mueren cada año 40.000 mujeres a causa del
cáncer de mama y 85.000 a causa de diabetes. Dibujar un diagrama de barras y un
pictograma que represente esta información.
19. En 1.986 se produjeron 50,2 nacimientos por cada mil mujeres con una edad entre 15 y 19
años. En 1.991, el número de nacimiento fue de 62,1 por cada mil mujeres de la misma
edad. Dibujar un diagrama de barras que represente esta información.
20. De las pelı́culas que están en cartelera en una gran ciudad, el 30% son dramas, el 35%
comedias, un 15% son pelı́culas de acción, otro 6% de ciencia ficción, el 10% son policiacas,
y el 4% son de terror. Construir un diagrama circular que represente esta información.
21. La siguiente tabla se refiere a los usos más comunes citados en una encuesta realizada
a usuarios de computadores de pequeñas y medianas empresas. Construir un diagrama
circular para representar esta información.
1.3 Análisis de datos en tablas de frecuencias no agrupadas 32

Área Respuestas (%)


Contabilidad 22
Procesadores de texto 12
Hojas de cálculo 16
Bases de datos 13
Puntos de venta 1
Telecomunicaciones 4
Otros 32

22. Un reporte sobre galletas reportó las siguientes calificaciones para varias marcas:

Integral: 32 53 50 65 45 40 56 44 62 32
30 40 50 56 30 22 56 68 41
No integral: 47 40 34 62 52 62 53 75 42
75 80 47 56 62 50 34 42 36

Construya una presentación comparativa de tallo y hoja, ponga en una lista los tallos (en
el centro de la página), las hojas integrales a la derecha y las hojas no integrales a la
izquierda. Describa las similitudes y diferencias para los dos tipos.

1.3 Análisis de datos en tablas de frecuencias no agru-


padas
A continuación, estudiaremos las medidas que describen el comportamiento de un con-
junto de datos. Estas medidas son: las de tendencia central (o de centralización), las de
colocación (o de posición relativa), las de dispersión (o de variabilidad) y las de forma.
Estas se pueden visualizar intuitivamente en las siguientes gráficas (que corresponden a
las gráficas de los llamados histogramas suavizados):
1.3 Análisis de datos en tablas de frecuencias no agrupadas 33

1.3.1 Medidas de tendencia central o de centralización


Al estudiar la información estadı́stica mediante su representación gráfica, se puso en
evidencia un significativo comportamiento de los datos en cuanto a la frecuencia con
que se presentan los valores: algunos de estos valores son más frecuentes que otros.
Además, se observó una clara tendencia de agrupación en el vecindario de los valores
más frecuentes, haciendo que las gráficas representativas adquieran formas especiales.
Por lo general, la mayor densidad de frecuencia está en la parte central de las gráficas,
de aquı́ deriva el nombre de medidas de tendencia central que se da a la media,
la mediana, la moda, el rango medio, la media geométrica, la media armónica y la media
cuadrática. En esta sección estudiaremos estas medidas de tendencia central.

Media

Definición 1.3.1 La media aritmética de cierto conjunto de números se encuen-


tra sumando los números y dividiendo después entre la cantidad de datos. En otras
palabras, si x1, . . . , xn son números, entonces, la media aritmética de este conjunto
de números está dada por
x1 + · · · + x n
Media aritmética = .
n
En estadı́stica se habla de media aritmética poblacional, y se simboliza por µ, cuando el con-
junto de datos corresponden a los de la población; y de media aritmética muestral, y se simboliza
por x, cuando se tienen en cuentan los datos de una muestra.

Ejemplo 1.3.2 Supongamos que tenemos la muestra siguiente de edades en año de prin-
cipiantes de una universidad: 18, 18, 18, 18, 19, 19, 19, 20, 20, 21. Entonces, la media
aritmética de estos datos es
18 + 18 + 18 + 18 + 19 + 19 + 19 + 20 + 20 + 21
x = = 19. ◭
10
Generalmente, para calcular la media de un conjunto de datos, es más cómodo utilizar la
llamada media aritmética ponderada, la cual es un caso especial de la media aritmética.
Esta se puede utilizar cuando se tienen varias observaciones con un mismo valor, lo que
puede ocurrir si se han organizado los datos en una tabla de frecuencias.

Definición 1.3.3 Sea dada siguiente tabla de frecuencias no agrupadas:

Dato x1 x2 ... xn
Frecuencia f1 f2 ... fn

en donde fi es la frecuencia del dato xi. Entonces, la media aritmética ponde-


rada o, simplemente, media artimética, de los datos x1, . . . , xn se define como
x1f1 + · · · + xnfn
Media aritmética = .
f1 + · · · + fn
1.3 Análisis de datos en tablas de frecuencias no agrupadas 34

Ejemplo 1.3.4 La media aritmética de los datos del ejemplo 1.3.2 se pueden calcular con
ayuda de la llamada media aritmética ponderada. Para ello, organizamos estos datos en una
tabla de frecuencias no agrupadas, tal como
Dato 18 19 20 21
Frecuencia 4 3 2 1
Luego, aplicamos la definición 1.3.3 y hallamos la media de los datos de la siguiente manera:
(18)(4) + (19)(3) + (20)(2) + (21)(1)
x = = 19. ◭
4+3+2+1

Desventaja de la media
La media tiene una seria desventaja: se ve afectada por los valores extremos del final de
una distribución. Como depende del valor de cada medida, los valores extremos pueden
llevarla a representar defectuosamente los datos.

Mediana y moda
La mediana y la moda son medidas de tendencia central que no tienen propiedades que
les permitan intervenir en desarrollos algebraicos como la media aritmética, por eso son
de menor importancia teórica que ella. Sin embargo, poseen propiedades que ponen en
evidencia ciertas cualidades de un colectivo, cosa que no ocurre con la media aritmética
que promedia todos los valores igualando en un justo reparto todas las observaciones,
es decir, suprimiendo sus individualidades. En cambio, la mediana y la moda destacan
los valores individuales, de lo que se desprende su utilidad e importancia en cierto tipo
de análisis.

Mediana

Definición 1.3.5 Para datos medidos en al menos una escala de intervalo, la


mediana es el puntaje medio ordenado.

Para determinar la mediana de un conjunto de n datos, hay que realizar los siguientes
pasos:
• Ordene los datos de menor a mayor con ayuda con ayuda de un diagrama de tallo y hojas
ordenado.
• El valor de la mediana dependerá del hecho de que n sea par o impar:
– Si n es impar, entonces, la mediana será el dato en el centro, es decir, la mediana es
el dato que se encuentra en el lugar n+1
2
;
– si n es par, entonces, la mediana es la media de los dos datos que ocupan posiciones
centrales, es decir, la mediana es el promedio de las datos que se encuentran en los
lugares n2 y n2 + 1.
Nótese que, por ejemplo, n+1
2
no representa uno de los datos, sino el número de valores que
deben contarse para llegar a la mediana.

Ejemplo 1.3.6 El conjunto de números 3, 4, 4, 5, 6, 8, 8, 8 y 10 tiene mediana 6, puesto


que ya los datos están ordenados, el número de datos es 9 (impar) y, en este caso, el 6 está
ubicado en el centro (en el cuarto lugar). ◭
1.3 Análisis de datos en tablas de frecuencias no agrupadas 35

Ejemplo 1.3.7 El conjunto de números 5, 5, 7, 9, 11, 12, 15 y 18 tiene mediana 21 (9+11) =


10, puesto que ya los datos están ordenados, el número de datos es 8 (par), el 9 y el 11 son
los dos datos que ocupan posiciones centrales y 10 es el promedio de estos dos datos. ◭

Ejemplo 1.3.8 Encuentre la mediana para los datos organizados en la siguiente tabla de
frecuencias.
Dato 0 1 2 3 4
Frecuencia 10 10 8 4 8

SOLUCION:
Como los datos se presentan en una tabla de frecuencias no agrupadas, para calcular la me-
diana es conveniente determinar las frecuencias acumuladas de los datos. Estas se encuentran
en la tabla 1.9.

Dato Frecuencia Frecuencia acumulada


0 10 10
1 10 20
2 8 28
3 4 22
4 8 40

Tabla 1.9: Tabla de frecuencia acumulada para los datos del ejemplo 1.3.8

Como el total de datos es n = 40 (par), entonces, la mediana es el promedio de las medidas


que están en las posicones n n
2 = 20 y 2 + 1 = 21. Para encontrar la mediana recomendamos
contar los datos en dirección de la medida menor a la mayor. De la tabla es fácil ver que el
dato en lugar 20 es 1 y que el dato en la posición 21 es 2. Por tanto, la mediana es
dato en la posición 20 + dato en la posición 21 1+2
Mediana = = = 1, 5. ◭
2 2

Ventajas y desventajas de la mediana


El uso de la mediana para datos de intervalo posee tanto ventajas como desventajas.
Una ventaja es que la mediana no se ve afectada por valores extremos al final de la
distribución. La desventaja del uso de la mediana reside en que no es fácilmente de-
terminable si el conjunto de datos es grande, puesto que las medidas deben ordenarse
primero y ponerse en orden numérico de menor a mayor o al contrario.

Moda

Definición 1.3.9 La moda, si se da, es el dato con mayor frecuencia.

Ejemplo 1.3.10 El conjunto 2, 2, 5, 7, 9, 9, 9, 11 tiene moda 9 porque este valor es el dato


con mayor frecuencia. ◭
1.3 Análisis de datos en tablas de frecuencias no agrupadas 36

Ventajas y desventajas de la moda


• Tiene dos ventajas: Para ciertas muestras pequeñas, se le determina fácilmente
y, en general, no se ve afectada por los valores extremos al final de un conjunto
de datos ordenados. Cuando se analizan datos categóricos, la moda es el único
dato de tendencia central que puede utilizarse. Finalmente, la moda puede usarse
como una medida de tendencia central para datos numéricos empleados en sentido
categórico. Una moda para datos en una tabla de frecuencia, se encuentra loca-
lizando el valor de frecuencia máxima, si no todas las frecuencias son iguales. El
dato que corresponde al valor de frecuencia máxima se toma como la moda.

Ejemplo 1.3.11 Para los datos del ejemplo 1.2.11, el refresco más popular es el A
(es decir, la moda es el refresco A), puesto que es el que más se compra. ◭

• La moda tiene varias desventajas como medida de tendencia central: una de ellas
es que para un cierto conjunto de datos no puede haber moda. Esta situación
surge cuando todos los datos tienen la misma frecuencia. Otra desventaja es que
la moda puede existir pero no ser única.

Ejemplo 1.3.12 (a) El conjunto 3, 3, 5, 5, 7 y 7 no tiene moda.


(b) El conjunto 3, 3, 5, 5, 5, 7, 7, 7, y 9 tiene dos modas: el 5 y el 7. ◭

Rango medio

Definición 1.3.13 El rango medio de un conjunto de datos es el promedio de las


medidas mayor y menor.

Ejemplo 1.3.14 El rango medio del conjunto de datos 32, 38, 45, 44, 27, 36, 40 y 38 está
dado por
27 + 45
Rango medio = = 36,
2
ya que 45 y 27 son los datos mayor y menor, respectivamente. ◭

Ventajas y desventajas del rango medio


Con cierta frecuencia el rango medio se utiliza como una medida de resumen tanto para
análisis financiero como para reportes metereológicos, porque puede proporcionar una
medida adecuada, rápida y sencilla que caracteriza a todo el conjunto de datos. No
obstante, a pesar de estas ventajas y de su sencillez, el rango medio se debe utilizar con
cuidado. Como sólo incluye la observación más pequeña y la más grande en un conjunto
de datos, el rango medio es una medida modificada de tendencia central si está presente
un valor extremo. En estas situaciones, el rango medio no es apropiado.

Media geométrica
La media geométrica es útil para encontrar los cambios procentuales en una serie
de números positivos, inclusive, para encontrar el promedio de proporciones, ı́ndices, o
1.3 Análisis de datos en tablas de frecuencias no agrupadas 37

tasas de crecimiento. Tiene mucha aplicación en el comercio y en la economı́a porque


nos interesa encontrar el cambio porcentual en las ventas, salarios o datos económicos,
tales como el producto nacional bruto.

Definición 1.3.15 La media geométrica de un conjunto de n números enteros


positivos se define como la n-ésima raı́z del producto de los n valores. Es decir,
la media geométrica de los n números positivos x1, . . . , xn se calcula a través de la
fórmula
Media geométrica = (x1 · · · xn)1/n.
Si estos números positivos x1, . . . , xn tienen frecuencias (ponderaciones o pesos)
f1, . . . , fn, respectivamente, entonces, la media geométrica (ponderada) de es-
tos números viene dada por la (f1 + · · · + fn)-ésima raı́z del producto de los valores,
elevando cada uno a su respectiva frecuencia, es decir,
 1/(f1 +···+fn )
Media geométrica = xf11 · · · xfnn .

La media geométrica siempre será menor que la media aritmética salvo en el extraño caso en el que
todos los incrementos porcentuales sean iguales. Si esto último sucede, las dos medias serán iguales.

Ejemplo 1.3.16 El director ejecutivo de una empresa desea determinar la tasa de creci-
miento promedio en los ingresos con base en las cifras dadas en la tabla 1.10. Si la tasa de
creciemiento promedio es menor que el promedio industrial del 10%, se asumirá una nueva
campaña publicitaria.

Año Ingreso (en dólares) Porcentaje del año anterior


1.992 50.000 ––
1.993 55.000 55/50 = 1, 10
1.994 66.000 66/55 = 1, 20
1.995 60.000 60/66 = 0, 91
1.996 78.000 78/60 = 1, 30

Tabla 1.10: Ingresos para una empresa

SOLUCION:
Primero es necesario determinar el porcentaje que los ingresos de cada año representan
respecto de los obtenidos el año anterior. En otras palabras, ¿qué porcentaje del ingreso de
1.992 es el ingreso en 1.993? Esto se encuentra dividiendo los ingresos de 1.992 entre los
de 1.993. El resultado, 1,10 revela que los ingresos de 1.993 son 110% de los ingresos de
1.992. También se calculan los porcentajes para los tres años restantes. Tomando la media
geométrica de estos porcentajes da

Media geométrica = [(1, 10)(1, 2)(0, 91)(1, 3)]1/4 = 1, 1179.

Restando 1 para convertirlo a un incremento anual promedio da 0,1179, o un incremento


promedio de 11,79% para el promedio de cinco años. Por otro lado, la media aritmética es
1, 1 + 1, 2 + 0, 91 + 1, 3
x = = 1, 1275
4
1.3 Análisis de datos en tablas de frecuencias no agrupadas 38

o un cambio promedio de 12,75%. Se divide por 4 ya que se presentaron cuatro cambios


durante el periodo de cinco años. Sin embargo, si un incremento promedio de 12,75%, basado
en la media aritmética, se aplica a la serie que comienza con 50.000 dólares, los resultados
son
50.000 dólares × 1, 1275 = 56.375 dólares
56.375 dólares × 1, 1275 = 63.563 dólares
63.563 dólares × 1, 1275 = 71.667 dólares
71.667 dólares × 1, 1275 = 80.805 dólares
Ya que 80.805 dólares excede los 78.000 que la empresa en realidad ganó, el incremento del
12,75% es obviamente muy alto. Si se utiliza la tasa de crecimiento de la media geométrica
del 11,79%, se obtiene
50.000 dólares × 1, 1179 = 55.895 dólares
55.895 dólares × 1, 1179 = 62.485 dólares
62.485 dólares × 1, 1179 = 69.852 dólares
69.852 dólares × 1, 1179 = 78.088 ≈ 78.000 dólares
Esto da un valor de 78.088 dólares, lo que está mucho más cerca al ingreso real de 78.000
dólares.

Como interpretación final podemos decir lo siguiente. La media geométrica representa el


cambio promedio con el tiempo. Debido a que la tasa de crecimiento supera el promedio de
la industria del 10%, la nueva campaña publicitaria no se llevará a cabo. ◭

Ejemplo 1.3.17 Dos pueblos determinados tienen un 48% y un 34%, respectivamente, de


población masculina. Discutir la mayor conveniencia de la media geométrica para promediar
porcentajes.
SOLUCION:
La media aritmética para estos porcentajes es
48% + 34%
x = = 41%
2
y la media geométrica, √
G = 48% · 34% = 40, 4%.
Ahora, la media aritmética de los porcentajes recı́procos es
1 1
48% + 34% 0, 0208 + 0, 0294
x′ = = = 0, 0251
2 2
y la media geométrica es
r
′ 1 1 √
G = · = 0, 0208 · 0, 0294 = 0, 0247.
48% 34%
Debido a que
1
= 0, 02439 6= 0, 0251 = x ′
x
y, en cambio,
1 1
= = 0, 0247 = G ′ .
G 40, 4%
1
Debido a que x1 6= x ′ y a que G = G ′ , podemos afirmar que la media geométrica es mejor
que la media artimética para promediar porcentajes y proporciones. ◭
1.3 Análisis de datos en tablas de frecuencias no agrupadas 39

A continuación se presenta un ejemplo que ilustra el cálculo de la media geométrica de


un conjunto de datos que aparecen en una tabla frecuencias no agrupadas.

Ejemplo 1.3.18 La media geométrica de la distribución de frecuencias que aparece en la


tabla
Dato 1 3 4 6
Frecuencia 3 2 3 5
viene dada por
1/13
Media geométrica = 13 · 32 · 43 · 65 ≈ 3, 248. ◭

Media armónica

Definición 1.3.19 La media armónica es el recı́proco de la media aritmética de


los datos. Es decir, la media armónica de los datos x1, x2, . . . , xn está dada por
n
Media armónica = 1 1 1
.
x1 + x2 + ··· + xn

Si estos datos x1, . . . , xn tienen frecuencias (ponderaciones o pesos) f1, . . . , fn, res-
pectivamente, entonces, la media armónica (ponderada) de estos datos viene
dada por
f1 + f2 + · · · + fn
Media armónica = f f2 fn
.
x1 + x2 + · · · + xn
1

Ejemplo 1.3.20 Una ama de casa ha ido comprando durante cuatro años arroz a distintos
precios:
• El primer año a $ 1.200 el kilogramo.
• El segundo año a $ 1.400 el kilogramo.
• El tercer año a $ 1.600 el kilogramo.
• El cuarto año a $ 1.700 el kilogramo.
Hallar el costo promedio del arroz durante estos cuatro años, suponiendo que:
(a) El número promedio de kilos consumidos al año por el ama de casa es constante.
(b) La cantidad de dinero gastado al año es constante.
SOLUCION:
Aquı́ nos piden calcular el cociente
Costo total
T := Costo promedio = .
Cantidad total comprada
(a) Si K representa al número de kilos consimidos cada año, entonces, el costo promedio T
será
$ 1.200K + $ 1.400K + $ 1.600K + $ 1.700K
T =
4K
$ 1.200 + $ 1.400 + $ 1.600 + $ 1.700
= = $ 1.475 por kilogramo,
4
1.3 Análisis de datos en tablas de frecuencias no agrupadas 40

lo cual no es más que la media aritmética de los precios.


(b) Ahora, sea D la cantidad de dinero gastado por año. Entonces, en este caso, el costo
promedio T será
4D
T = D D D D
$ 1.200 + $ 1.400 + $ 1.600 + $ 1.700
4 $4
= 1 1 1 1
= = $ 1.449, 27 por kilogramo,
$ 1.200 + $ 1.400 + $ 1.600 + $ 1.700
0, 00276

lo cual no es más que la media armónica de los precios. ◭

La media armónica también es útil para promediar velocidades desarrolladas en distancias


iguales, como se ilustra en el siguiente

Ejemplo 1.3.21 Una persona viaja en auto de Barranquilla a Cartagena con una velocidad
media de 60 kilómetros por hora y regresa (por la misma vı́a) a una velocidad media de 120
kilómetros por hora. Hallar su velocidad media en el viaje completo.
SOLUCION:
Sea D la distancia recorrida por el auto de Barranquilla a Cartagena (que es la misma que
recorre el auto de Cartagena a Barranquilla). Entonces,

D
Tiempo para ir de Barranquilla a Cartagena = ,
60km/h
D
Tiempo para ir de Cartagena a Barranquilla = .
120km/h

Por consiguiente,
distancia total 2D
Velocidad media del viaje total = = D D
tiempo total 60km/h + 120km/h
2D
= D D
= 80km/h,
60km/h + 120km/h

que corresponde3 a la media armónica de 60 km/h y 120 km/h. Notemos que uno hubiera
estado tentado de calcular la media aritmética de 60 km/h y 120 km/h obteniendo 45 km/h,
lo cual es incorrecto. ◭

1.3.2 Medidas de colocación o de posición relativa

Definición 1.3.22 Una medida de colocación o de posición relativa para


una distribución de frecuencias es aquel valor para el cual una porción especı́fica de
la distribución queda en o debajo de él.

La mediana, los percentiles, deciles y cuartiles son ejemplos de medidas de posición relativa.

3
Si las distancias recorridas no son iguales, se llega a una media armónica ponderada, en donde
las ponderaciones o pesos son las distancias.
1.3 Análisis de datos en tablas de frecuencias no agrupadas 41

Percentiles

Definición 1.3.23 El p-ésimo (punto) percentil es un valor tal que por lo


menos un p% de los datos tienen dicho o menos de ese valor y, al menos, un
(100 − p)% de los datos tienen este valor o más.

Para calcular el p-ésimo (punto) percentil de un conjunto de n datos, es importante tener


en cuenta los siguientes pasos:
• Ordenar los datos de manera ascendente.
• Calcular un ı́ndice i a través de la fórmula i = np/100, siendo p el percentil de interés y n,
la cantidad de datos.
• Decidir de acuerdo a uno de los dos casos:
– Si el ı́ndice i no es entero, se redondea al entero siguiente. Este valor aproximado de
i indica la posición del p-ésimo percentil.
– Si i es entero, el p-ésimo percentil es el promedio de los valores de los datos ubicados
en las posicones i y i + 1.

Ejemplo 1.3.24 Calcule (a) el 85-ésimo punto percentil y (b) el 50-ésimo punto percentil
de los siguientes datos que representan los salarios (en millones de pesos) de 12 empleados
en una empresa:

2, 350 2, 450 2, 550 2, 380 2, 255 2, 210 2, 390 2, 630 2, 440 2, 825 2, 420 2, 380.

SOLUCION:
Como primer paso fundamental, debemos ordenar los datos de manera ascendente (preferi-
blemente, con ayuda de un diagrama de tallo y hojas):

2, 210 2, 255 2, 350 2, 380 2, 380 2, 390 2, 420 2, 440 2, 450 2, 550 2, 630 2, 825.

(a) Para determinar el 85-ésimo punto percentil, calcular el ı́ndice i = np/100, con p = 85
y n = 12. Reemplazando, obtenemos que i = 10, 2. En este caso, como i = 10, 2 no
es entero, entonces redondeamos a 11. Por lo tanto, el lugar del 85-ésimo percentil es
el lugar 11. En nuestros datos ordenados corresponde a 2,630. Esto quiere decir que el
85% de los empleados de la empresa ganan $2.630.000 o menos de este valor y que el
25% de estos empleados ganan $2.630.000 o más que este valor.
(b) En este caso, p = 50. Con ello y con n = 12, obtenemos que i = 6 (que es un número
entero). Es decir, el 50% percentil es el promedio de los valores sexto (2,390) y séptimo
(2,420), o sea, 2,405. Observemos que este valor coincide con la mediana del conjunto
de datos. En conclusión, podemos decir que el 50% de los empleados tienen un salario
menor o igual (o mayor o igual) que $2.405.000. ◭

Cuartiles
Como veremos en la siguiente definición, los cuartiles son casos particulares de los per-
centiles.
1.3 Análisis de datos en tablas de frecuencias no agrupadas 42

Definición 1.3.25 Los cuartiles son las medidas de posición relativa correspon-
diente a un conjunto ordenado de datos divididos en cuatro partes (iguales) y se
definen como sigue:

• Q1 = primer cuartil o 25-ésimo percentil.

• Q2 = segundo cuartil o 50-ésimo percentil o también mediana.

• Q3 = tercer cuartil o 75-ésimo percentil.

Ejemplo 1.3.26 Calcule todos los cuartiles del conjunto de datos del ejemplo 1.3.24.
SOLUCION:
Como Q2 coincide con la mediana, entonces, Q2 = 2, 405. Calculando los percentelis como
en el ejemplo 1.3.24 podemos verificar que
2, 350 + 2, 380 2, 450 + 2, 550
Q1 = = 2, 365 y Q3 = = 2, 500.
2 2
Estos resultados se interpretan de la siguiente manera: el valor del primer cuartil significa
que el 25% de los empleados gana al menos $2.365.000 o el 75%, gana más de este salario y
el valor del tercer cuartil significa que el 75% de los empleados gana al menos $2.500.000 o
el 25%, gana más de este salario. ◭

Deciles
Al igual que los cuartiles, los deciles también son casos particulares de los percentiles.

Definición 1.3.27 Los deciles son las medidas de posición relativa correspondi-
ente a un conjunto de datos (ordenado ascendentemente) que está dividido en diez
partes, de tal forma que cada parte contiene aproximadamente 10% de las medidas.

Hay nueve deciles, denotados por D1 , D2 , . . . y D9 . Si Dn es el n-ésimo decil, entonces,


cada punto decil corresponde a un punto percentil. Por ejemplo, D4 es el 40-ésimo punto percentil,
D7 es 70-ésimo punto percentil, etc.

1.3.3 Medidas de dispersión o de variabilidad


Los datos que se presentan en la tabla 1.11 muestran los salarios anuales de siete su-
pervisores de ventas de una empresa y los de siete, de otra empresa. Observemos que
ambos conjuntos de datos tienen la misma media (33.500 dólares) y la misma mediana
(33.800 dólares).
Por tanto, si nos limitásemos a fijarnos en las medidas de centralización, no tendrı́amos
base alguna para distinguir entre la distribución de los salarios en las dos empresas.
Sin embargo, estas dos distribuciones son muy diferentes, como podemos apreciar en
la figura 1.9. Evidentemente que los datos del segundo conjunto están mucho más
dispersos que los del primero. Una medida de centralización, casi nunca es suficiente
por sı́ sola, para analizar adecuadamente las caracterı́sticas de un conjunto de datos. Por
1.3 Análisis de datos en tablas de frecuencias no agrupadas 43

Empresa 1: 34.500 30.700 32.900 36.000 34.100 33.800 32.500


Empresa 2: 34.000 27.500 31.600 39.700 35.300 33.800 31.700

Tabla 1.11: Salarios anuales (en dólares) de la plantilla de supervisores de ventas de


dos empresa.

(a) En la primera empresa

(b) En la segunda empresa

Fig. 1.9: Dispersión de los salarios anuales de los empleados de dos empresas
(compárese con los datos de la tabla 1.11)

lo general, necesitaremos, además, una medida de la dispersión o variación de los datos,


entre las que analizaremos se encuentran el rango o recorrido, el rango intercuartil, la
desviación, la varianza y la desviación estándar.

Rango
Es la medida de dispersión más simple. Esta medida ya ha sido utilizada en secciones
anteriores.

Definición 1.3.28 El rango o recorrido de un conjunto de datos se define


como la diferencia entre el dato más alto y el más bajo.

Su ventaja es que es fácil de calcular. Su desventaja es que considera sólo dos de la gran
cantidad de datos que hay en un conjunto (de datos), ignorando ası́ el resto de los datos.

Ejemplo 1.3.29 El rango R del conjunto de datos del ejemplo 1.3.24 es

R = $2.825.000 − $2.210.000 = $615.000. ◭

Rango intercuartil
Una medida de dispersión que elimina la influencia de los valores extremos de los datos
es el rango intercuartil.
1.3 Análisis de datos en tablas de frecuencias no agrupadas 44

Definición 1.3.30 El rango intercuartil, simbolizado por R.I, es la diferencia


entre el tercer y el primer cuartil. Es decir,

R.I = Q3 − Q1.

El rango intercuartil contiene el 50% de los datos, dejando a la izquierda el 25% inferior de los
datos y a la derecha, el 25% superior.

Ejemplo 1.3.31 Halle el rango intercuartil del conjunto de datos de la empresa 1 de la


tabla 1.11.
SOLUCION:
Para estos datos, el primer cuartil es 32.500 dólares y el tercer cuartil, 34.500 dólares. Por
lo tanto,

Rango intercuartil = 34.500 − 32.500 = 2.000 dólares. ◭

Desviación

Definición 1.3.32 La desviación de un dato se define como la diferencia entre el


dato y la media del conjunto de datos de donde proviene dicho dato. Es decir, sean
dados los datos x1, . . . , xn. Entonces, la desviación del dato xi se define como

Desviación del dato xi = xi − x.


Una desviación positiva para una medida, indica que la medida está por encima de la media, mientras
que una desviación negativa nos señala que está por debajo de la media. Una desviación 0 para un
dato indica que el dato es igual a la media.

Ejemplo 1.3.33 Calcule la desviación de los puntaje para los datos siguientes, que repre-
senten el número de defectos encontrados por un inspector de automóviles en una lı́nea de
ensamblaje en los últimos cinco automóviles producidos: 1, 4, 6, 6 y 8.
SOLUCION:
Se puede determinar que la media muestral es x = 5. Las desviaciones de los valores se
presentan en la tabla siguiente:

x x−x
1 1-5 = -4
4 4-5 = -1
6 6-5 = 1
6 6-5 = 1
8 8-5 = 3

Podemos observar que


1. Las medidas 6 y 8 están arriba de la media y sus desviaciones son positivas.
2. Las medidas 1 y 4 están debajo de la media y sus desviaciones son negativas.
3. La suma de las desviaciones es 0. ◭
1.3 Análisis de datos en tablas de frecuencias no agrupadas 45

Una propiedad importante que podemos resaltar con respecto la desviación de un dato
es la siguiente:

Teorema 1.3.34 La suma de las desviaciones de los valores para cualquier conjunto
de números x1, . . . , xn es igual a cero. Esto es, (x1 − x) + · · · + (xn − x) = 0.

La desviación de los valores puede usarse para describir la dispersión de una distribución
dada de datos cuantitativos. Recordemos que la desviación de un valor representa
la diferencia entre un dato y la media del conjunto de datos del cual proviene. En
consecuencia, podrı́amos pensar que el promedio de todas las desviaciones de los valores
proporciona una medida de la dispersión de todos los valores, pero eso no ocurre, pues
ya se ha dicho en el teorema 1.3.34 que la suma de todas las desviaciones de los valores
es 0.

Varianza y desviación estándar (o tı́pica)


Aunque el rango es una medida de dispersión total y el rango intercuartil es una medida
de la dispersión de la media, ninguna de estas medidas de variación toma en cuenta
cómo se distribuyen o se agrupan las observaciones. Dos medidas de uso común que
sı́ toman en cuenta la distribución de los valores de los datos son la varianza y su raı́z
cuadrada, la desviación estándar o tı́pica. Estas medidas evalúan la manera en que
fluctúan los valores respecto a la media.

Definición 1.3.35 La varianza de una población de valores se define como


el promedio de los cuadrados de las desviaciones de los valores y se denota por σ2
(léase “sigma cuadrada”). La varianza de la población de valores x1, . . . , xn está
dada por la fórmula

(x1 − µ)2 + (x2 − µ)2 + · · · + (xn − µ)2


σ2 = .
n
La desviación estándar (o tı́pica) poblacional de un conjunto de datos, sim-
bolizada por σ, se define como la raı́z cuadrada positiva de la varianza poblacional
de los datos. Es decir, p
σ = Varianza poblacional.

Por razones de comodidad en los cálculos, para determinar la varianza de la población


se usa normalmente la fórmula que aparece en el siguiente
1.3 Análisis de datos en tablas de frecuencias no agrupadas 46

Teorema 1.3.36 La varianza de la población de valores x1, . . . , xn está dada por

x21 + x22 + · · · + x2n


σ2 = − µ2.
n
Esta fórmula es equivalente a la que se introdujo en la definición 1.3.35 y puede recordarse fácilmente
mediante la espresión: “ la media de los cuadrados menos el cuadrado de la media”.

Ejemplo 1.3.37 Encuentre la varianza y desviación de los datos 62, 80, 83, 72 y 73 si estos
constituyen una población.
SOLUCION:
La media de estos datos es µ = 74. Por lo tanto, la varianza poblacional está dada por
(62 − 74)2 + (80 − 74)2 + (83 − 74)2 + (72 − 74)2 + (73 − 74)2 266
σ2 = = = 53, 2.
5 5

La desviación estándar de estos datos es σ = 53, 2 = 7, 29.

Definición 1.3.38 La varianza de una muestra con valores x1, . . . , xn se de-


nota por s2 y se define por

(x1 − x)2 + (x2 − x)2 + · · · + (xn − x)2


s2 = .
n−1
La desviación estándar (o tı́pica) muestral de un conjunto de datos , deno-
tada por s, se define como la raı́z cuadrada positiva de la varianza muestral de los
datos. Es decir, √
s = Varianza muestral.

Al igual que la varianza poblacional, la varianza muestral se puede calcular de otra ma-
nera como se ilustra en el siguiente

Teorema 1.3.39 La varianza muestral de un conjunto de datos x1, . . . , xn se puede


calcular por
(x21 + x22 + · · · + x2n) − nx2
s2 = .
n−1

Ejemplo 1.3.40 Encuentre la varianza y desviación estándar de los datos del ejemplo 1.3.37
si estos constituyen una muestra de una población.
SOLUCION:
Nuevamente, x = 74. Por lo tanto, la varianza muestral está dada por
(62 − 74)2 + (80 − 74)2 + (83 − 74)2 + (72 − 74)2 + (73 − 74)2 266
s2 = = = 66, 5
5−1 4

y la desviación muestral, por s = 66, 5 = 8, 15. Observemos cómo cambia el valor de la
varianza (y, por consiguiente, también la desviación muestral) al considerar los datos como
una muestra o como una población. ◭
1.3 Análisis de datos en tablas de frecuencias no agrupadas 47

Desviación media
Otro tipo de medida de dispersión es la que se define a continuación.

Definición 1.3.41 La desviación media de un conjunto de datos es la media de


las desviaciones de cada dato. Es decir, la desviación media de los datos x1, . . . , xn
se define como
|x1 − x| + |x2 − x| + · · · + |xn − x|
DM = .
n
La definición es análoga para datos poblacionales. Observemos que la desviación media está medida
en las mismas unidades que la de los datos.

Ejemplo 1.3.42 Para la población 2, 2, 4, 5 y 2 de las edades (en años) de cinco casas, la
media es x = 3, con lo que la desviación media es DM = 6/5 = 1, 2 años. Ası́, la edad de
cada casa difiere de la media de la población en un promedio de 1,2 años. ◭

Ventajas y desventajas de la varianza, la desviación estándar y la desviación


media
Si la varianza se usa por sı́ misma como medida descriptiva de la dispersión, es difı́cil
interpretarla porque las unidades de la varianza son el cuadrado de las unidades de me-
dida. En otras palabras, la desviación estándar se mide con las mismas unidades que
las de los datos originales. Por esta razón la desviación estándar se compara con más
facilidad con el promedio y otros estadı́sticos que tienen las mismas unidades que los
datos originales.

A la hora de elegir una medida que describa la cantidad de dispersión de un conjunto


de datos, la desviación media tiene dos ventajas frente a la desviación tı́pica. En primer
lugar, es más fácil de interpretar conceptualmente. Es más sencillo conceptuar “el
promedio de las desviaciones respecto de la media” que “la raı́z cuadrada del promedio
del cuadrado de las desviaciones respecto de la media”. En segundo lugar, dado que en
el cálculo de la varianza y de la desviación tı́pica se elevan al cuadrado las desviaciones
individuales, estas dos medidas se verán más influenciadas por observaciones extremada-
mente grandes o extremadamente pequeñas que la desviación media. A pesar de sus
ventajas, la desviación media se emplea con poca frecuencia en la práctica, debido a las
complicaciones que pueden surgir si se usa para hacer inferencias sobre una población a
partir de las observaciones de una muestra.

La varianza y la desviación estándar tienen una limitación seria: pueden verse afec-
tadas en presencia de observaciones aberrantes, pues ambas dependen de la media, que
se modifica por las medidas extremas. Cuando en un conjunto de datos están presentes
observaciones aberrantes y se requiere una medida resistente a ellas, debe utilizarse el
rango intercuartil.
1.3 Análisis de datos en tablas de frecuencias no agrupadas 48

Varianza y desviación tı́pica para datos en tablas de frecuencia


A menudo tendremos ocasión de encontrar la varianza y la desviación estándar para
datos desplegados en una tabla de frecuencia.

Definición 1.3.43 Las varianzas poblacional y muestral (ponderadas) de


un conjunto de datos x1, . . . , xn con frecuencias f1, . . . , fn se calculan mediante las
siguientes fórmulas:

f1(x1 − µ)2 + · · · + fn(xn − µ)2 f1(x1 − µ)2 + · · · + fn(xn − µ)2


σ2 = , s2 = .
f1 + · · · + fn (f1 + · · · + fn) − 1
Estas medidas se pueden calcular, equivalentemente, de la siguiente manera:

2 f1 x21 + · · · + fn x2n 2 2 f1 x21 + · · · + fn x2n − (f1 + · · · + fn )x2
σ = − µ , s = ,
f1 + · · · + fn (f1 + · · · + fn ) − 1
respectivamente.

Ejemplo 1.3.44 Dados los siguientes datos de una población, hallar la media, varianza y
desviación estándar.
Dato 28 31 34 37 40 43 46
Frecuencia 1 10 14 33 14 7 3

SOLUCION:
Primero construimos la tabla 1.12 que nos ayudará en los cálculos.

Dato x Frecuencia f fx x−µ (x − µ)2 f(x − µ)2


28 1 28 -9 81 81
31 10 310 -6 36 360
34 14 476 -3 9 126
37 33 1.221 0 0 0
40 14 560 3 9 126
43 7 301 6 36 252
46 3 138 9 81 243
Sumas 82 3.034 1.188

Tabla 1.12: Tabla de frecuencias para el ejemplo 1.3.44

Se encuentra que la media poblacional es


P
fx 3.034
µ = P = = 37.
f 82

Además, P
2 f(x − µ)2 1.188
σ = P = = 14, 4878
f 82

y de esta forma σ = 14, 4878 = 3, 806. ◭
1.3 Análisis de datos en tablas de frecuencias no agrupadas 49

Aplicaciones de la desviación estándar poblacional


Hasta ahora, hemos visto que la varianza y la desviación estándar son muy útiles para
comparar la dispersión de dos poblaciones. Pero también podemos interpretar la desvia-
ción de una única población. Concretamente, puede usarse esta cantidad para estimar
el porcentaje de valores de la población que se encontrarán a menos de una distancia
especı́fica de la media. Para construir tales estimaciones, utilizaremos dos reglas: la
regla de Tchebychev (válida para cualquier población) y la empı́rica.

Teorema 1.3.45 (Regla de Tchebychev) Para cualquier población con media µ


y desviación estándar σ, por lo menos el 100(1−1/k2)% de los valores de la población
se encuentran a una distancia de la media menor que k veces la desviación estándar,
para cualquier número k > 1. En otras palabras, dentro del intervalo que va desde
µ − kσ hasta µ + kσ se encuentra por lo menos el 100(1 − 1/k2)% de los valores de
la población.

Para ver como funciona la regla de Tchebychev en la práctica, hemos construido la


siguiente tabla:

k 1,5 2 2,5 3 3,5 4


100(1 − 1/k2)% 55,6% 75% 84% 88,9% 91,18% 93,7%

Es decir, de acuerdo con la regla de Tchebychev, al menos el 55,6% de los valores


de la población se encuentran a una distancia de la media menor que 1,5 veces de la
desviación tı́pica. O, dicho de otra forma, dentro del intervalo que va desde µ − 1, 5σ
hasta µ + 1, 5σ se encuentra por lo menos el 55, 6% de los valores de la población. Esta
situación se ilustra en la figura 1.10.

Fig. 1.10: Ilustración de la regla de Tchebychev


1.3 Análisis de datos en tablas de frecuencias no agrupadas 50

Ejemplo 1.3.46 Consideremos los datos de la empresa 1 de la tabla 1.11(a), que tenı́a una
media de 33.000 dólares y una desviación estándar de 1.554 dólares. La regla de Tchebychev
nos dice que, para esta población, al menos el 55% de los salarios deben estar a una distancia
de la media menor que (1,5)(1.554)=2.331 dólares. En otras palabras, dentro del intervalo
que va desde 31.169 dólares a 35.831 dólares están por lo menos el 55,6% de los salarios.
Analogamente, dentro del intervalo que va desde 30.392 a 36.608 dólares se encuentran por
lo menos el 75% de los salarios. ◭

Ejemplo 1.3.47 Un inspector de control de calidad selecciona aleatoriamente 14 clavos de


una caja de 100 clavos de 1 pulgada (una pulg.=2,54 cm). Las longitudes, en cm, son

2, 54 2, 55 2, 50 2, 60 2, 51 2, 52 2, 70 2, 40 2, 36 2, 53 2, 54 2, 52 2, 51 2, 55.

Si el inspector decide excluir los clavos que están fuera del intervalo x ± 2s, ¿cuál es el
porcentaje de clavos excluidos? ¿Se verifica la regla de Tchebychev?
SOLUCION:
Vemos que x = 2, 52 y s = 0, 07. Como deseamos desechar los clavos que están fuera
del intervalo x ± 2s, es decir, [2, 38; 2, 66], observamos que dos clavos no pertenecen a ese
intervalo (los de longitud 2,70 y 2,36) que corresponde al 14, 28% de la muestra. La regla
de Tchebychev afirma que por lo menos el 75% de los clavos deberán estar en el intervalo
x ± 2s, es decir, a lo más el 25% estarán fuera de dicho intervalo, lo cual verifica la regla de
Tchebychev. ◭

La ventaja de la regla de Tchebychev es que se puede aplicar a cualquier población.


Pero, en contrapartida, tiene un importante inconveniente. Para muchas poblaciones, el
porcentaje de valores que se encuentran de un intervalo determinado es mucho mayor
que el mı́nimo asegurado por la regla de Tchebychev. Para poblaciones que tengan
forma acampanada, es posible establecer una regla empı́rica que proporcione estima-
ciones fiables.

Teorema 1.3.48 (Regla empı́rica) Para las poblaciones que tengan forma acam-
panada, aproximadamente el 68% de los valores de la población se encuentran a una
distancia de la media menor que una desviación estándar, y aproximadamente el
95% están a una distancia de la media menor que dos veces la desviación tı́pica
(compárese con la figura 1.11).

Ejemplo 1.3.49 Supongamos que tenemos una población de salarios que tienen forma
acampanada con una media de 33.000 dólares y una desviación estándar de 1.554 dólares.
La regla empı́rica estimarı́a que aproximadamente el 68% de los salarios estarán dentro del
intervalo que va desde 31.946 dólares a 35.054 y que aproximadamente el 95% estará dentro
del intervalo que va desde 30.392 a 36.608 dólares. ◭

El coeficiente de variación
Para comparar las dispersiones de dos o más conjuntos de valores no podemos confrontar
simplemente las varianzas o las desviaciones estándar respectivas, puesto que estos coe-
ficientes de dispersión vienen afectados por la escala de medida del respectivo valor. Es
necesario, por tanto, eliminar esa influencia convirtiendo dichos valores en números sin
1.3 Análisis de datos en tablas de frecuencias no agrupadas 51

(a) El 68% de los datos se encuentran en el intervalo (µ −


1σ, µ + 1σ).

(b) El 95% de los datos se encuentran en el intervalo (µ −


2σ, µ + 2σ).

Fig. 1.11: Ilustración de la regla empı́rica para una población con forma acampanada

unidades de medidas. Una medida que cumple perfectamente con este cometido es el
llamado coeficiente de variación de Pearson.

Definición 1.3.50 El coeficiente de variación de Pearson de un conjunto


de datos, simbolizado por CV, es igual a la desviación estándar dividida entre la
media, multiplicada por 100 por ciento. Es decir,
 
desviación estándar de los datos
CV = · 100%.
media aritmética de los datos

Observemos que al dividir la desviación estándar por la media aritmética se elimina la


1.3 Análisis de datos en tablas de frecuencias no agrupadas 52

influencia de la escala de medida, convirtiéndose ası́ el coeficiente de variación en una


medida útil para comparar conjuntos de datos con diferentes unidades de medida. El
inconveniente de este coeficiente está en que deja de ser utilizable cuando la media es
igual a cero.

El siguiente ejemplo ilustra el cálculo del coeficiente de variación.

Ejemplo 1.3.51 Los siguientes datos representan el promedio de millas por galón diario
por cinco dı́as para un determinado auto: 20, 25, 30, 15, 35. Encuentre el coeficiente de
variación e interprete su respuesta.
SOLUCION:
La media y desviación estándar de millas por galón están dadas por x = 25 y s = 7, 9,
respectivamente. Por tanto, el coeficiente de variación de estos datos es
s  
7, 9
CV = · 100% = · 100% = 31, 6%.
x 25

Por consiguiente, el tamaño relativo de la “dispersión media alrededor de la media” con


relación a la media es 31,6%. ◭

Como medida relativa, el coeficiente de variación resulta especialmente útil cuando se


compara la variabilidad de dos o más conjuntos de datos, que se expresan en diferentes
unidades de medidas. Esto se muestra en el siguiente

Ejemplo 1.3.52 El gerente de operaciones de un servicio de paqueterı́a desea adquirir una


nueva flota de autos. Cuando los paquetes se guardan con eficiencia en el interior de los
autos (durante la preparación de las entregas), se deben considerar dos restricciones prin-
cipales: el peso (en libras) y el volumen (en pies cúbicos) de cada paquete. Ahora, en una
muestra de 200 paquetes, el peso promedio es 26 libras con una desviación estándar de 3,9
libras. Además, el volumen promedio de cada paquete es 8,8 pies cúbicos con una desviación
estándar de 2,2 pies cúbicos. ¿Cómo se puede comparar la variación del peso y del volumen?
SOLUCION:
Como las unidades de medida difieren para las restricciones de peso y volumen, si el
gerente de operaciones desea comparar las fluctuaciones en estas medidas, debe conside-
rar la variabilidad relativa en ambos tipos de medidas. Para el peso, el coeficiente de
variación es CV = (3, 9/26)100% = 15%; para el volumen, el coeficiente de variación es
CV = (2, 2/8, 8)100% = 25%. Entonces, con relación a la media, el volumen de un paquete
es mucho más variable que su peso porque el coeficiente de variación del peso es menor que
el del volumen. ◭

El coeficiente de variación es muy útil cuando se comparan dos o más conjuntos de datos
que se miden con las mismas unidades, pero son tan diferentes que una comparación
directa de las desviaciones estándar respectivas no ayuda mucho. Esto se ilustra en el
siguiente

Ejemplo 1.3.53 Un inversionista potencial piensa adquirir acciones en una de dos compañı́as
A o B, listadas en la Bolsa de Valores de Nueva York. Si ninguna de las compañı́as ofrece
dividendos a sus clientes y ambas tienen igual clasificación (según varios servicios de in-
versión) en términos de crecimiento potencial, el posible inversionista quizás considere la
volatilidad (variabilidad) de ambas acciones para ayudar en la decisión de inversión. En los
últimos meses, el precio promedio de las acciones en la compañı́a A fue de 50 dólares con una
desviación estándar de 10 dólares. Además, durante el mismo periodo, el precio promedio
1.3 Análisis de datos en tablas de frecuencias no agrupadas 53

de las acciones en la compañı́a B fue de 12 dólares con una desviación estándar de 4 dólares.
¿Cómo puede determinar el inversionista cuáles acciones son más variables?
SOLUCION:
En términos de la desviación estándar, el precio de las acciones de A parece más volátil
que el de las acciones de B. Sin embargo, como los precios promedio por acción de las dos
compañı́as son tan diferentes, serı́a conveniente que el inversionista potencial considere la
variabilidad en precio respecto al promedio a fin de examinar la volatilidad/estabilidad de
ambas acciones.

Para la compañı́a A, el coeficiente de variación es CV = (10/50)100% = 20%; para la


compañı́a B, el coeficiente de variación es CV = (4/12)100% = 33, 3%. Entonces, en relación
con la media, el precio de las acciones B es mucho más variable que el de las acciones A. ◭

1.3.4 Medidas de formas


Una vez iniciado el análisis estadı́stico de sintetización de la información, para lo cual
hemos estudiado las medidas de tendencia central, de posición relativa y de dispersión de
un conjunto de datos, necesitamos conocer más sobre el comportamiento de tales datos.
Para ello estudiaremos las medidas de forma, las cuales nos proporcionan información
sobre cómo se distribuyen los datos.

Las medidas de forma se clasifican en medidas de asimetrı́a (o coeficiente de sesgo)


y medidas de curtosis (o de apuntamiento). A continuación, explicaremos cada una de
ellas. Antes, estudiaremos los conceptos de simétrı́a y asimétrı́a.

Simétrı́a y asimétrı́a
Una distribución de frecuencias será simétrica o asimétrica según lo sea su representación
gráfica.

Definición 1.3.54 Decimos que una distribución de frecuencias es simétrica


cuando lo es su representación gráfica, es decir, los datos equidistantes a una
medida central de la misma tienen frecuencias iguales. Esta medida central coincide
con la mediana y la media.

Una distribución de frecuencias que no es simétrica, se denomina asimétrica. La


asimetrı́a se puede presentar a la derecha ( asimetrı́a positiva) o a la izquierda
( asimetrı́a negativa) si la representación gráfica está más “estirada” hacia la
derecha o hacia la izquierda, respectivamente.

Los conceptos explicados en la defición se ilustran en la figura 1.12. Ahora, consideremos


los siguientes comentarios para el caso en que la distribución de frecuencias tiene una
sola moda:

• En una distribución simétrica, la media, la media y la moda siempre coinciden


(compárese con la figura 1.13a). Es decir, se cumple la relación

Media = mediana = moda.


1.3 Análisis de datos en tablas de frecuencias no agrupadas 54

(a) Distribución simétrica uni- (b) Distribución simétrica bi-


modal modal

(c) Distribución asimétrica a (d) Distribución asimétrica a


la derecha la izquierda

Fig. 1.12: Comparación de cuatro distribuciones cuya forma difiere.

En este tipo de distribuciones, los datos se encuentran repartidos a lo largo del


recorrido de forma que todas las medidas de tendencia central están justo en el
centro del conjunto de datos.
• Si la distribución es asimétrica a la derecha el orden en que aparecen las medidas
de tendencia central es moda-mediana-media (compárese con la figura 1.13b). Es
decir, se cumple la relación

Moda < mediana < media.

Esto es ası́ porque es en el lado derecho dónde se concentra la mayor frecuencia de


los datos, por lo tanto, observamos una cola larga a la derecha de la distribución.
• Si la distribución es asimétrica a la izquierda, el orden en que aparecen es media-
mediana-moda (compárese con la figura 1.13c). Es decir, se cumple la relación

Media < mediana < moda.

En este caso, la mayor frecuencia de los datos se concentra en el lado izquierdo.


Por lo tanto, observamos una cola larga hacia la izquierda de la distribución.
Consideremos el caso en que la distribución no es unimodal:
• Para distribuciones que no tengan moda, si la media es igual a la mediana, en-
tonces, la representación gráfica de la distribución es simétrica.
1.3 Análisis de datos en tablas de frecuencias no agrupadas 55

• Para distribuciones que tengan más de una moda, la media es igual a la mediana
si y sólo si la representación gráfica de la distribución es simétrica.

(a) Distribución simétrica (b) Distribución asimétrica a la derecha

(c) Distribución asimétrica a la izquierda

Fig. 1.13: Comparación de tres distribuciones unimodales cuya forma difiere.

Medidas de asimetrı́a
Las medidas de asimetrı́a o coeficientes de sesgo tienen como finalidad la
de elaborar un indicador que permita establecer el grado de simetrı́a (o asimetrı́a) que
presenta una distribución, sin necesidad de llevar a cabo su representación gráfica. La
medida de asimetrı́a más utilizada en la práctica es el llamado coeficiente de asimetrı́a
de Pearson.
1.3 Análisis de datos en tablas de frecuencias no agrupadas 56

Definición 1.3.55 El coeficiente de asimetrı́a de Pearson, simbolizado por


Ap, se define como la diferencia entre la media aritmética y la mediana dividida por
la desviación estándar. Es decir,
Media aritmética − Moda
Ap = .
Desviación estándar
Cuando As = 0, se dice que la distibución es simétrica; cuando As > 0, se dice que la distribución
es sesgada positivamente o a la izquierda y cuando As > 0, se dice que la distribución es
sesgada negativamente o a la derecha.

Consideremos la figura 1.13, en donde mostramos la forma de tres conjuntos de datos.

• Los datos en la figura 1.13(a) son simétricos. Por esta razón, el coeficiente de
sesgo es cero.

• Los datos de la figura 1.13(b) están sesgados a la derecha. Por lo tanto, el


coeficiente de sesgo es positivo.

• Los datos de la figura 1.13(c) están sesgados a la izquierda. Por consiguiente, el


el coeficiente de sesgo es negativo.

Ahora bien, por diversas razones, el coeficiente de asimetrı́a de Pearson tan sólo es apli-
cable en las distribuciones de forma acampanada y unimodales . En distribuciones de
otro tipo se puede utilizar, entre otros, los llamados coeficiente de asimetrı́a de Fisher
y coeficiente de asimetrı́a de Fisher estandarizado.

Definición 1.3.56 Los coeficientes de asimetrı́a de Fisher (simbolizado por


g1) y de Fisher estandarizado (simbolizado por gs) de un conjunto de datos
x1, . . . , xn con frecuencias f1, . . . , fn se definen, respectivamente, como

(x1 − x)3f1 + · · · + (xn − x)3fn g1


g1 = , gs = p .
s3n 6/n
Si g1 = 0 la distribución es simétrica; si g1 > 0, la distribución es sesgada positivamente, y si
g1 > 0, la distribución es sesgada negativamente. Interpretaciones análogas se tienen con el valor
de gs .

Relación empı́rica entre media, mediana y moda


El siguiente terema fue encontrado empı́ricamente por Pearson. Allı́ se puede observar
claramente una relación empı́rica entre la media, la mediana y la moda.4

4
Téngase en cuenta que, en las distribuciones moderadamente asimétricas, la mediana siempre
se sitúa entre la media y la moda.
1.3 Análisis de datos en tablas de frecuencias no agrupadas 57

Teorema 1.3.57 Para distribuciones campanoides, unimodales y moderadamente


asimétricas se cumple aproximadamente la relación empı́rica

Media − Moda ≈ 3(Media aritmética − Mediana),

Con lo anterior, el coeficiente de asimetrı́a de Pearson se puede calcular también a


través de la fórmula

3(Media aritmética − Mediana)


Ap = .
Desviación estándar

Medidas de curtosis o apuntamiento


Las medidas de curtosis estudian la distribución de frecuencias en la zona central de la
misma. La mayor o menor concentración de frecuencias alrededor de la media y en la
zona central de la distribución dará lugar a una distribución más o menos apuntada. Por
esta razón, a las medidas de curtosis se aplican a distribuciones campaniformes, es decir,
unimodales simétricas o con ligera asimetrı́a. Para estudiar la curtosis de una distribución
es necesario definir previamente una distribución tipo, que vamos a tomar como modelo
de referencia. Esta distribución es la normal, que sólo introduciremos en la sección ??.
Por esta razón, aplazaremos nuestro estudio de la curtosis de una distribución para más
adelante, una vez que hallamos introducido la distribución normal.

✍ Ejercicios de la sección 1.3


23. Responda las siguientes preguntas. Justifique sus respuestas.
(a) ¿Qué escala de medida se requiere para la mediana? ¿Y para la moda?
(b) ¿En qué condiciones coinciden la media, la mediana y la moda de una muestra?
(c) ¿En qué caso será demasiado grande la diferencia entre la media y la mediana?
(d) ¿Qué efecto tiene el tamaño de la muestra en la desviación estándar y en la varianza?
24. Supongamos que en un conjunto de 10 observaciones la media es 20 y la mediana es 15.
Si hay en ese conjunto dos seis, y todos los otros valores son diferentes, ¿cuál es la moda?
25. Veintiún personas en un salón de clase tienen altura promedio de 168 centı́metros. Si al
salón entra una persona adicional, entonces, ¿cuál es la altura que debe tener esta persona
para que la altura promedio se incremente en un centı́metro?
26. Una empresa de servicio eléctrico de una ciudad le realiza la lectura del contador de luz a
un usuario, obteniendo los siguientes datos:
Fecha Lectura
Agosto 27 00553 Kwh
Agosto 30 00571 Kwh
Septiembre 4 00605 Kwh
El recibo de pago le llegó al usuario con lectura de 00638 Kwh, realizada el 9 de septiembre,
pero la empresa no dejó constancia de lectura, hecho que motivó el reclamo del usuario
alegando que le estaban cobrando de más. ¿Tiene la razón el usuario? Explique.
1.3 Análisis de datos en tablas de frecuencias no agrupadas 58

27. Un piloto A de la Fórmula 1 ganó 60 carreras de las 152 en las cuales participó, mientras
que otro piloto B ganó 52 carreras de las 115 en las que participó. ¿Cuál de los dos es
mejor piloto? Explique su respuesta.
28. Durante cierto dı́a caluroso en Barranquilla, se registró una temperatura de 38 ◦ C a las
3:00 p.m. De repente un viento frı́o se hizo acompañado con lluvias que hizo descender
la temperatura a 25 ◦ C a las 3:35 p.m. Se puede afirmar que la temperatura promedio de
ese da fue de 31,5 ◦ C? Justifique sus respuestas.
29. Según el recibo de energı́a eléctrica, los consumos de los últimos cinco meses de un usuario
son: 1, 6, 33, 40 y 51 Kwh, respectivamente. Para el sexto mes, el recibo le llega con
una lectura estimada (no real) de 50 Kwh. ¿Debe el usuario reclamar ante la empresa de
energı́a eléctrica? ¿Por qué?
30. Una cadena de grandes almacenes tiene diez establecimientos. Se analiza el volumen
de ventas durante el perı́odo de navidad y se comparan con las obtenidas en el mismo
perı́odo del año anterior. Los porcentajes de incrementos de ventas en dólares de los diez
establecimiento fueron

10,2 3,1 5,9 7,0 3,7 2,9 6,8 7,3 8,2 4,3

Halle la media, la mediana, la varianza muestral, la desviación tı́pica, el rango y el rango


intercuartil del porcentaje de incremento de ventas en dólares. Interprete sus respuestas.
31. Los neumáticos de cierta marca tiene una duración de vida con media de 29.000 kilómetros
y desviación tı́pica de 3.000 kilómetros.
(a) Encontrar un intervalo en el que se pueda garantizar que se encuentra por lo menos
el 75% de los tiempos de vida de los neumáticos de esta marca.
(b) Usando la regla impı́rica y suponiendo que la población tiene forma acampanada,
encontrar un intervalo en el cual se estime que se encuentra aproximadamente el 95%
de los tiempos de vida de los neumáticos de esta marca.
32. Se ha estimado, que la media de la cantidad de dinero que gastan en ropa las mujeres
colombianas es de 500.000 pesos, mientras que para los hombres, la media es de 350.000
pesos. Dibujar un diagrama de barras que represente esta información.
33. Considere las siguientes observaciones de resistencia al corte (en megapascales), de una
unión pegada de cierta manera:

73,7 36,6 109,9 4,4 33,1 66,7 30,0 81,5 22,2 40,4 16,4

Determine el valor de la media y mediana muestrales. ¿Por qué la mediana es tan diferente
de la media?
34. Los valores de presión sanguı́nea se reportan a veces a los 5 mm Hg más cercanos (100,
105, 110, etc.). Suponga que los valores reales de presión sanguı́nea para nueve individuos
seleccionados al azar son:

130,0 113,7 122,0 108,3 131,5 133,2 118,6 127,4 138,4

(a) ¿Cuál es la mediana de los valores reportados de presión sanguı́nea?


(b) Suponga que la presión del octavo individuo es 127,6 en lugar de 127,4 (un pequeño
cambio en su valor). ¿Cómo afectarı́a esto a la mediana de los valores reportados?
¿Qué dice esto sobre la sensibilidad de la mediana para redondear o agrupar los datos?
1.3 Análisis de datos en tablas de frecuencias no agrupadas 59

35. La propagación de grietas por fatiga en diversas partes de aeronaves ha sido objeto de
profundo estudio en años recientes. Los datos que aparecen a continuación constan de
tiempo de propagación (horas de vuelo/104 ) para llegar a un tamaño de grieta dado en
agujeros sujetadores que se usan en aeronaves militares:
0,915 0,937 0,983 1,007 0,736 0,863 0,865 0,913
1,132 1,140 1,153 1,253 1,394 1,011 1,064 1,109

(a) Calcule los valores de la media y mediana muestrales.


(b) ¿En cuánto se puede reducir la observación muestral más grande, sin afectar el valor
de la mediana?

36. Una manifestación interesante de la variación surge cuando se efectúan los análisis de
emisión de gases en los vehı́culos automotores. Los requisitos de costo y tiempo del
procedimiento federal de prueba (PFT) en cierto pais evitan la difusión de su uso en los
programas de inspección vehicular. Como resultado, muchas agencias han desarrollado
análisis menos costosos y más rápidos con la esperanza de reproducir los resultados.
Según un artı́culo de una prestigiosa revista, se dice que la eceptación del PFT como
patrón de excelencia ha conducido a la creencia de que las mediciones repetidas en el
mismo vehı́culo darán resultados idénticos (o casi). Los autores del artı́culo aplicaron el
PFT a siete vehı́culos caracterizados como “grandes emisores”. Los resultados de uno de
esos vehı́culos son los siguientes:
HC (g/mi) 32,2 32,5 13,8 18,3
CO (g/mi) 232 236 118 149

(a) Calcule las desviaciones estándar muestrales de las observaciones de HC y CO. ¿Parece
justificada la creencia general?
(b) Compare los coeficientes de variación de cada conjunto de datos para determinar
cuáles presentan mayor o menor variación.

37. Los puntajes finales de 20 alumnos en un curso de Estadı́stica son:


50 55 61 60 71 73 53 54 67 67
54 77 72 76 81 83 87 44 48 67
¿Qué proporción de estos puntajes cae
(a) dentro de ±1 desviación estándar de la media?
(b) dentro de ±2 desviaciones estándar de la media?
(c) dentro de ±3 desviaciones estándar de la media?
38. Un taller de mecánica acepta una orden por 10.000 ruedas de 2 pulgadas de diámetro.
Las especificaciones de tamaño del producto podrán ser mantenidas sólo si el diámetro
medio es de 2 pulgadas y la desviación estándar es muy pequeña. En este caso, ¿cuál es
el margen de tolerancia permitido para la desviación estándar?
39. Un procesador de alimentos debe envasar su café instantáneo en frascos de 400 gramos
y para ello considera que la operación de llenado está funcionando adecuadamente si el
peso medio de cada frasco es de 405 gramos y la desviación estándar es de 1 gramo.
¿Aproximadamente, cuántos frascos contienen menos de 400 gramos?
40. Millones de habitantes de un cierto pais se levantan cada mañana y trabajan en sus propias
casas. Se sugiere que el uso creciente de computadoras es una de las razones por las que
las personas pueden trabajar en empresas caseras. A continuación vemos una muestra de
datos sobre las edades de esas personas.
1.3 Análisis de datos en tablas de frecuencias no agrupadas 60

57 31 30 41 22 58 24 50 29 52
37 32 44 49 29 44 40 46 29 31

(a) Calcule la media y la moda.


(b) Suponga que se sabe que la mediana de edad de la población de todos los adultos
es de 35.1 años. Use la mediana de la edad de los datos anteriores para comentar si
los trabajadores en casa tiende a ser más jóvenes o más viejos que la población de
todos los adultos.
(c) Calcule el primer y el tercer cuartil y el 42% percentil. Interprete sus resultados.

41. En una prueba de rendimiento y consumo de gasolina se probaron 13 autos, durante 400
millas, en condiciones de tránsito en ciudad y en el campo; de lo anterior se obtuvieron
los siguientes datos en millas por galón.

Ciudad: 14,4 13,2 15,3 16,8 16,2 16,7 15,9


16,0 15,3 16,2 16,1 15,3 15,2
Campo: 18,3 18,6 19,2 17,4 19,4 20,6 17,2
18,6 18,5 18,7 19,0 21,1 19,4

Para llegar a una conclusión sobre la diferencia de rendimiento en la ciudad y en el campo,


use la media, la mediana y la moda.
42. La asociación de Inversionistas Independientes de cierto pais lleva a cabo una encuesta
anual de descuentos con los corredores. En la tabla de datos del ejercicio ?? se ven las
comisiones que se cobran en una muestra de 20 corredores con dos tipos de operaciones:
500 acciones a $ 50 cada una, y 1.000 acciones a $ 5 cada una. Calcule el rango, el rango
intercuartil, la varianza, la desviación estándar, el coeficiente de variación y la variabilidad
del costo para cada tipo de transación.
43. La profesora Greyci borra accidentalmente la calificación de uno de sus seis estudiantes; las
cinco calificaciones restantes son 3,8; 4,3; 2,2; 4,5 y 3,3; y la media de las seis calificaciones
es 3,5. Encuentre la calificación que borró Greyci.
44. En un esfuerzo por reducir su consumo de cigarillo, un trabajador de oficina registra los
números siguientes de cigarillos fumados durante un periodo de 21 dı́as:

5 6 5 8 4 0 2 3 7 5 6 4 5 3 6 7 1 2 3 0 3

¿Qué la medida de tendencia central le servirá mejor para su propósito? ¿Cuál es su valor
numérico?
45. La tabla siguiente contiene los salarios (en miles de pesos) de 30 trabajadores.

Salario anual 550 600 700 800 3.000


Frecuencia 8 6 7 5 4

(a) Determine la moda, la media, la mediana, el rango medio y el sesgo.


(b) ¿Cuál medida de tendencia usarı́a para determinar el valor central? Explique.
(c) ¿Cuál es el primer cuartil, el tercer cuartil y el sexto decil?
(d) Encuentre el rango, la desviación estándar y el rango intercuartil.

46. Una maestra hizo un examen con el mismo grado de dificultad en cada uno de sus tres
grupos. Con los resultados determinó las tres medianas y las promedió para estimar el
punto central de su habilidad profesional. ¿Puede engañarse al hacer esto? Diga por qué.
47. Suponga que una muestra tiene media 26 y desviación estándar 3,1.
1.4 Análisis de datos en tablas de frecuencias agrupadas 61

(a) Determine un intervalo que contenga al menos 95% de las medidas de las muestras.
(b) ¿Cuál es el mı́nimo porcentaje de la muestra que está contenido en el intervalo 18 -
34?
48. Suponga que una muestra tiene media 542 y desviación estándar 10,4.
(a) Determine un intervalo que contenga al menos 93% de las medidas de las muestras.
(b) ¿Cuál es el mı́nimo porcentaje de la muestra que está contenido en el intervalo 523,22
- 567,22?
49. La tabla siguiente da una muestra de los tiempos de recorrido (en minutos) de un camino
de 2,5 millas para el carro de Humberto y el de Greyci.

Humberto 0,8 0,9 1,0 0,9 1,0 1,0 0,9 1,0


Greyci 1,1 0,9 1,4 1,3 1,3 1,3 1,0 0,9

(a) Encuentre el promedio de los tiempos de recorrido para cada uno de los carros.
(b) Calcule la varianza de los tiempos de recorrido para cada uno de los carros, respecti-
vamente.
(c) ¿Qué auto tuvo un desempeño más consistente, si la consistencia se mide con la
varianza?
(d) Encuentre el coeficiente de variación para cada carro y comente al respecto.

50. Una gran lecherı́a vigila continuamente el nivel de contenido de grasa en su producto. El
porcentaje de grasa no debe desviarse mucho del 1% de la leche, siendo aceptable una
desviación estándar del 8%. Se obtuvo una muestra de 20 cartones de leche y se registró
el porcentaje grasa en cada uno. Los resultados se anotan a continuación:

1,97 1,80 2,05 2,23 1,65 1,86 1,85 2,25 2,01 1,90
2,14 1,93 2,08 2,17 1,91 1,93 2,02 2,09 2,04 2,07

Calcule la media y la desviación estándar para la muestra de contenidos de grasa. ¿Hay


evidencia de que el contenido de grasa es demasiado alto? Explique.

1.4 Análisis de datos en tablas de frecuencias agrupadas


Es posible calcular las medidas de tendencia central y dispersión para datos exhibidos
en una tabla de frecuencia agrupada, pero sus valores no son exactos sino únicamente
aproximados. Eso se debe al desconocimiento de las medidas en grupo, las cuales se
han colocado en intervalos de clase. En esta sección, describiremos procedimientos
para calcular medidas numéricas que resuman la información cuando sólo disponemos
de datos agrupados.

Media para datos agrupados


Si debemos encontrar la media para datos proporcionados en tablas de frecuencia agru-
pada, usamos marcas de clase para representar las medidas para cada clase. De esta
forma, usamos la fórmula conocida de la media aritmética para determinar la llamada
media muestral aproximada xa, puesto que los datos originales se desconocen y
cada observación está representada por su marca de clase.
1.4 Análisis de datos en tablas de frecuencias agrupadas 62

Ejemplo 1.4.1 Los datos siguientes representan el número de personas que han entrado a
un establecimiento diariamente durante un periodo de 25 dı́as.

60 36 61 56 19 35 51 42 21 28 33 67 30
49 57 54 59 28 63 38 15 24 35 46 53

Los √
datos han sido agrupados en la tabla de frecuencias agrupadas 1.13 usando la fórmula
c = n para el número de clases.

Número de personas Número de dı́as


14,5 - 25,5 4
25,5 - 36,5 7
36,5 - 47,5 3
47,5 - 58,5 6
58,5 - 69,5 5

Tabla 1.13: Tabla de frecuencias agrupadas para el ejemplo 1.4.1

(a) Calcular la media x del número de personas que entran por dı́a.
(b) Calcular la media aproximada xa del número de personas que entran por dı́a.

SOLUCION:
(a) Se puede comprobar que la media de los datos es x = 42, 4.
(b) Primero debemos calcular la marca de cada clase (recordemos que una marca de clase
es el punto medio de cada intervalo de clase). Cada marca de clase se multiplica por su
frecuencia correspondiente, como se muestra en la tabla 1.14.

Número de personas Número de dı́as f Marca de clase X fX


14,5 - 25,5 4 20 80
25,5 - 36,5 7 31 217
36,5 - 47,5 3 42 126
47,5 - 58,5 6 53 318
58,5 - 69,5 5 64 320
Sumas 25 1.061

Tabla 1.14: Tabla de frecuencias para el ejemplo 1.4.1

Por consiguiente, la media aproximada es


P
fx 1.061
xa = P = = 42, 44,
f 25

el cual es sólo un valor aproximado para la media de las 25 medidas muestrales originales.
La aproximación se considera buena comparada con el valor exacto x = 42, 40, obtenido
en la parte (a). ◭
1.4 Análisis de datos en tablas de frecuencias agrupadas 63

Clase Frecuencia Frecuencia acumulada


49,5 - 59,5 3 3
59,5 - 69,5 7 10
69,5 - 79,5 18 28
79,5 - 89,5 12 40
89,5 - 99,5 8 48
99,5 - 109,5 2 50

Tabla 1.15: Distribución de frecuencia

Mediana para datos agrupados


Si se han registrado datos en una tabla de frecuencias, no pueden colocarse en un arreglo
ordenado para calcular la mediana. A manera de ilustración, presentamos la siguiente
tabla de frecuencias:
Primero se halla la clase de la mediana de la distribución de frecuencia. La clase
mediana es la mı́nima clase cuya frecuencia acumulada es mayor o igual a n/2, siendo
n el número total de datos. Debido a que n es igual a 50, se necesita localizar la primera
clase que tenga una frecuencia acumulada de 25 o más. En este caso, la tercera clase
es la clase mediana porque tiene una frecuencia acumulada de 28. La mediana puede
determinarse entonces como
 
n/2 − F
Mediana = Lmed + · w,
fmed

en donde

• Lmed es la frontera inferior de la clase de la mediana (de la tabla, es 69,5),

• F es la frecuencia acumulada de la clase que antecede a la clase de la mediana (en


este caso, es la frecuencia acumulada correspondiente a la segunda clase, o sea
F = 10),

• fmed es la frecuencia de la clase de la mediana (en este caso, f = 18),

• w es la amplitud del intervalo de clase de la clase de la mediana (w = 10).

Es decir,  
25 − 10
Mediana = 69, 5 + · 10 = 77, 83.
18

Moda para datos agrupados


Una desventaja de usar la moda con una distribución de frecuencia agrupada es que
el valor de la moda a menudo depende del agrupamiento arbitrario de los datos. La
clase que contiene al mayor número de datos suele denominarse clase modal o moda
cruda.
1.4 Análisis de datos en tablas de frecuencias agrupadas 64

Para estimar la moda en el caso de datos agrupados, se utiliza la siguiente fórmula:


 
Da
Moda = Lmod + · w,
Db + Da

en donde

• Lmod es la frontera inferior de la clase modal (por ejemplo, de la tabla de la figura


1.15, Lmod = 69, 5),

• Da es la diferencia entre la frecuencia de la clase modal y de la clase que la


antecede (por ejemplo, de la tabla de la figura 1.15, Da = 18 − 7 = 11),

• Db es la diferencia entre la frecuencia de la clase modal y de la clase que le sigue


(por ejemplo, de la tabla de la figura 1.15, Db = 18 − 12 = 6),

• w es el ancho del intervalo de clase de la clase modal (por ejemplo, de la tabla de


la figura 1.15,w = 10).

De la tabla 1.15, la moda es


 
11
Moda = 69, 5 + · 10 = 75, 97.
6 + 11

Rango medio para datos agrupados


Para datos organizados en una tabla de frecuencias agrupadas, el rango medio es aprox-
imadamente el promedio de la frontera inferior de clase de la primera clase y la frontera
superior de clase de la última clase.

Ejemplo 1.4.2 El rango promedio aproximado para los datos del ejemplo 1.4.1 es
26, 5 + 47, 5
Rango promedio = = 74. ◭
2

Puntos de posición para datos de una tabla de frecuencia agrupada


Supongamos que queremos encontrar el sexagésimo punto percentil de los datos que
presentamos en la tabla 1.15. Para ello, primero debemos hallar la clase del sexagésimo
punto percentil de la distribución de frecuencias. En general, la clase del p-ésimo
punto percentil es la mı́nima clase cuya frecuencia acumulada es mayor o igual a
p%n, siendo n el número total de datos. Como n = 50 y p = 60, entonces, necesitamos
localizar la primera clase que tenga una frecuencia acumulada de (60%)(50)=30 o más.
En este caso, la cuarta clase es la clase donde se encuentra el sexagésimo punto percentil
de los datos porque tiene una frecuencia acumulada de 40. Entonces, el sexagésimo
punto percentil puede determinarse como
 
p%n − F
p-ésimo punto percentil = Lp + · w,
fp

en donde
1.4 Análisis de datos en tablas de frecuencias agrupadas 65

• Lp es la frontera inferior de la clase del p-ésimo punto percentil (de la tabla, es


79,5),
• F es la frecuencia acumulada de la clase que antecede a la clase del p-ésimo punto
percentil (en este caso, es la frecuencia acumulada correspondiente a la tercera
clase, o sea F = 28),
• fp es la frecuencia de la clase del p-ésimo punto percentil (en este caso, f = 12),
• w es la amplitud del intervalo de clase de la clase del p-ésimo punto percentil
(w = 10).
Es decir,
 
30 − 28
Sexagésimo punto percentil = 79, 5 + · 10 ≈ 81, 16.
12

Varianza y desviación tı́pica


Las marcas de clase se usan tı́picamente para representar medidas que caen en las
clases de una tabla de frecuencia agrupada cuando se necesita obtener la varianza o
la desviación estándar aproximadas de los datos. Al hacerse esto, se usan las fórmulas
análogas para calcular la varianza y la desviación estándar, para el caso de distribuciones
de frecuencias no agrupada.

Ejemplo 1.4.3 Calcular la varianza y desviación estándar de los datos del ejemplo 1.4.1.
SOLUCION:
Como antes, debemos encontrar las marcas de clase m y con ello construimos la tabla 1.16,
siendo µa la media poblacional aproximada de los datos.

Clase m f fm m − µa (m − µa)2 f(m − µa)2


26,5 - 29,5 28 1 28 -9 81 81
29,5 - 32,5 31 10 310 -6 36 360
32,5 - 35,5 34 14 476 -3 9 126
35,5 - 38,5 37 33 1.221 0 0 0
38,5 - 41,5 40 14 560 3 9 126
41,5 - 44,5 43 7 301 6 36 252
44,5 - 47,5 46 3 138 9 81 243
Sumas 82 3.034 1.188

Tabla 1.16: Tabla de frecuencias para el ejemplo 1.4.3

Se encuentra que la media poblacional aproximada es


P
fm 3.034
µa = P = = 37.
f 82
Además, la varianza poblacional aproximada es
P
2 f(m − µa )2 1.188
σa = P = = 14, 4878
f 82

y de esta forma la desviación poblacional aproximada será σa = 14, 4878 = 3, 806. ◭
1.4 Análisis de datos en tablas de frecuencias agrupadas 66

✍ Ejercicios de la sección 1.4


51. Situémonos en el contexto del ejercicio 17, en el que se recogı́an los porcentajes de
rentabilidad de las acciones de 25 empresas:
(a) A partir de la agrupación de datos usada para construir el histograma, estimar la
media, la mediana, la desviación tı́pica y el rango intercuartil de los porcentajes de
rentabilidad.
(b) Calcular directamente la media y la desviación tı́pica a partir de las 25 observaciones
y compararlas con las obtenidas en el apartado (a).
52. Se toma una muestra de 20 estudiantes. La tabla siguiente muestra la cantidad de tiempo
(en horas) empleado por cada uno de estos estudiantes de dicha muestra en preparar un
examen.
Tiempo de estudio (Horas) 0-3 3-6 6-9 9-12 12-15
Número de estudiantes 2 6 7 4 1

(a) Hallar las frecuencias relativas y las frecuencias relativas acumuladas.


(b) Estimar la media, la mediana, la moda y la desviación tı́pica del tiempo de estudio.

53. Durante una epidemia de gripe, los tiempos de espera en cierto centro de salud fueron
más largos de lo habitual. La siguiente tabla resume la distribución de los tiempos de
espera para una muestra de 24 pacientes que visitaron el centro de salud durante este
perı́odo.

Tiempo de espera (horas) 0-1 1-2 2-3 3-4


Número de pacientes 7 10 5 2

(a) Hallar las frecuencias acumuladas, relativas y relativas acumuladas.


(b) Dibujar el histograma, un polı́gono y una ojiva.
(c) Estimar la media, la mediana, la moda, la varianza y la desviación tı́pica del tiempo
de espera.
(d) Estimar el rango intercuartil.

54. Se dispone de la siguiente información acerca de las rentas familiares (en millones de
pesos) en los hogares de cierta ciudad.

Renta familiar 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,0 4,0-4,5 4,5-5,0


Frec. relativa 0,10 0,20 0,22 0,12 0,13 0,08 0,15

Estimar la media y la desviación tı́pica poblacional de la renta familiar.


55. Las ayudas concedidas, en miles de euros, por cierto gobierno a 60 proyectos empresariales
innovadores, vienen reflejadas en la siguiente tabla:

Importe de la ayuda 0-600 600-1.200 1.200-1.800 1.800-2.400


No. de proyectos 10 15 20 15

(a) Calcular la ayuda media y ver si este valor es representativo.


(b) Calcular la ayuda máxima concedida al 70% de los proyectos menos favorecidos en el
reparto.
(c) Calcular la ayuda mı́nima concedida al 65% de los proyectos más favorecidos.
1.5 Análisis exploratorio de datos 67

(d) Si se aumenta posteriormente las ayudas en once mil euros a cada proyecto, ¿cómo
afecta a los incisos anteriores?
(e) Si para el año siguiente las ayudas aumentan un 5% sobre el valor inicial, man-
teniéndose el criterio del reparto, ¿cuál será ahora la ayuda media? ¿Sigue siendo
representativa?

56. A continuación se presentan algunas medidas estadı́sticas (mediana, primer y segundo


cuartiles) y una tabla de frecuencia agrupada, para las edades de un grupo de personas
que hay en una sala de concierto. A partir de estos datos, responder las preguntas que
aparecen abajo. Mediana = 20, primer cuartil = 17,5 y tercer cuartil = 23.

Frecuencia Frecuencia Frec. acum.


Edades Frecuencia relativa acumulada relativa
11,5 - 14,5 2 0,0500 2 0,0500
14,5 - 17,5 8 0,2000 10 0,2500
17,5 - 20,5 11 0,2750 21 0,5250
20,5 - 23,5 10 0,2500 31 0,7750
23,5 - 26,5 8 0,2000 39 0,9750
26,5 - 29,5 1 0,0250 40 1,0000

(a) ¿Cuál era el número exacto de personas que habı́an en la sala del concierto?
(b) ¿Cuál es la media aproximada de las personas que asistieron al concierto?
(c) ¿Qué edad tienen el 77,5% de las personas?
(d) ¿Qué porcentaje de personas tienen una edad entre 11,5 y 20,5?
(e) ¿Qué porcentaje de personas tienen una edad mayor de 23,5?
(f) ¿Cuántas personas tienen una edad entre 17,5 y 20,5?
(g) ¿Cuántas personas tienen una edad mayor que 14,5?
(h) ¿Qué interpretación tiene el valor de la mediana y el de los cuartiles?

1.5 Análisis exploratorio de datos


Una vez que hemos estudiado las cuatro propiedades más importante de los datos
numéricos (tendencia central, posición relativa, dispersión y forma), es importante iden-
tificar y describir las caracterı́sticas principales de los datos en forma resumida. Un en-
foque a este análisis exploratorio de datos5 consiste en desarrollar un resumen
de cinco números y construir un diagrama de caja y bigotes.

1.5.1 Resumen de cinco números

Definición 1.5.1 Un resumen de cinco números consiste en cinco cantidades


que se emplean para resumir los datos: valor mı́nimo, primer cuartil (Q1), Mediana
(Q2), tercer cuartil (Q3) y valor máximo.

5
En general, las técnicas del análisis exploratorio de datos consisten en operaciones aritmé-
ticas sencillas y representaciones fáciles de trazar, que pueden emplearse para resumir con rapidez los
datos. Muchos autores presentan el diagrama de tallo y hoja como técnica del análisis exploratorio
de datos.
1.5 Análisis exploratorio de datos 68

A partir del resumen de cinco números se pueden obtener, entre otras, dos medidas de
tendencia central (la mediana y el rango medio) y dos medidas de variación (el rango
intercuartil y el rango) para tener una mejor idea de la forma de la distribución.

Si la distribución es simétrica, la relación entre las diversas medidas nos la da el siguiente


teorema.

Teorema 1.5.2 (Situaciones para reconocer la simetrı́a de los datos) Si la


distribución es simétrica:

• La distancia de Q1 a la mediana es igual a la distancia de la mediana a Q3.

• La distancia del valor mı́nimo a Q1 es igual a la distancia de Q3 al valor


máximo.

• La mediana y el rango medio son iguales. (Estas medidas son iguales a la


media de los datos.)

Por otra parte, si se trata de distribuciones no simétricas, la relación de las diversas


medidas se expresan en el siguiente teorema.

Teorema 1.5.3 (Situaciones para reconocer a los datos no simétricos) Si


la distribución no es simétrica:

• En las distribuciones sesgadas a la derecha, la distancia de Q3 al valor máximo


excede la distancia del valor mı́nimo a Q1. Además, la mediana es menor que
el rango medio.

• En las distribuciones sesgadas a la izquierda, la distancia del valor mı́nimo a


Q1 excede la distancia de Q3 al valor máximo. Además, el rango medio es
menor que la mediana.

Ejemplo 1.5.4 Utilice el resumen de cinco números para estudiar la forma de la dis-
tribución de los datos del ejemplo 1.3.24.
SOLUCION:
En el ejemplo 1.3.26 calculamos que el primer cuartil es 2,365; la mediana es 2,405 y el
tercer cuartil es 2,500. Por tanto, el resumen de cinco números es

2, 210 2, 365 2, 405 2, 500 2, 825.

De las situaciones que se presentaron en los teoremas 1.5.2 y 1.5.3 es claro que los salarios
están sesgados a la derecha porque la distancia del valor mı́nimo a Q1 (es decir, 0,155) es
bastante menor que la distancia de Q3 al valor máximo (es decir, 0,325).
Además, si se compara la mediana (2,405) y el rango medio (2,5175), se observa que el
rango medio se mueve debido al valor extremo 2,825, y es por mucho la más grande de estas
medidas de resumen (compárese con la figura 1.14). ◭
1.5 Análisis exploratorio de datos 69

Fig. 1.14: Diagrama de barras para los datos del ejemplo 1.5.4

1.5.2 Diagrama de caja y bigotes


El diagrama de caja y bigotes, como el que se muestra en la figura 1.15, propor-
ciona una representación gráfica de los datos mediante el resumen de cinco números.
Esta herramienta de análisis exploratorio de datos va a permitir estudiar la simetrı́a de los
datos, detectar los valores atı́picos y vislumbrar un ajuste de los datos a una distribución
de frecuencias determinada.

Fig. 1.15: Diagrama de caja y bigotes

El diagrama de caja y bigotes divide los datos en cuatro áreas de igual frecuencia, una
caja central dividida en dos áreas por una lı́nea vertical y otras dos áreas representadas
por dos segmentos horizontales (bigotes) que parten del centro de cada lado de la caja.
La caja central encierra el 50% de los datos. En el interior de caja central se acostumbra
a representar la media con un signo más y se dibuja la mediana como una lı́nea vertical
en el interior de la caja (compárese con la figura 1.15). Si esta lı́nea está en el centro de
1.5 Análisis exploratorio de datos 70

la caja no hay asimetrı́a en los datos. Los lados verticales están situados en los cuartiles
inferior y superior de los datos. Partiendo del centro de cada lado vertical de la caja se
dibujan los dos bigotes, uno hacia la izquierda y el otro hacia la derecha, teniendo en
cuenta lo siguiente:

• El bigote de la izquierda tiene un extremo en el primer cuartil Q1 y el otro en el


valor dado por el primer cuartil menos 1,5 veces el rango intercuartil R.I, esto es,
Q1 − 1, 5R.I.

• El bigote de la derecha tiene un extremo en el tercer cuartil Q3 y el otro en el


valor dado por el tercer cuartil más 1,5 veces el rango intercuartil R.I, esto es,
Q3 + 1, 5R.I.

Si hay datos que se encuentran a la izquierda del bigote izquierdo y a la derecha del
bigote derecho se les denomina valores atı́picos.

Definición 1.5.5 Todo valor que está más alejado del 1,5R.I del cuarto más
cercano se dice que es atı́pico. Un valor atı́pico es extremo si está a más de
3R.I del cuarto más cercano y es moderado en otro caso.

En el diagrama de caja, los valores atı́picos moderados se representan mediante un pequeño


cuadrado y los extremos, con un pequeño cuadrado con un signo más en su interior.

Un valor atı́pico puede ser un elemento para el cual se haya anotado su valor en forma
errónea. Si es ası́, puede corregirse antes de proseguir con el análisis. También, un valor
atı́pico puede ser uno que por error se incluyó en el conjunto de datos y, en estos casos,
debe eliminarse. Por último, puede ser tan sólo un elemento poco común que se haya
anotado en forma correcta y que sı́ pertenece al conjunto de datos. En estos casos ese
elemento debe mantenerse.

Ejemplo 1.5.6 Construir un diagrama de caja y bigotes para los datos del ejemplo 1.5.4.
SOLUCION:
Tenemos que el rango intercuartil es R.I = 2, 500 − 2, 365 = 0, 135, de donde se obtiene que
la longitud de los bigotes es 1, 5R.I = 0, 2025. Ahora
• El bigote de la izquierda tiene un extremo en el primer cuartil Q1 = 2, 365 y el otro
en el valor Q1 − 1, 5R.I = 2, 1625.
• El bigote de la derecha tiene un extremo en el tercer cuartil Q3 = 2, 500 y el otro en
el valor Q3 + 1, 5R.I = 2, 7025.
La figura 1.16 es el diagrama de caja y bigotes pedido. En el diagrama podemos observar
que hay un valor atı́pico (el valor 2,825) porque éste se encuentra por fuera de los bigotes.
Debido a que Q3 + 3R.I = 2, 905, este valor atı́pico es moderado porque está 2,825 es menor
que 2,905. Además, podemos afirmar que la distribución de frecuencias está sesgada a la
derecha porque el área del rectángulo a la izquierda de la mediana es menor que el del
rectángulo a la derecha de la mediana. Esto también se puede concluir al tener en cuenta
que media es mayor que la mediana. ◭
1.5 Análisis exploratorio de datos 71

Fig. 1.16: Diagrama de caja y bigotes para los datos del ejemplo 1.5.4

Diagramas de cajas múltiples (o comparativos)


Un diagrama de caja múltiple (o comparativo) es una forma muy eficaz de mostrar
semejanzas y diferencias entre dos o más conjuntos de datos.

Ejemplo 1.5.7 La figura 1.17 contiene los diagramas de caja de las calificaciones en un
examen de matemáticas para quince estudiantes de primer curso de primaria, quince de
segundo y quince de tercero.

Fig. 1.17: Diagrama de caja y bigotes de las calificaciones en un examen

En el diagrama puede apreciarse que no hay valores atı́picos en ninguno de los tres gru-
pos. Los estudiantes del tercer curso consiguieron la mejor mediana, pero sus calificaciones
tienen una variabilidad considerablemente que la de los otros grupos. Otro hecho que llama
la atención es la gran cantidad de calificaciones bajas obtenidas por los estudiantes de primer
curso. Finalmente, podemos afirmar que las distribuciones de frecuencias de los tres con-
juntos de datos están sesgadas a la izquierda. ◭
1.5 Análisis exploratorio de datos 72

✍ Ejercicios de la sección 1.5


57. Un fabricante de baterı́as para linternas tomó una muestra de 13 baterı́as de un dı́a de
producción y las usó hasta que se agotaron. Las horas que funcionaron hasta fallar son:

166 342 426 492 562 298 264 631 451 1.049 317 545 512

Proporcione el resumen de cinco números, construya el diagrama de caja y bigotes, deter-


mine en cada caso si hay valores atı́picos y haga un análisis exploratorio de cada conjunto
de datos.
58. Los siguientes datos muestran las yardas acumuladas durante la temporada de fútbol
americano colegial para una muestra de 20 receptores:

451 1.023 852 809 596 744 652 576 1.112 971
1.278 820 511 907 1.251 941 975 400 711 1.174

Forme el resumen de cinco números, trace un diagrama de caja e indentifique en él el o


los valores atı́picos.
59. Los siguientes datos representan los rendimientos porcentuales anuales en cuentas de
mercado de dinero de una muestra de 15 bancos comerciales en el área metropolitana de
una ciudad a una determinada fecha:
Nombre del Banco Rendimiento Nombre del banco Rendimiento
Banco su cuenta 3,10 Banco el Pais 2,28
The Bank 2,63 Banco la Clave 3,01
Mein Bank 2,79 Banco del Norte 2,53
Your Bank 3,25 Banco del Sur 2,00
El Banco del pueblo 1,90 Banco Nacional 3,05
Aero Bank 2,79 Nuestro Banco 2,02
Union Bank 2,90 Banco el dinero 3,05
Bank del cliente 2,73

(a) Proporcione el resumen de cinco números.


(b) Construya el diagrama de caja y bigotes y describa la forma.
(c) Si alguien le dijera:“los rendimientos del mercado de dinero no varı́an mucho de un
banco a otro”, con base en estos datos, ¿qué dirı́a?

60. Una de las metas de toda administración es ganar lo más posible en relación con el
capital invertido en la empresa. Una medida del éxito en alcanzarla es el retorno sobre
la aportación, que es la relación de la ganancia neta entre el valor de las acciones. A
continuación se muestran los porcentajes de ganancia sobre las acciones para 25 empresas.

11,4 15,8 52,7 17,3 12,3 9,0 19,6 22,9 41,6


5,1 17,3 31,1 6,2 19,2 14,7 9,6 8,6 11,2
16,6 5,0 30,3 12,8 12,2 14,5 9,2

Forme el resumen de cinco números, trace un diagrama de caja y bigotes y determine si


hay valores atı́picos. ¿Cómo podrı́a un analista financiero usar esta información?
61. Una revista publica regularmente las clasificaciones de funcionamiento y de calidad para
muchos productos de consumo. Se publicaron calificaciones generales de una muestra de
16 televisores de precio intermedio en esta revista. Las marcas y las calificaciones aparecen
en la tabla siguiente.
1.6 Uso de Statgraphics en la estadı́stica descriptiva 73

Fabricante Calificación Fabricante Calificación Fabricante Calificación


PCG 73 Rernat 72 Katze 81
Monch 89 Kuril 77 Sheck 76
RMA 79 Tosh 79 Fish 77
Cuark 75 Pate 78 Karl 79
Magnifon 80 Wand 78 Wind 90
Sodium 86

(a) Determine la calificación promedio y forme el resumen de cinco números.


(b) Una evaluación similar de radios proporcionó calificaciones que tuvieron una media
de 82,56, una desviación estándar 6,39 y un resumen de cinco números 75, 77, 82,
86 y 93. Compare los datos de calificaciones de la revista de televisores con los del
radio. Trace los diagramas de caja de ambos.
(c) ¿Hay valores atı́picos en los datos de televisores? Explique su respuesta.

62. Dos modos que usan las empleados para ir a trabajar diariamente son el transporte público
y el automóvil. A continuación vemos unas muestras de tiempos de cada modo. Las cifras
son minutos:
Transporte público: 25 29 32 41 34 28 29 32 37 33
Automóvil: 30 31 32 35 33 29 31 33 32 34

(a) Calcule la media y la desviación estándar de la muestra del tiempo que se lleva en
cada modo de transporte.
(b) Con base en los resultados del inciso (a), ¿qué modo de transporte debe preferirse?
Explique sus razones.
(c) Trace un diagrama de caja para cada modo. Al comparar los diagramas de caja, ¿se
respalda la conclusión del inciso (b)?

1.6 Uso de Statgraphics en la estadı́stica descriptiva


A continuación presentaremos una breve descripción de la forma cómo se utiliza Stat-
graphics en el análisis descriptivo de uno o más conjuntos de datos.

1.6.1 Análisis de un solo conjunto de datos


En esta sección, trabajaremos con los datos que aparecen en el archivo calles.sf3. Este
contiene las variables longitud, anchura y nombre, que son la longitud, anchura y el
nombre de 112 calles del antiguo casco de Madrid (España). Utilizando este archivo y
con ayuda de Statgraphics realizaremos un análisis de la variable longitud. Al abrir el
archivo calles.sf3 sale la ventana de hojas de cálculos que se muestra en la figura 1.18.
El acceso a todas las opciones analı́ticas y gráficas que se necesitan en cualquier práctica
se realiza de la misma manera:

• Se selecciona Describe . . . Numeric Data . . . One-Variable Analysis y aparecen


todas las variables que contiene el archivo.

• Con el ratón se elige la variable deseada (que en nuestro caso será la variable lon-
gitud), aparecerá resaltada, y a continuación se pulsa el botón Data, apareciendo
el nombre de dicha variable como variable activa. Dicha ventana tiene la opción
1.6 Uso de Statgraphics en la estadı́stica descriptiva 74

Fig. 1.18: Aspecto de la ventana de hojas de cálculos

ordenar (sort) las variables alfabéticamente. Los botones que aparecen en la parte
inferior permiten realizar el análisis, cancelar el análisis, transformar los datos y
consultar la ayuda. Se pulsa la opción OK para realizar el análisis y aparece la
llamada ventana del análisis, dando informaciones estadı́sticas acerca del conjunto
de datos con el que se está trabajando (véase la figura 1.19).

Fig. 1.19: Aspecto de la ventana del análisis

Los ı́conos principales que hay en la barra de herramientas de esta ventana son los cuatro
de la izquierda (los restantes se activan en algunas opciones gráficas):
• El primer ı́cono (Input dialog, ı́cono de diálogos) permite la selección (o cambio)
1.6 Uso de Statgraphics en la estadı́stica descriptiva 75

de variables dentro del archivo y análisis seleccionado. Por ejemplo, dentro del
archivo calles.sf3 se puede cambiar la variable longitud por la varible anchura
utilizando este ı́cono.

• El segundo ı́cono (Tabular options, ı́cono de opciones tabulares) permite selec-


cionar opciones analı́ticas.

• El tercer ı́cono (Graphical options, ı́cono de opciones gráficas) permite seleccionar


diferentes opciones de gráficos.

• El cuarto ı́cono (Save results, ı́cono de salvar resultados) permite salvar los resul-
tados del análisis para tratarlos posteriormente o para imprimirlos.

Opciones numéricas
Al marcar el segundo ı́cono (Tabular options) de la barra de herramientas de la ventana
del análisis podemos seleccionar las siguientes opciones:

• Analysis Summary (Resumen de procedimiento).


Nos presenta una información muy general del análisis (nombre de la variable,
número de datos que ella tiene, datos mayor y menor, etc.).

• Summary Statistics (Resumen estadı́stico).


Esta opción permite obtener algunas medidas estadı́sticas. Por defecto, ofrece el
numero de datos, la media, varianza, desviación tı́pica, valores máximo y mı́nimo,
los coeficientes de asimetrı́a y apuntamiento estandarizados y la suma de los valores
de las observaciones. Para obtener un número mayor o menor de medidas es
suficiente con pulsar el botón derecho del ratón y seleccionar Pane options, con lo
que aparece una ventana con un amplio conjunto de medidas.

• Percentiles.
Permite el cálculo simultáneo de hasta 10 percentiles a voluntad del usuario. Si,
estando situado sobre esta salida, pulsamos el botón derecho del ratón y elegimos
Pane options, se introducen los percentiles que se deseen calcular.

• Frequency Tabulation (Tabla de frecuancia).


Nos permite resumir la distribución de los datos en una tabla de frecuencias abso-
lutas, relativas, absolutas acumuladas y relativas acumuladas. Si, estando situados
sobre esta salida, pulsamos el botón derecho del ratón y elegimos Pane options,
obtenemos la ventana de diálogo Frequency Tabulation Options, en donde tenemos
los siguientes campos:

– Number of Classes (Número de clases).


Aquı́, se introduce el número de intervalos de clase para agrupar los datos
de la distribución.
– Lower Limit (Lı́mite inferior ).
Se introduce el lı́mite inferior para la primera clase.
– Upper Limit (Lı́mite superior ).
Se introduce el lı́mite superior para la última clase.
1.6 Uso de Statgraphics en la estadı́stica descriptiva 76

– Hold (Mantener ).
Se señala cuando se quiere mantener la definición actual de clase para la
siguiente tabla de frecuencias que se realice.

• Stem-and-Leaf Display (Diagrama de Tallo y Hojas).


Esta opción permite mostrar el diagrama de tallo y hojas. En este caso, el dia-
grama de tallo y hojas para la variable longitud está formado por cuatro tallos.
Los valores que están a la izquierda de cada tallo son la frecuencia absoluta acu-
mulada de los tallos, donde dicha frecuencia se comienza a contar tanto por arriba
como por abajo, a excepción de valor que aparece entre paréntesis que corre-
sponde al tallo donde se encuentra la mediana. Si, estando situados sobre esta
opción, pulsamos el botón derecho del ratón y elegimos Pane options, obtenemos
la ventana de diálogo Stem-and-Leaf Display Options, cuyo campo Flag Outliers
(Valores Anómalos) permite marcar valores atı́picos en el diagrama. Como puede
observarse, el diagrama de tallo y hojas de la variable longitud presenta cuatro
valores atı́picos.

• Las otras dos opciones Confidence Intervals (Intervalos de confianza) y Hypothesis


Tests (Pruebas de hipótesis) corresponden a conceptos de la estadı́stica inferencial.

Opciones gráficas
Al marcar el tercer ı́cono (Graphical options) de la barra de herramientas de la ventana
del análisis podemos seleccionar las siguientes opciones:

• Scatterplot (Gráfico de dispersión).


Nos presenta un diagrama de dispersión para la variable en el que se presentan sus
valores mediante puntos no conectados a lo largo de un eje horizontal agrupados
por intervalos.

• Box-and-Whisker Plot (Gráfico de Cajas y Bigotes).


Nos permite realizar diagramas de cajas y bigotes. Si, estando situados sobre esta
salida, pulsamos el botón derecho del ratón y elegimos Pane options, obtenemos la
ventana de diálogo Frequency Tabulation Options, en donde tenemos los siguientes
campos:

– Direction (Dirección).
Se puede elegir Vertical u Horizontal para orientar el diagrama en el sentido
que uno lo desee.
– Features (Aspectos).
Esta opción nos permite señalar o no en el gráfico la media (Mean Marker ),
los valores atı́picos (Outlier Symbols) y muescas sobre la mediana (Median
Nocht).

• Frequency Histogram (Histograma de Frecuencia).


Esta opción nos permite realizar histogramas y polı́gonos de frecuencias absolutas
y relativas, que también pueden ser acumulados.6 Si, estando situados sobre el
6
Recordemos que los polı́gonos acumulados o acumulados relativos son las llamadas ojivas.
1.6 Uso de Statgraphics en la estadı́stica descriptiva 77

gráfico del histograma, pulsamos el botón derecho del ratón y elegimos Pane op-
tions, obtenemos la ventana de diálogo Frequency Plot Options con las siguientes
opciones:

– En los campos Number of Classes, Lower Limit y Upper Limit podemos


definir el número de clases deseado, el lı́mite inferior de la primera clase y el
lı́mite superior de la última clase, respectivamente.
– El campo counts permite seleccionar frecuencias relativas (Relative) y acu-
muladas (Cumulative).
– El campo Hold (Mantener ) permite mantener la escala actual para los gráficos
siguientes.
– El histograma de frecuencias absolutas se obtiene se obtiene señalando el
botón Histogram del campo Plot Type y dejando en blanco los dos botones
del campo Counts; el de frecuencias relativas, señalando el botón Histogram
del campo Plot Type y el botón Relative del campo Counts; el de frecuencias
acumuladas, señalando el botón Histogram del campo Plot Type y el botón
Cumulative del campo Counts; el de frecuencias acumuladas, señalando el
botón Histogram del campo Plot Type y los botones Cumulative y Relative
del campo Counts.
– El polı́gono de frecuencias absolutas se obtiene señalando el botón Polygon
del campo Plot Type y dejando en blanco los dos botones del campo Counts;
el de frecuencias relativas, señalando el botón Polygon del campo Plot Type
y el botón Relative del campo Counts.
– La ojiva de frecuencias acumuladas se obtiene señalando el botón Polygon
del campo Plot Type y el botón Cumulative Relative del campo Counts; la
de frecuencias acumuladas relativas, señalando el botón Polygon del campo
Plot Type y los botones Relative y Cumulative del campo Counts.

• Density Trace (Gráfico de densidad).


Esta opción nos permite visualizar en cierta forma el histograma suavizado.

• Symmetry Plot (Gráfico de simetrı́a).


Este gráfico nos permite analizar visualmente el grado de simetrı́a de un conjunto
de datos. En el eje de las abcisas se representan las distancias de los datos a la
mediana que quedan por debajo de ella. Si la simetrı́a fuese perfecta, el conjunto
de puntos resultante serı́a la diagonal principal. Mientras más se aproxime la
gráfica a la diagonal, más simetrı́a existirá en la distribución de los datos.

Conclusiones sobre la variable longitud


Tiene especial interés la comparación de la media (Average) y la mediana (Median),
donde se observa que la media es mayor que la mediana en 40 unidades. Esto indica
cierta asimetrı́a en los datos, que debe concordar con un coeficiente de asimetrı́a grande
y positivo.

En el histograma observamos asimetrı́a, con mayor concentración de datos en la parte


1.6 Uso de Statgraphics en la estadı́stica descriptiva 78

izquierda. Es recomendable modificar el número de clases del histograma, para ası́ ob-
servar las variaciones que se producen en éste.

El diagrama de caja de la variable longitud pone claramente de manifiesto la asimetrı́a


de los datos, con mayor concentración en la parte izquierda que en la derecha, y la
presencia de valores atı́picos. La caja está delimitada por el primer y tercer cuartil con
valores respectivos de 89 y 210. La lı́nea que separa la caja en dos partes es la mediana
con magnitud igual a 135. El valor mı́nimo es 25, no observándose valores atı́picos en
la parte izquierda de los datos. En la parte derecha aparecen varios valores atı́picos.

Si se desea obtener una distribución simétrica y con probable desaparición de ciertos


valores atı́picos es recomendable realizar una transformación.

Transformación de la variable longitud


Las cuatro transformaciones más habituales para resolver este tipo de problemas son:
logaritmo, raı́z cuadrada, inversa y cuadrado.

Los comandos que representan estas tres transformaciones son:

• LOG(nombre variable) para el logaritmo neperiano,

• SQRT(nombre variable) para la raı́z cuadrada

• y 1/(nombre variable) para la inversa.

Para trabajar con la variable transformada es suficiente con escribir en lugar del nombre
de la variable la transformación adecuada. Por ejemplo, si quisiéramos trabajar con el
logaritmo de la variable escribimos LOG(longitud) en vez de longitud. Otro método para
escribir la transformación adecuada es desde la opción de One Variable Analysis; en la
parte inferior de la ventana activar el botón Transform, lo que nos permite acceder a los
diferentes operadores (Operators) entre los que se encuentran las transformaciones antes
mencionadas. De las estas transformaciones, la que ofrece una distribución más simétrica
es el logaritmo. A continuación presentamos las conclusiones obtenidas del estudio
descriptivo (medidas caracterı́sticas, diagrama de tallo y hojas, caja e histograma) de la
variable LOG(longitud).

Conclusiones sobre el logaritmo de la variable longitud


Se repite todo el análisis realizado para la variable longitud, pero ahora con la variable
transformada (LOG(longitud)). Como consecuencia de la transformación realizada se
obtiene un comportamiento simétrico, aunque se detecta la presencia de un valor atı́pico
correspondiente a la calle Atocha de 1260 metros.7
7
La presencia de este valor atı́pico se puede explicar acudiendo a razones históricas. Por ejemplo,
la calle Atocha está ubicada entre la Plaza de Santa Cruz y el Paseo del Prado, con existencia desde
1589, al igual que las calles de su entorno. Una explicación de su carácter peculiar (atı́pico) es su
función como unión entre Madrid capital y el Hospital General (inicialmente en la periferia).
1.6 Uso de Statgraphics en la estadı́stica descriptiva 79

1.6.2 Análisis simultáneo de dos o más conjuntos de datos


Mediante la opción Compare . . . Two Samples . . . Two Sample Comparison . . . pode-
mos analizar dos conjuntos de datos simultáneamente (véase el ejercicio 68).

Para obtener diagramas de cajas múltiples para dos o más conjuntos de datos, una
alternativa es mediante las opciones Compare . . . Multiple Samples . . . Multiple-Sample
Comparison . . . Multiple Data Columns . . . Ok . . . Samples= (en esta última opción
mencionar los datos que se quieren comparar).

Statgrpahics también habilita la subopción Plot . . . Exploratory Plots . . . Multiple Box-


and-Whishker Plot . . . Data=distancia . . . Level codes=year . . . para obtener diagramas
de cajas múltiples de varios conjuntos de datos con respecto diferentes grupos en que
se puede dividir los conjuntos de datos (véase el ejercicio 64c).

✍ Ejercicios de la sección 1.6


s 63. Considere la variable anchura que contiene el conjunto de datos que se encuentra en el
archivo calles.sf3 y que corresponde al ancho de 112 calles de Madrid (España).
(a) Obtenga la media y la mediana, la moda, el primer y tercer cuartiles, el segundo y
octavo deciles, los percentiles 35, 66, 81 y 93, el sesgo y el coeficiente de variación.
Interprete cada uno de sus resultados.
(b) Formar la tabla de frecuencias con 8 clases para los datos, en donde la primera
frontera inferior sea 0 y la última frontera superior sea 40. A partir de ella, responda
las siguientes preguntas:
i. ¿Cuántas calles tienen un ancho entre 5 y 25 kilómetros?
ii. ¿Qué porcentaje de calles tienen un ancho entre 10 y 30 kilómetros?
iii. ¿Cuántas calles tienen un ancho mayor de 20 kilómetros?
iv. ¿Qué porcentaje de calles tienen un ancho mayor 25 kilómetros?
v. ¿Cuántas calles tienen un ancho menor de 15 kilómetros?
vi. ¿Qué porcentaje de calles tienen un ancho menor de 35 kilómetros?
(c) Con 8 clases (en donde la primera frontera inferior sea 0 y la última frontera superior
sea 40), construir los histogramas de frecuencias absolutas y de frecuencias absolutas
acumuladas, los polı́gonos de frecuencia y de frecuencias relativas y las ojivas de fre-
cuencias acumuladas y de frecuencias relativas acumulada. A partir de estos gráficos,
responda las siguientes preguntas:
i. ¿Aproximadamente cuántas calles tienen un ancho mayor que 16,9 kilómetros?
ii. ¿Aproximadamente cuántas calles tienen un ancho menor que 12,5 kilómetros?
iii. ¿Qué porcentaje aproximado de calles tienen un ancho mayor de 7,7 kilómetros?
iv. ¿Qué porcentaje aproximado de calles tienen un ancho menor de 13,8 kilómetros?
(d) Estudie la simetrı́a de la distribución de los datos.
(e) ¿Existen valores atı́picos? ¿Cuántos? ¿Cuáles?
(f) ¿Existe alguna transformación que mejora la simetrı́a? ¿Y la presencia de valores
atı́picos? Indique en caso positivo la transformación seleccionada.
1.6 Uso de Statgraphics en la estadı́stica descriptiva 80

s 64. En el archivo de datos autos.sf3 se muestran las distancias recorridas (dadas en millas
por galón) de 154 modelos de automóviles sacados al mercado entre los años 1978 y
1982 por diferentes fabricantes: americanos (origen=1), europeos (origen=2) y japoneses
(origen=3). También aparecen los respectivos cilindrajes de los autos, las potencias, etc.
(a) Construya un diagrama de caja y bigotes para los datos de la distancia recorrida y a
partir de él, responda las siguientes preguntas: ¿Entre cuáles valores varı́a la distancia
recorrida? ¿Cuánto recorre el 50% central de los autos? ¿Hay valores atı́picos? ¿Es
simétrica o asimétrica la distribución de los datos? En caso de ser asimétrica, ¿es
asimétrica a la izquierda o a la derecha? ¿Cuáles son los valores de la media y de la
mediana?
(b) Estudie el grado de simetrı́a de los datos de la distancia recorrida de cuatro maneras
diferentes (compare sus respuestas):
i. Utilizando las medidas estadı́sticas (media, mediana, moda, sesgo, etc. )
ii. Construyendo un histograma de frecuencias con 5 clases.
iii. Construyendo un un histograma con 13 clases. ¿Porqué este histograma resulta
más adecuado que el que construyó con 5 clases?
iv. Construyendo un gráfico de simetrı́a con la opción graphical options . . . symmetry
plot de Statgraphics.
(c) Considere ahora por separado los conjuntos de distancias recorridas de los modelos
de cada uno de los cinco años.
i. Analice gráfica y numéricamente cada uno de estos conjuntos.
ii. Utilizando la opción Plot . . . Exploratory Plots . . . Multiple Box-and-Whishker
Plot . . . Data=distancia . . . Level codes=year . . . obtenga los diagramas de cajas
(múltiples) de los cinco conjuntos de distancias recorridas con respecto a cada
uno de los años. ¿Qué se observa? ¿Conoce alguna razón que pueda explicar
lo que resulta de los análisis numéricos y de la observación de los diagramas de
cajas?
(d) Ahora, construya el diagrama de caja múltiple de la distancia recorrida de los au-
tomóviles según su cilindrada.
i. Teniendo en cuenta cada uno de los diagramas, responda las preguntas formu-
ladas en la parte (a).
ii. Compare entre sı́ los distintos diagramas y responda las siguientes preguntas:
¿Dónde es más fuerte la asimetrı́a? ¿Dónde es menor? ¿Dónde no existe? ¿Varı́a
bastante los valores de la media y de la mediana para los diferentes grupos?
(e) Construya el diagrama de caja múltiple de la potencia de los automóviles según su
origen y responda las preguntas formuladas en el inciso anterior.
s 65. Se han medido los diámetros (en milı́metros) de 50 tornillos y se han obtenido los resultados
que se encuentran en el archivo tornillos.sf3.
(a) Obtenga la mediana, la moda, el primer y tercer cuartiles, el sexto y séptimo deciles
y los percentiles 54, 47, 82. Interprete cada uno de sus resultados.
(b) Formar la tabla de frecuencias con 6 clases para los datos y, a partir de ella, responda
las siguientes preguntas:
i. ¿Cuántos tornillos tienen un diámetro entre 29 y 32 milı́metros?
ii. ¿Qué porcentaje de tornillos tienen un diámetro entre 30 y 34 milı́metros?
iii. ¿Cuántos tornillos tienen un diámetro mayor de 32 milı́metros?
iv. ¿Qué porcentaje de tornillos tienen un diámetro mayor 34 milı́metros?
1.6 Uso de Statgraphics en la estadı́stica descriptiva 81

v. ¿Cuántos tornillos tienen un diámetro menor de 31 milı́metros?


vi. ¿Qué porcentaje de tornillos tienen un diámetro menor de 33 milı́metros?
(c) Con 6 clases, construir los histogramas de frecuencias absolutas y de frecuencias
absolutas acumuladas, los polı́gonos de frecuencia y de frecuencias relativas y las
ojivas de frecuencias acumuladas y de frecuencias relativas acumulada. A partir de
estos gráficos, responda las siguientes preguntas:
i. ¿Aproximadamente cuántos tornillos tienen un diámetro mayor que 34,4 milı́metros?
ii. ¿Aproximadamente cuántos tornillos tienen un diámetro menor que 32,2 milı́metros?
iii. ¿Qué porcentaje aproximado de tornillos tienen un diámetro mayor de 31,6
milı́metros?
iv. ¿Cuántos tornillos tienen un diámetro menor de 32,8 milı́metros?
(d) Estudie la simetrı́a de la distribución de los datos.

s 66. Los datos del archivo fotocopia.sf3 muestran el gasto en fotocopias (en miles de pesos)
de 70 estudiantes universitarios durante un determinado año.
(a) Obtenga la media y la mediana, la moda, el primer y tercer cuartiles, el segundo y
octavo deciles, los percentiles 33, 67, 84 y 93, el sesgo y el coeficiente de variación.
Interprete cada uno de sus resultados.
(b) Formar la tabla de frecuencias con 8 clases para los datos, en donde la primera frontera
inferior sea 0 y la última frontera superior sea $ 1.400.000. A partir de ella, responda
las siguientes preguntas:
i. ¿Cuántos estudiantes han gastando entre $ 175.000 y $ 525.00 en el año?
ii. ¿Qué porcentaje de estudiantes han gastando entre $ 700.000 y $ 1.225.000 en
el año?
iii. ¿Cuántos estudiantes han gastando más de $ 1.050.000 en el año?
iv. ¿Qué porcentaje de estudiantes han gastando más de $ 350.000 en el año?
v. ¿Cuántos estudiantes han gastando menos de $ 875.000 en el año?
vi. ¿Qué porcentaje de estudiantes han gastando menos de $ 525.000 en el año?
(c) Con 8 clases (en donde la primera frontera inferior sea 0 y la última frontera superior
sea $ 1.400.000), construir los histogramas de frecuencias absolutas y de frecuencias
absolutas acumuladas, los polı́gonos de frecuencia y de frecuencias relativas y las
ojivas de frecuencias acumuladas y de frecuencias relativas acumulada. A partir de
estos gráficos, responda las siguientes preguntas:
i. ¿Aproximadamente cuántos estudiantes han gastando más de $ 767.810 en el
año?
ii. ¿Aproximadamente cuántos estudiantes han gastando menos de $ 391.821 en el
año?
iii. ¿Qué porcentaje aproximado de estudiantes han gastando más de $ 601.583 en
el año?
iv. ¿Cuántos estudiantes han gastando menos de $ 1.104.220 en el año?
(d) Estudie la simetrı́a de la distribución de los datos.
(e) ¿Existen valores atı́picos? ¿Cuántos? ¿Cuáles?
(f) Realice una transformación logarı́tmica de los datos e interprete los resultados. Co-
mente las diferencias con los datos sin transformar.
s 67. En el archivo de datos doscientos.sf3 se proporcionan las sesenta y nueve mejores marcas
de todos los tiempos en la prueba de 200 metros lisos masculinos (las marcas se dan en
segundos), ası́ como el nombre del atleta y la fecha en que se consiguió la marca.
1.6 Uso de Statgraphics en la estadı́stica descriptiva 82

(a) Obtenga la media y la mediana, la moda, el primer y tercer cuartiles, el segundo y


octavo deciles, los percentiles 42, 53, 76 y 89, el sesgo y el coeficiente de variación.
Interprete cada uno de sus resultados.
(b) Formar la tabla de frecuencias con 8 clases para los datos, en donde la primera frontera
inferior sea 19,2 segundos y la última frontera superior sea 20,2 segundos. A partir
de ella, responda las siguientes preguntas:
i. ¿Cuántos atletas han recorrido entre 19,325 y 19,7 segundos?
ii. ¿Qué porcentaje de atletas han recorrido entre 19,45 y 19,95 segundos?
iii. ¿Cuántos atletas han recorrido más de 19,7 segundos?
iv. ¿Qué porcentaje de atletas han recorrido más de 19,45 segundos?
v. ¿Cuántos atletas han recorrido menos de 19,95 segundos?
vi. ¿Qué porcentaje de atletas han recorrido menos de 19,825 segundos?
(c) Con 8 clases (en donde la primera frontera inferior sea 19,2 segundos y la última fron-
tera superior sea 20,2 segundos.), construir los histogramas de frecuencias absolutas
y de frecuencias absolutas acumuladas, los polı́gonos de frecuencia y de frecuencias
relativas y las ojivas de frecuencias acumuladas y de frecuencias relativas acumulada.
A partir de estos gráficos, responda las siguientes preguntas:
i. ¿Aproximadamente cuántos atletas han recorrido más de 19,818 segundos?
ii. ¿Qué porcentaje aproximado de atletas han recorrido más de 19,845 segundos?
iii. ¿Qué porcentaje aproximado de atletas han recorrido más de 19,782 segundos?
iv. ¿Aproximadamente cuántos atletas han recorrido menos de 20,03 segundos?
(d) Estudie la simetrı́a de la distribución de los datos.
(e) ¿Se detecta algo peculiar en la distribución de estos datos?
(f) ¿Se detecta algún valor potencialmente atı́pico? ¿Cuál es?

s 68. En el archivo de datos gemelos.sf3 se muestran los resultados de tests de inteligencia


realizados a parejas de gemelos monozigóticos. Los gemelos monozigóticos se forman
por la división en dos de un mismo óvulo ya fecundado y, por tanto, tienen la misma
carga genética. Al mismo tiempo, por razones obvias, es muy frecuente que compartan el
entorno vital y es difı́cil separar ambos factores. En el conjunto de datos, los datos de la
columna A corresponden al gemelo criado por sus padres naturales, los de la columna B al
criado por un familiar u otra persona. Mediante la opción Compare . . . Two Samples . . .
Two Sample Comparison . . . Sample 1=A . . . Sample 2=B . . . Ok, resuelva lo siguiente:
(a) Compare la simetrı́a de los datos de la columna A y B.
(b) Construya un diagrama de caja múltiple para los datos de la columna A y B y describa
sus interesantes propiedades.
(c) ¿Cómo interpreta el coeficiente de variación de ambos conjuntos de datos?

s 69. En el archivo de datos Cavendish.sf3 se presentan 29 medidas de la densidad de la tierra


obtenidas por Henry Cavendish en 1798 empleando una balanza de torsión. La densidad
de la tierra se proporciona como un múltiplo de la densidad del agua.
(a) Utilice los diagramas de tallo y hojas y de cajas para determinar si existe algun valor
atipico.
(b) Proponga, razonando la respuesta, un valor para la densidad de la tierra.

s 70. En 1893 Lord Rayleigh investigó la densidad del nitrógeno empleando en su obtención
distintas fuentes. Previamente habı́a comprobado la gran discrepancia existente entre la
densidad del nitrógeno producido tras la eliminación del oxı́geno del aire y el nitrógeno
1.7 Uso de la calculadora en la estadı́stica 83

producido por la descomposición de ciertos compuestos quı́micos. Los datos del archivo
Rayleigh.sf3 muestran esta diferencia de forma clara. Esto llevó a Lord Rayleigh a in-
vestigar detenidamente la composicion del aire libre de oxı́geno y al descubrimiento de un
nuevo elemento gaseoso, el argón.

(a) Analice numérica y gráficamente estos datos. Preste especial atención a los diagramas
de tallo y hojas y al diagrama de cajas. ¿Hay alguna peculiaridad de la población de
pesos que se manifieste en un diagrama y no en el otro?
(b) Realice diagramas de cajas dividiendo los datos en los pesos obtenidos a partir de aire
y los obtenidos a partir de compuestos quı́micos del nitrógeno. ¿Qué se observa?

s 71. Una de las medidas de seguridad de los reactores nucleares frente a desajustes en el proceso
de generación de energı́a o de extracción de ésta es el disparo del reactor. Esta medida
consiste en la detención del proceso de fusión mediante la inserción en el núcleo del reactor
de venenos neutrónicos. El número de disparos no previstos de un reactor en un periodo es
un indicador de problemas de comportamiento y de fiabilidad en la planta. En el archivo
de datos disparos.sf3 se proporciona, para dos años diferentes (1984 y 1993), el número
de disparos no previstos en sesenta y seis reactores nucleares de los Estados Unidos de
Norteamérica.
(a) Analice numérica y gráficamente, por separado, el número de disparos de reactor en
cada uno de los dos años considerados.
(b) Compare gráficamente las distribuciones de ambas variables ¿Se aprecian diferencias
importantes entre ellas? ¿Qué conclusiones le merece esta comparación?

1.7 Uso de la calculadora en la estadı́stica


El objetivo de esta sección es ilustrar en forma breve el manejo de la calculadora como
herramienta de ayuda en los cálculos estadı́sticos, pero utilizando directamente las fun-
ciones estadı́sticas que están allı́ incorporadas. En particular, las explicaciones se basarán
en la utilización de la calculadora Casio fx-82MS, fx-83MS, fx-85MS, fx-270MS, fx-
300MS y fx-350MS.

Cálculos estadı́sticos
Para realizar cálculos estadı́sticos en la calculadora, tenga en cuenta los siguientes co-
mentarios:
• Utilice las teclas mode 2 para ingresar el modo SD cuando desea realizar cálculos
estadı́sticos con ayuda de las funciones estadı́sticas que hay incorporadas en la
calculadora.
• El ingreso de datos comienza siempre con shift clr 1 = para borrar la
memoria de estadı́sticas.
• Ingrese los datos usando la secuencia de tecla siguiente: <Dato> dt .
• Los
P datos ingresados se usan paraP calcular los valores para n (el total de datos),
x (la suma de todos los datos), x2 (la suma de los cuadrados de los datos), x
(la media), σn (la desviación estándar poblacional) y σn−1 (la desviación estándar
muestral), que pueden llamarse usando las operaciones de tecla indicados a con-
tinuación:
1.7 Uso de la calculadora en la estadı́stica 84

Para llamar este tipo de valor: Realice esta operación:


P 2
Px shift s-sum 1
x shift s-sum 2
n shift s-sum 3
x shift s-var 1
σn shift s-var 2
σn−1 shift s-var 3

P P
Ejemplo 1.7.1 Calcular n, x, x2 , x, σn y σn−1 para los datos siguientes: 55, 54, 51,
55, 53, 53, 54 y 52.
SOLUCION:
• Primero, ingresamos al modo SD con las teclas mode 2.

• Luego, borramos la memoria con la secuencia de teclas shift clr 1 =.


• Posteriormente, ingresamos los datos: 55 dt 54 dt 51 dt 55 dt 53 dt 53 dt
54 dt 52 dt
• Por último, calculamos las medidas estadı́sticas pedidas:
P 2
Suma de los cuadrados de los valores x = 22.805 shift s-sum 1 =
P
Suma de valores x = 427 shift s-sum 2 =
Número de datos n = 8 shift s-sum 3 =
Media aritmética x = 53, 375 shift s-var 1 =
Desviación estándar poblacional σn = 1, 316956719 shift s-var 2 =
Desviación estándar muestral σn−1 = 1, 407885953 shift s-var 3 =

Precauciones con el ingreso de datos


• dt dt ingresa el mismo dato dos veces.
• También puede ingresar múltiples entradas del mismo dato usando shift ; . Por
ejemplo, para ingresar el dato 110 diez veces presiones 110 shift ; 10 dt .
• Mientras ingresa datos o después de completar el ingreso de datos, puede usar
las teclas △ y ∇ para ir visualizando a través de los datos que ha ingresado.
Si ingresa múltiples ingresos del mismo dato usando shift ; para especificar la
frecuencia de datos (número de ı́temes de datos) como se describe anteriormente,
pasando a través de los datos muetra el ı́tem de dato y una pantalla separada para
la frecuencia de datos (freq).
• Los datos visualizados pueden editarse, si ası́ lo desea. Ingrese el valor nuevo y
presione la tecla = para reemplazar el valor antiguo por el valor nuevo. Esto
también significa que si desea realizar alguna otra operación (cálculo, llamada de
resultados de cálculos estadı́sticos, etc.), siempre deberá presionar primero la tecla
ac para salir de la presentación de datos.

• Presionando la tecla dt en lugar de = después de cambiar un valor sobre la


presentación, registra el valor que ha ingresado como un elemento de dato nuevo,
y deja el valor antiguo tal como está.
Cap. 1. Ejercicios complementarios 85

• Puede borrar el valor del dato visualizado usando △ y ∇ , y luego presionando


shift cl . Borrando un valor de dato ocasiona que todos los valores siguientes
se desplacen hacia arriba.

• Después de ingresar los datos estadı́sticos en el modo SD, no podrá visualizar


o editar más los datos ı́temes de datos individuales, después de cambiar a otro
modo.

✍ Ejercicios de la sección 1.7


72. Una determinada persona es propietario de 12 terrenos cuyos tamaños (en kilómetros
cuadrados) son:

21 22 27 36 22 29 22 23 22 28 36 33

Hallar la media y la desviación tı́pica directamente de la calculadora.


73. Los porcentajes de rentabilidad de los fondos de inversión de diez grandes empresas fueron

17,6 26,6 15,6 12,4 22,9 25,0 22,4 18,5 27,9 11,6

Hallar la media y la desviación tı́pica directamente de la calculadora.


74. Directamente de la calculadora, hallar la media y la desviación tı́pica de los datos del
ejercicio 45.
75. Sea dada la siguiente tabla de frecuencias. Hallar la media y la desviación tı́pica directa-
mente de la calculadora.
Dato 5,0 2,5 3,2 2,0
Frecuencia 8 2 6 3

✍ Ejercicios complementarios
76. Diga si la afirmación dada es verdadera o falsa. Justifique siempre su respuesta. En caso
que sea falso, dé un contraejemplo.
(a) La suma de las desviaciones de los valores respecto a la media para cualquier conjunto
de datos es uno.
(b) Si la desviación estándar de un conjunto de datos es 0, entonces, los datos son iguales.
(c) El valor de la desviación estándar es menor que el de la varianza.
(d) No existen datos de tal forma que sean iguales el rango y la desviación estándar.
(e) No existen datos de tal forma que sean iguales el rango y la varianza.
(f) Si el ingreso medio de 25 trabajadores es de $ 2.500.000, entonces, el ingreso total es
de $ 10.000.000.
(g) Si 10 calificaciones tienen una media de 2,0 y 27 calificaciones una media de 3,0,
entonces, la media del grupo total de 37 calificaciones es 2,5.
(h) Existen datos con desviación estándar negativa.
(i) En una distribución simétrica, la media, la mediana y la moda son iguales.
(j) En una distribución positivamente sesgada, la mediana es mayor que la media.
(k) La desviación estándar está dada por las mismas unidades que la media.
Cap. 1. Ejercicios complementarios 86

(l) Toda información numérica proporciona datos cuantitativos.


(m) Toda información no numérica ofrece datos cuantitativos.
(n) Cuando todos los datos son categóricos, la moda es la única medida de tendencia
central que se puede utilizar.
(o) Si el primer cuartil en el primer examen de estadı́stica fue de 3,0, entonces, este valor
indica que el 25% de los estudiantes ganaron el examen.
(p) Si x es un dato de una muestra y s2 es la varianza de esa muestra, entonces, la
expresión x − s2 carece de sentido.
(q) Si un conjunto de datos no es asimétrico, entonces, su coeficiente de sesgo es 1.
77. Un determinado reporte presenta las siguientes observaciones de resistencia de vigas (los
datos están en megapascales):

6,8 7,0 7,6 6,8 5,9 7,2 7,3 6,3 8,1 11,6 9,0 11,8 10,7 11,3
6,5 7,0 6,3 7,9 8,2 8,7 7,8 9,7 7,7 9,7 7,8 7,7 7,4

(a) Construya un diagrama comparativo de tallo y hojas de los datos. ¿Cuál parece
ser un valor representativo de la resistencia? ¿Parecen estar las observaciones muy
concentradas cerca del valor representativo, o sólo están dispersas?
(b) ¿Parece ser razonablemente simétrico el diagrama respecto a un valor representativo,
o describirı́a su forma de otra manera?
(c) ¿Parece haber algún valor extraño o atı́pico?
(d) ¿Qué proporción de observaciones de resistencia fueron mayores que 10 megapascales?

78. El reporte del ejercicio 77 también presenta las siguientes observaciones de resistencia de
cilindros:

9,2 6,6 8,3 7,0 8,3 6,1 5,8 7,8 7,1 7,2
9,8 9,7 14,1 12,6 11,2 7,8 8,1 7,4 8,5 8,9

(a) Construya un diagrama comparativo de tallo y hojas de los datos para vigas y para
cilindros y a continuación conteste las preguntas de la parte (b) a (d) de aquél ejercicio,
sobre las observaciones con cilindros.
(b) ¿En qué aspectos se parecen los dos lados del diagrama? ¿Hay diferencias obvias
entre las observaciones para vigas y para cilindros?

79. Según un diario, en Colombia la donación y disponibilidad de sangre es muy baja, tomando
en cuenta que la captación anual es tan sólo de 485 mil unidades, lo que equivale al 1 por
ciento de la población. ¿Cuál es el promedio de unidades de sangre para 1.000 personas?
80. Un multicentro ha vendido el 70 por ciento de sus metros cuadrados por un valor de 399
millones de dólares. Si el multicentro tiene 190 mil metros cuadrados, ¿cuál es el precio
promedio por metro cuadrado? ¿Cuánto recibirá aproximadamente la cadena por la venta
de todos los locales del multicentro?
81. Si cada colombiano consume cien botellas de 8 onzas de una marca de gaseosa al año,
¿cuánto consume de dicha gaseosa diariamente en botellas y en onzas?
82. Una revista efectuó una encuesta para estudiar sus suscriptores en ciertos paı́ses. Una de
las preguntas pedı́a el valor del portafolio del suscriptor (acciones, bonos, fondos hipote-
carios y certificados de depósitos). La siguiente distribución de frecuencias porcentuales
fue preparada con las respuestas.
Cap. 1. Ejercicios complementarios 87

Inversión (dólar) Frecuencia porcentual


Menos de 15.000 27
15.000 - 40.000 7
40.000 - 90.000 10
90.000 - 240.000 18
240.000 - 490.000 5
490.000 - 990.000 13
990.000 y más 20

(a) ¿Qué porcentaje de suscriptores tienen inversiones menores de 90.000 dólares?


(b) ¿Qué porcentajes de suscriptores tienen inversiones en el intervalo de 40.000 a 490.000
dólares?
(c) ¿Qué porcentajes de suscriptores tienen inversiones de 490.000 dólares o más?
(d) La distribución porcentual de frecuencias se basa en 816 respuestas. ¿Aproximada-
mente cuántos encuestados dijeron tener inversiones entre 40.000 y 990.000 dólares?
(e) Estime la cantidad de encuestados que aseguran tener inversiones menores a 90.000
dólares.

83. De todos los anuncios de bebidas alcohólicas en vallas publicitarias, el 60% son de cerveza,
el 30% de licores con alta graduación, el 6% sobre vino, y el 4% restantes de bebidas
con bajas graduación alcohólica. Construir un diagrama de barras y uno de pastel que
represente esta información.
84. Una sucursal bancaria que se localiza en la zona comercial de una ciudad desarrolló un
proceso para atender a sus clientes durante la hora pico de almuerzo, de 12:00 p.m. a
1:00 p.m. Se registró el tiempo de espera en minutos (definido como el tiempo desde que
el cliente se forma en la cola hasta que lo atienden) para todos los clientes que asisten a
esta hora durante una semana. Se seleccionó una muestra aleatoria de 15 clientes y los
resultados fueron:
2,34 3,02 3,54 3,20 5,13 4,21 5,55 4,77
4,50 6,10 6,19 3,79 5,12 6,46 0,38

(a) Calcule la media, la mediana, la moda, el rango medio, los tres cuartiles, el rango, el
rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación.
(b) ¿Están los datos sesgados? Si es ası́, ¿cómo?
(c) Un cliente entra en la sucursal a la hora del almuerzo y pregunta cuánto tiempo tendrá
que esperar. Éste responde: “es casi seguro que no tendrá que esperar más de cinco
minutos”. Evalúe esta afirmación según los resultados obtenidos en el inciso (a).

85. Un auditor ha comprobado que el valor de la facturas pagadas por cierta empresa norte-
americana tiene una media de 300 dólares, y una desviación tı́pica de 65 dólares. Hallar
un intervalo en el cual se pueda garantizar que se encuentra por lo menos (a) 60%, (b)
80% de estos valores.
86. Los siguientes tiempos fueron registrados por corredores de cuarto de milla de un equipo
universitario de pista (tiempos en minutos).
Tiempos en el cuarto de milla: 1,04 0,90 0,99 0,92 0,98
Tiempos en la milla 4,60 4,70 4,50 4,52 4,35
Después de ver esta muestra de tiempos, uno de los entrenadores comentó que los corre-
dores de cuarto de milla corrı́an con más consistencia. Emplee la desviación estándar y
el coeficiente de variación para resumir la variabilidad de los datos. ¿El coeficiente de
variación indica que es cierta la afirmación del entrenador?
Cap. 1. Ejercicios complementarios 88

87. La máxima temperatura registrada durante el verano en una ciudad europea durante los
últimos 8 años son: 25; 24; 23,2; 25,5; 24,8; 23,6; 26 y 35 ◦ C. ¿Se puede considerar la
última temperatura como fuera de lo normal? Justifique.
88. Dos poblaciones constan de n datos cada una. La media de estas dos poblaciones es
la misma, y también lo son sus desviaciones tı́picas. Si (a) n = 2, (b) n = 3, ¿son
necesariamente iguales los valores numéricos de los datos de las dos poblaciones?
⋆ 89. Sean dados los datos x1 , . . ., xn .
Pn
(a) ¿Para qué valor de c la cantidad i=1 (xi − c)2 es minimizada?
Pn
(b) P
Mediante el resultado del inciso (a), ¿cuál de las dos cantidades i=1 (xi − x)2 y
n 2
i=1 (xi − µ) será menor que la otra (suponiendo que x 6= µ)?

⋆ 90. Supongamos que a cada dato de un conjunto de datos se le suma una constante c, es
decir, supongamos que se agrega una constante c a cada xi en una muestra, obteniendo
yi = xi + c.
(a) Demuestre que la media del nuevo conjunto de datos es igual a la media de los datos
originales más la constante. Es decir, y = x + c.
(b) Demuestre que la mediana del nuevo conjunto de datos es igual a la mediana de los
datos originales más la constante. Es decir,

(Mediana de los yi ) = (Mediana de los xi ) + c.

(c) Demuestre que la varianza del nuevo conjunto de datos es igual a la varianza de los
datos originales. Es decir,

(Varianza de los yi ) = (Varianza de los xi ).

(d) Demuestre que la desviación estándar del nuevo conjunto de datos es igual a la
desviación estándar de los datos originales. Es decir,

(Desviación estándar de los yi ) = (Desviación estándar de los xi ).

⋆ 91. Supongamos que a cada dato de un conjunto de datos se le multiplica una constante, es
decir, supongamos que se multiplica una constante k a cada xi en una muestra, obteniendo
yi = kxi .
(a) Demuestre que la media del nuevo conjunto de datos es igual a la media de los datos
originales multiplicada por la constante. Es decir, y = kx.
(b) Demuestre que la mediana del nuevo conjunto de datos es igual a la mediana de los
datos originales multiplicada por la constante. Es decir,

(Mediana de los yi ) = k (Mediana de los xi ).

(c) Demuestre que la varianza del nuevo conjunto de datos es igual a la varianza de los
datos originales por la constante al cuadrado. Es decir,

(Varianza de los yi ) = k2 (Varianza de los xi ).

(d) Demuestre que la desviación estándar del nuevo conjunto de datos es igual a la
desviación estándar de los datos originales multiplicada por el valor absoluto de la
constante . Es decir,

(Desviación estándar de los yi ) = |k| (Desviación estándarde los xi ).


Cap. 1. Ejercicios complementarios 89

Aplique los resultados de los ejercicios 90 y 91 para resolver los problemas 92 y 93.
92. (a) Una muestra de temperatura para iniciar cierta reacción quı́mica dio una media mues-
tral de 87, 3◦ C y una desviacón estándar muestral de 1, 04◦ C. ¿Cuál son la media y
desviación estándar muestrales medidas en ◦ F? (Sugerencia: F = 95 C + 32.)
(b) Si se suma 5 a cada dato en un conjunto de diez que tiene una desviación estándar
de 7, ¿cuál es la desviación estándar del nuevo conjunto de datos?
(c) Suponga que 3,0 es la media de una muestra de cuatro calificaciones.
i. Si se suma 5 décimas a cada calificación, ¿cuál es la media del nuevo conjunto?
ii. Si cada calificación se multiplica por 1,5 puntos, ¿cuál será la media?
93. El propietario de una pequeña empresa tiene asignado un sueldo de 3.910 euros mensuales.
Los salarios de los empleados aparecen a continuación:

480 510 739 883 859 499 505 1.106 980


1.172 853 487 553 944 920 1.713 1.893 595

(a) ¿Cuál es el salario medio de todos los que trabajan en la empresa incluyendo al
propietario? ¿Cuál es la desviación estándar?
(b) Si se decide aumentar el salario a cada uno en 20 euros, ¿cómo varı́a la media? ¿Y
la desviación estándar?
(c) Si se aumenta sólo el sueldo del dueño en 600 euros, ¿qué ocurre con la media?
(d) Hallar la mediana. ¿Cómo varı́a la mediana si se aumentan todos los sueldos en 300
euros? ¿Y si sólo se aumenta el salario del director en 1.200 euros?

s 94. Se pidió a los alumnos de la facultad de Aministración de Empresas de una prestigiosa


universidad, llenar un cuestionario de evaluación del curso final del mismo. Consiste en una
diversidad de preguntas cuyas respuestas se clasifican en cinco categorı́as: mala, regular,
buena, muy buena, excelente. Una de las preguntas es: En comparación con otros cursos
que has estudiado, ¿cuál es la calidad general de éste? En una muestra de 60 alumnos
que terminaron un curso de estadı́stica durante un determinado semestre de cierto año se
obtuvieron las respuestas que se presentan a continuación (para facilitar el procesamiento
de los resultados del cuestionario en el computador, se usó una escala numérica en la que
1 = mala, 2 = regular, 3 = buena, 4 = muy buena, 5 = excelente):

5 2 4 5 4 4 3 3 4 4 5 1 5 4 3 5 4 5 4 3
2 5 4 2 4 4 4 4 5 5 4 4 4 5 1 5 3 3 4 3
3 4 5 4 3 5 4 5 5 3 4 5 5 2 4 5 3 4 4 3

(a) Comente porqué estos datos son cualitativos.


(b) Elabore un diagrama de frecuencias y una distribución de frecuencias relativas de los
datos.
(c) Trace un resumen de los datos en forma de gráfica de barras y de diagrama circular.
(d) Con base en sus resúmenes, haga comentarios sobre la evaluación general del curso
por parte de los alumnos.

s 95. En el archivo de datos bombeo.sf3 se proporcionan los nombres y potencias instaladas


(en Megawatios) de las veinticuatro centrales españolas de bombeo en funcionamiento en
el año 2.000. Se desea analizar numérica y gráficamente este conjunto de datos.
Cap. 1. Ejercicios complementarios 90

s 96. Una de las principales atracciones turı́sticas del Parque Nacional de Yellowstone (Estado de
Wyoming, Estados Unidos de Norteamérica) es el geiser Old Faithful, cuyo nombre procede
del hecho de que sus erupciones siguen una pauta bastante estable a lo largo del tiempo.
En el archivo de datos parque.sf3 se proporcionan los lapsos de tiempo transcurridos
entre sucesivas erupciones (variable Lapso) y las duraciones de esas erupciones (variable
Duración). Ambas variables se dan en minutos. Estudie numérica y gráficamentre ambas
variables. ¿Se observa alguna peculiaridad en ellas?
s 97. En el archivo de datos pi.sf3 se proporcionan los 200 primeros dı́gitos del número π.
Analice numérica y gráficamente este conjunto de datos.
s 98. En el archivo de datos sismo.sf3 se muestran el tiempo transcurrido (dado en dı́as) entre
sismos sucesivos acaecidos en el mundo. Todos los sismos considerados o tuvieron una
intensidad de al menos 7,5 en la escala de Richter o produjeron más de 1000 vı́ctimas
mortales. Los sismos registrados ocurrieron entre el 16 de diciembre de 1902 y el 4 de
marzo de 1977. Estudie numérica y gráficamente estos datos.
Respuestas a ejercicios impares
seleccionados

Capı́tulo 1
5. (b) Se ha cometido un error. 43. 2,9
7. (a) de barras, circular (b) histograma,
ojiva (c) de barras 45. (a) 963,33; 550; 700; 1.775; 413,3 (b)
Mediana (c) 550; 800; 700 (d) 2.450;
9. (a) Ordinal 803,52; 250
13. (a) 80% (b) 40%
47. (a) [12,05; 39,95] (b) Por lo menos
15. (c) 149 en la clase 138,5 - 157,5 (d)
aproximadamente el 85%
Ojiva
17. (a) 16% (b) 20 (c) 12% (d) 13 49. (a) H:0,9375; G:1,15 (b) H:5,53 ×
23. (a) Ordinal, nominal (b) Distribución 10−3 ; G:0,04 (c) El de Humberto (d)
simétrica unimodal CV(H)=0,075; CV(G)=0,173
25. 190
51. (a) x = 27, 95; e
x = 27, 639;
27. El piloto A s = 8, 0829; R.I = 5, 42 (b)
29. Sı́ x = 27, 944; s = 8, 1061

31. (a) 23.000 - 35.000


53. (c) x = 1, 6; e
x = 2, 6; M0 = 0, 875;
33. Media 46,81 y mediana 36,6 s = 1, 0208
35. (a) Media 1,0297 y mediana 1,0090
(b) Disminuir máximo en 0,385 55. (a) 1.300 (b) 1.710 (c) 1.040 (d)
12.300; 12.710; 12.040 (e) 1.365
37. x = 65, s = 12, 18 (a) 70% (b) 100%
(c) 100%
57. Resumen de cinco números: 166; 317;
39. Sı́ (aplicar regla de Tchebychev) 451; 545; 1.049
Respuestas a ejercicios impares seleccionados 92

59. (a) 1,9; 2,28; 2,79; 3,05; 3,25 (b) La tiende a ser grande si el rango es grande
distribución está sesgada a la izquierda comparada con un valor representativo”
(c) El rango de los datos de 1,35 (en este caso, “grande” significa que el
puntos es grande dado los pequeños porcentaje está más cerca de 100% que
rendimientos porcentuales sobre los que a 0%). Aquı́, el rango es 5,9. Esto
está calculado. Las tasas del mercado constituye un 5, 9/7, 9 ≈ 75% del valor
de dinero varı́an entre bancos. representativo. Por tanto, la variación
61. (a) x = 79, 31; Resumen de cinco es grande. (b) Tendencia a ser sesgada
números: 72; 76,5; 78,5; 80,5; 90 (c) Sı́ a la derecha (c) No parece (d) 15%

73. x = 20, 05; s = 5, 7812; σ = 5, 484 79. 10 unidades


75. x = 3, 694; s = 1, 214; σ = 1, 182
81. 0,273 botellas; 2,19 onzas
77. (a) El valor representativo parece ser
7,9. Regla usada a veces: “La variación 85. (a) [402,7; 197,3] (b) [445,34; 145,34]
Indice

Amplitud de clase, 15 tı́pica, ver desviación estándar, ver desviación


Análisis exploratorio de datos, 67 estándar
Diagrama
Censo, 9 circular o de pastel, 22
Clase, 14 de barras, 23
del p-ésimo punto percentil, 64 de caja y bigotes, 69
mediana, 63 comparativos, 71
modal, 63 de tallo y hoja, 27
Coeficiente Distribución
de sesgo, 55 asimétrica, 53
de asimetrı́a negativamente, 53
de Fisher, 56 positivamente, 53
de Fisher estandarizado, 56 sesgada
de Pearson, 56 negativamente o a la derecha, 56
de variación de Pearson, 51 positivamente o a la izquierda, 56
Cuartil, 42, 64 simétrica, 53

Dato, 8 Elemento de una población, 8


categórico o cualitativo, 11 Escala de medida, 12
numérico o cuantitativo, 11 de intervalo, 13
continuo, 12 de razón, 13
discreto, 12 nominal, 12
Datos ordinal, 12
agrupados, 14 Estadı́stica
de nivel descriptiva o deductiva, 9
de intervalo, 13 inferencial o inductiva, 9
de razón, 13 Estadı́stico, 8
nominal, 12 método, 10
ordinal, 12 Estadı́stica, 4, 5
no agrupados, 14
Decil, 42 Frecuencia, 14
Desviación, 44 acumulada, 21
estándar de clase, 14
muestral, 46 relativa, 21
poblacional, 45 relativa acumulada, 21
media, 47 Frontera
INDICE 94

de clase, 15 Regla
inferior de clase, 15 de Sturges, 16
superior de clase, 15 de Tchevichev, 49
empı́rica, 50
Histograma, 24 Resumen de cinco números, 67
suavizado, 32
Tabla de frecuencias, 14
Individuo de una población, 8 acumuladas, 21
Intervalos de clase, ver clase agrupadas, 14
bivariadas, 21
Lı́mite no agrupadas, 14
de clase, 15 relativas, 21
inferior de clase, 15 relativas acumuladas, 21
real
inferior de clase, ver Frontera inferior Valor atı́pico, 70
de clase extremo, 70
superior de clase, ver Frontera supe- moderado, 70
rior de clase Varianza
real de clase, ver frontera de clase muestral, 46
superior de clase, 15 muestral ponderada, 48
poblacional, 45
Marca de clase, 15 poblacional ponderada, 48
Media
aritmética ponderada, 33
aritmética, 33, 61
armónica, 39
armónica ponderada, 39
geométrica, 37
geométrica ponderada, 37
Mediana, 34, 63
Medidas
de asimetrı́a, 55
de colocación o de posición relativa, 40
de curtosis o apuntamiento, 57
de forma, 53
de tendencia central, 33
Moda, 35, 63
cruda, 63
Muestra, 8

Observación, 8
Ojiva, 26

Parámetro, 8
Percentil, 41, 64
Pictógrafos, ver pictograma
Pictograma, 23
Población, 8
Polı́gono, 25

Rango, 16, 43
intercuartil, 44
medio, 36, 64
Recorrido, ver Rango

También podría gustarte