Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Capitulo 1 Descriptiva LLinás
Capitulo 1 Descriptiva LLinás
1 Estadı́stica descriptiva 3
1.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 ¿Qué significa estadı́stica? . . . . . . . . . . . . . . . . . . . . 4
1.1.2 ¿Por qué usted necesita conocer estadı́stica? . . . . . . . . . . . 5
1.1.3 Algunas aplicaciones de la estadı́stica . . . . . . . . . . . . . . 5
1.1.4 Los computadores, la calculadora y la estadı́stica . . . . . . . . 7
1.1.5 Términos comúnmente usados en estadı́stica . . . . . . . . . . . 8
1.1.6 Estadı́sticas descriptiva e inferencial . . . . . . . . . . . . . . . 9
1.2 Organización de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.1 Organización de datos de acuerdo al tipo . . . . . . . . . . . . 11
1.2.2 Organización de datos de acuerdo a escalas de medidas . . . . . 12
1.2.3 Organización de datos mediante tablas . . . . . . . . . . . . . . 13
1.2.4 Organización de datos mediante representaciones gráficas . . . . 22
1.3 Análisis de datos en tablas de frecuencias no agrupadas . . . . . . . . . 32
1.3.1 Medidas de tendencia central o de centralización . . . . . . . . 33
1.3.2 Medidas de colocación o de posición relativa . . . . . . . . . . . 40
1.3.3 Medidas de dispersión o de variabilidad . . . . . . . . . . . . . 42
1.3.4 Medidas de formas . . . . . . . . . . . . . . . . . . . . . . . . 53
1.4 Análisis de datos en tablas de frecuencias agrupadas . . . . . . . . . . . 61
1.5 Análisis exploratorio de datos . . . . . . . . . . . . . . . . . . . . . . . 67
1.5.1 Resumen de cinco números . . . . . . . . . . . . . . . . . . . . 67
1.5.2 Diagrama de caja y bigotes . . . . . . . . . . . . . . . . . . . . 69
1.6 Uso de Statgraphics en la estadı́stica descriptiva . . . . . . . . . . . . . 73
1.6.1 Análisis de un solo conjunto de datos . . . . . . . . . . . . . . 73
1.6.2 Análisis simultáneo de dos o más conjuntos de datos . . . . . . 79
1.7 Uso de la calculadora en la estadı́stica . . . . . . . . . . . . . . . . . . 83
✍ Ejercicios complementarios . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Contenido 2
Estadı́stica descriptiva
Contenido
1.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 ¿Qué significa estadı́stica? . . . . . . . . . . . . . . . . . . . 4
1.1.2 ¿Por qué usted necesita conocer estadı́stica? . . . . . . . . . 5
1.1.3 Algunas aplicaciones de la estadı́stica . . . . . . . . . . . . 5
1.1.4 Los computadores, la calculadora y la estadı́stica . . . . . . 7
1.1.5 Términos comúnmente usados en estadı́stica . . . . . . . . 8
1.1.6 Estadı́sticas descriptiva e inferencial . . . . . . . . . . . . . 9
1.2 Organización de datos . . . . . . . . . . . . . . . . . . . . . 11
1.2.1 Organización de datos de acuerdo al tipo . . . . . . . . . . 11
1.2.2 Organización de datos de acuerdo a escalas de medidas . . 12
1.2.3 Organización de datos mediante tablas . . . . . . . . . . . . 13
1.2.4 Organización de datos mediante representaciones gráficas . 22
1.3 Análisis de datos en tablas de frecuencias no agrupadas 32
1.3.1 Medidas de tendencia central o de centralización . . . . . . 33
1.3.2 Medidas de colocación o de posición relativa . . . . . . . . . 40
1.3.3 Medidas de dispersión o de variabilidad . . . . . . . . . . . 42
1.3.4 Medidas de formas . . . . . . . . . . . . . . . . . . . . . . . 53
1.4 Análisis de datos en tablas de frecuencias agrupadas . . 61
1.5 Análisis exploratorio de datos . . . . . . . . . . . . . . . . 67
1.5.1 Resumen de cinco números . . . . . . . . . . . . . . . . . . 67
1.5.2 Diagrama de caja y bigotes . . . . . . . . . . . . . . . . . . 69
1.6 Uso de Statgraphics en la estadı́stica descriptiva . . . . 73
1.6.1 Análisis de un solo conjunto de datos . . . . . . . . . . . . . 73
1.6.2 Análisis simultáneo de dos o más conjuntos de datos . . . . 79
1.7 Uso de la calculadora en la estadı́stica . . . . . . . . . . . 83
✍ Ejercicios complementarios . . . . . . . . . . . . . . . . . . . 85
1.1 Introducción 4
☞ Empleo de la estadı́stica
≪La directora de producción de una empresa debe informar a su superior sobre
el número de dı́as promedio que los empleados de la empresa se ausentan del tra-
bajo. Sin embargo, la planta emplea más de dos mil trabajadores, y la directora de
producción no tiene tiempo de revisar los registros personales de cada empleado.
Como asistente usted debe decidir cómo puede ella obtener la información nece-
saria. ¿Qué consejo podrı́a darle?≫
1.1 Introducción
1.1.1 ¿Qué significa estadı́stica?
En la vida diaria los diversos fenómenos de orden económico, social, polı́tico, educa-
cional, e incluso biológico, aparecen, se transforman y finalmente desaparecen. Para
tan abundante y complejo material es preciso tener un registro ordenado y continuo a
fin de conseguir en un momento dado los datos necesarios para un estudio de lo que
ha sucedido, sucede o puede suceder. Para ello se requiere contar con un método, con
un conjunto de reglas o principios, que nos permita la observación, el ordenamiento, la
cuantificación y el análisis de dichos fenómenos.
En el diagrama de la figura 1.1 se presenta un esquema general de las rutas que sugeri-
mos tomar desde la perspectiva de estas tres razones para aprender estadı́stica. En este
esquema se observa que para tener en cuenta la primera razón, se abordan los métodos
referentes a la recopilación, descripción y presentación de la información (que corres-
ponde al capı́tulo 1 de nuestro texto). Para la segunda razón, necesitaremos desarrollar
los conceptos de distribuciones muestrales, estimación y pruebas de hipótesis. Debido
a que estos temas no hacen parte de los objetivos de este texto, sólo se desarrollarán
los conceptos básicos de probabilidad (capı́tulo 2) y algunas distribuciones (capı́tulos 3,
4 y 5), temas que sirven como base para desarrollar lo expresado en la segunda razón.
Para la tercera razón, sugerimos realizar el enfoque al análisis de regresión, modelado
y análisis de series de tiempo que proporcionan métodos para hacer pronósticos (temas
que tampoco tratamos en este texto).
Ingenierı́a
La importancia de la estadı́stica en la ingenierı́a ha sido subrayada por la participación
de la industria en el aumento de la calidad. Muchas empresas se han dado cuenta de
que la baja calidad de un producto (ya sea en la forma de defectos de fabricación, en
una baja confiabilidad en su rendimiento, o en ambos), tiene un efecto muy pronunciado
en la productividad global de la compañı́a, en el mercado y la posición competitiva y,
finalmente, en la rentabilidad de la empresa. Mejorar estos aspectos de la calidad puede
eliminar el desperdicio; disminuir la cantidad de material de desecho, la necesidad de
volver a maquilar las piezas, los requerimientos para inspección y prueba y las pérdidas
por garantı́a. Además de mejorar la satisfacción del consumidor y permitir que la empresa
se convierta en un productor de alta calidad y bajo costo en el mercado. En este sentido,
la estadı́stica es un elemento decisivo en el incremento de la calidad, ya que las técnicas
estadı́sticas pueden emplearse para describir y comprender la variabilidad.1
Contabilidad
Las empresas de contadurı́a pública emplean procedimientos estadı́sticos de muestreo
para llevar a cabo auditorı́as a sus clientes. Por ejemplo, supongamos que una empresa
de contadores desea determinar si la cantidad que aparece en las cuentas por cobrar, en el
balance de un cliente, representa fielmente la cantidad real de ese rubro. Normalmente,
la cantidad de cuentas individuales por cobrar es tan grande que serı́a demasiado lento y
costoso revisar y validar cada cuenta. En casos como éste, regularmente se acostumbra
que el personal del auditor seleccione un subconjunto de las cuentas (llamado muestra).
1
La variabilidad es el resultado de cambios en las condiciones bajo las que se hacen la observa-
ciones.
1.1 Introducción 7
Después de revisar la exactitud de las cuentas muestreadas, los auditores llegan a una
conclusión acerca de si la cantidad que aparece en cuentas por cobrar, en los estados
financieros de sus cliente, es aceptable.
Finanzas
Los asesores financieros recurren a una gama de información estadı́stica para guiarse
en sus recomendaciones de inversión. En el caso de las acciones, revisan una variedad
de datos financieros, que incluyen relaciones de precio a rendimiento y los dividendos.
Al comparar la información de determinadas acciones con la correspondiente acerca
de promedios del mercado accionario, un asesor financiero puede comenzar a sacar
conclusiones sobre si esas acciones están sobre o subevaluadas.
Mercadotecnia
Los escáners en las cajas de los almacenes al detalle se emplean para reunir datos que
tienen muchas aplicaciones de investigación de mercados.
Producción
Con el énfasis actual hacia la calidad, el control de calidad es una aplicación importante
de la estadı́stica en la producción. Para vigilar el resultado de un proceso de producción
se emplean diversas gráficas de control estadı́stico de calidad, en especial, se usa una
gráfica para vigilar el promedio de un producto. Por ejemplo, supongamos que una
máquina llena envases con 12 onzas de una bebida muy conocida. Periódicamente
se selecciona una muestra de envases y se le determina su contenido promedio. Este
promedio, o valor x, se anota en una gráfica, a partir de la cual se observa si es necesario
ajustar o corregir el proceso de producción.
Economı́a
Con frecuencia se pide a los economistas su pronóstico acerca del futuro de la economı́a
o de alguno de sus aspectos. Recurren a diversas informaciones estadı́sticas para ela-
borarlo. Ası́, para pronosticar las tasas de inflación usan indicadores como el ı́ndice de
precios al productor, la tasa de desempleo y la ocupación de la capacidad de producción.
Muchas veces, esos indicadores estadı́sticos se introducen en modelos computarizados
de pronóstico, cuyo resultado son predicciones sobre las tasas de inflación.
La mayor parte del análisis estadı́stico se realiza utilizando una biblioteca de progra-
mas estadı́sticos. El usuario introduce los datos y luego selecciona los tipos de análisis
y la presentación de los resultados que le interesan. Los paquetes estadı́sticos están
1.1 Introducción 8
Definición 1.1.1 Una población es el conjunto total de objetos que son de in-
terés para un problema dado. Los objetos pueden ser personas, animales, producto
fabricados, etc. Cada uno de ellos recibe el nombre de elemento o individuo de
la población
Ejemplo 1.1.2 Todos los niños nacidos en determinado año pueden constituir una población.
Si el director de una gran empresa manufacturera desea estudiar la producción de todas
las plantas de propiedad de la firma, entonces, la producción de todas estas plantas es la
población. ◭
Ejemplo 1.1.4 Si todos los niños nacidos en determinado año constituyen una población,
entonces, los niños nacidos en el mes de febrero pueden constituir una muestra. ◭
Ejemplo 1.1.6 Son ejemplos de datos: la edad de una persona, la respuesta a la pregunta
“¿Usted fuma?”, el tipo de sangre, el salario mensual de una trabajador, etc. ◭
Ejemplo 1.1.8 El ingreso promedio de todos los trabajadores de una determinada empresa
es un ejemplo de parámetro, si todos los trabajadores se consideran como una población. ◭
Ejemplo 1.1.10 El ingreso promedio de todos los asalariados de una determinada sección
de la empresa (viendo a los trabajadores de ésta como una muestra de todos los trabajadores
de esta empresa) es un ejemplo de estadı́stico. ◭
1.1 Introducción 9
Definición 1.1.11 Un censo (palabra derivada del latı́n “ censere” que significa
valuar o tasar) es una enumeración completa de la población.
Ejemplo 1.1.12 Según el censo llevado a cabo por el DANE (Departamento Administra-
tivo Nacional de Estadı́stica), en 1.993 Colombia tenı́a 33.109.840 habitantes, de los cuales
16.296.539 eran hombres y 16.813.301, mujeres. ◭
En general, la estadı́stica descriptiva tiene como función el manejo de los datos recopila-
dos en cuanto se refiere a su ordenación y presentación, para poner en evidencia ciertas
caracterı́sticas en la forma que sea más objetiva y útil. En este sentido, investiga los
métodos y procedimientos y establece reglas para que el manejo de los datos sea más
eficiente y para que la información entregada resulte confiable, y exprese correctamente
ciertos contenidos en un lenguaje que permita que cualquier persona los comprenda y
pueda establecer comparaciones.
Ejemplo 1.1.16 Las situaciones siguientes, que son paralelas a las situaciones descriptivas
dadas anteriormente, requieren estadı́stica inferencial:
(a) Con base en una muestra de estudiantes, cierta universidad desea determinar el por-
centaje de estudiantes que fuman.
(b) Con base en una encuesta de opinión, al polı́tico le gustarı́a calcular la oportunidad
de reelegirse en las próximas elecciones. ◭
1.1 Introducción 10
3. Una empresa desea probar la eficacia de un nuevo comercial de televisión. Como parte
de la prueba, el comercial se pasa a las 8:30 p.m. en un programa de noticias locales
en cierta ciudad. Tres dı́as después, una empresa de investigación de mercado lleva a
cabo una encuesta telefónica para obtener información sobre la frecuencia de recuerdos
(procentaje de los telespectadores que recuerdan haber visto el comercial) y las impresiones
del comercial.
(a) ¿Cuál son la población y la muestra para este estudio?
1.2 Organización de datos 11
(b) ¿Por qué se necesita usar una muestra en este caso? Explique su respuesta.
4. El señor Marimón, candidato a alcalde de un pueblo pequeño, quiere determinar si debe
hacer una campaña más fuerte contra su oponente. Para ello entrevistará a 300 de los
1, 700 votantes registrados. Si los resultados indican que tiene 35% más votos que su
oponente, no intensificar sus esfuerzos de campaña contra su rival.
(a) Identifique la población, la muestra, un estadı́stico y un parámetro.
(b) ¿Qué harı́a el señor Marimón si tuviera el 75% de los votos de la muestra?
5. Se estableció que el costo promedio de los textos escolares en un colegio pequeño durante
el ultimo año fue de $ 354.400, con base en una inscripción de 1.500 estudiantes. Como
un trabajo de clase en el colegio, un grupo de estadı́stica encuestó a 30 estudiantes para
determinar el promedio del costo de un libro de texto en el último año y se concluyó que
fue de $ 399.700.
(a) Identifique la población, la muestra, los parámetros y dos estadı́sticos.
(b) ¿Qué podrı́a concluir el grupo de estadı́stica si el costo promedio de un libro para la
muestra de 30 estudiantes fuera de $ 1.050.000?
No es posible determinar la diferencia o distancia entre los valores medidos en una escala
ordinal. Aun cuando codifiquemos las letras A como 4, B como 3, C como 2 y D como
1.2 Organización de datos 13
1, esto no quiere decir que con A, el estudiante sabe el doble que un estudiante con C.
Todo lo que podemos decir es que la calificación A es mejor o de un grado superior a la
de C, ya que una escala ordinal no admite unidad de distancia.
2. Temperaturas Celsius. Una temperatura Celsius de 80◦ es 40◦ más caliente que
una de 40, pero no es correcto decir que 80◦ es el doble de caliente que 40◦ .
Nótese también que una temperatura de 0 no representa la ausencia de calor. El
punto cero en la escala de temperatura Celsius fue escogido arbitrariamente como
el punto de congelamiento e indica que está presente algo de calor.
3. Fechas. Brian LLinás nació en Mainz (Alemania) en el año 2000, 31 años después
de su padre, el Dr. rer. nat Humberto LLinás (1969). Podemos especificar la
distancia entre estos dos sucesos ordenados, 31 años, pero si existiera el año cero,
no representarı́a la ausencia de tiempo.
Existen dos tipos generales de tablas para reportar datos usando frecuencias, éstas son:
tablas de frecuencias no agrupadas y tablas de frecuencias agrupadas. Ambas tablas se
mencionan simplemente como tablas de frecuencia.2
Ejemplo 1.2.4 La tabla 1.2 es un ejemplo de una tabla de frecuencias agrupada y 10-14 y
15-19 son ejemplos de clases. En ella se presentan las distribuciones de frecuencia para los
datos de tiempo de auditorı́as de fin de año.
2
En vez del término “tablas de frecuencia” se utiliza a menudo “distribución de frecuencias”.
1.2 Organización de datos 15
Las clases de frecuencias agrupadas poseen lo que se llama lı́mites de clase. Consi-
deremos la tabla 1.2. En la clase 10-14, a 10 se le llama lı́mite inferior de clase y
a 14, lı́mite superior de clase. La distancia entre cualquiera de dos lı́mites supe-
riores consecutivos o entre cualquiera de dos lı́mites inferiores consecutivos es llamada
amplitud de clase. La amplitud de cada clase en la tabla 1.2 es 5.
Cada clase en una tabla de frecuencia tiene lı́mites de clases teóricos llamados lı́mites
reales de clase o frontera de clase (término que utilizaremos en el texto). Al
lı́mite superior teórico se le llama frontera superior de clase (o lı́mite real
superior de clase) y al lı́mite inferior teórico de clase se le llama frontera infe-
rior de clase (o lı́mite real inferior de clase). En general, para una clase
dada, cualquier frontera se calcula de la siguiente manera:
lı́mite inf. de la clase dada + lı́mite sup. de la clase anterior
Frontera inferior = .
2
Observemos que la frontera inferior de una clase siempre conincide con la frontera supe-
rior de la clase superior. Por ejemplo, para los datos de la tabla 1.2, la frontera inferior
para la tercera clase es 19,5 (que es la misma frontera superior de la segunda clase) y la
frontera superior para esa misma clase es 24,5 (que es la misma frontera inferior de la
quinta clase). Todas estas fronteras aparecen ya calculadas en la segunda columna de
la tabla 1.3.
Tiempo de auditorı́a (dı́as) Fronteras inferior - superior Frecuencia
10 - 14 9,5 - 14,5 4
15 - 19 14,5 - 19,5 8
20 - 24 19,5 - 24,5 5
25 - 29 24,5 - 29,5 2
30 - 34 29,5 - 34,5 1
El punto medio de cada clase se denomina marca de clase. Es decir, para una clase
dada, la marca de clase se encuentra usando la fórmula
frontera inferior de clase + frontera superior de clase
Marca de clase = .
2
3. Las clases deben ser mutuamente excluyentes, es decir, cada dato debe quedar
exactamente en una sola clase, no en dos al mismo tiempo.
5. Mientras menos clases escojamos será más fácil el trabajo, pero se perderá más
información. Debido a que no hay un acuerdo general entre los estadı́sticos acerca
del número de clases que debe usarse y dado que la elección es arbitraria, para
nuestros fines, escogeremos entre 5 y 20. Una sugerencia útil para el número de
clases está dado por la regla de Sturges.
c = 3, 3(log n) + 1,
8. El dato menor debe caer en la primera clase. Por esta razón, el lı́mite inferior de la
primera clase debe estar en, o un poco antes de, el dato menor. Ası́ que podemos
establecer un acuerdo general sobre las clases de nuestras tablas de frecuencias
1.2 Organización de datos 17
Ejemplo 1.2.5 (Primer modelo: Los datos son enteros) Construya una tabla de fre-
cuencias agrupadas considerando los siguientes datos.
14 21 23 21 16 19 22 25 16 16 24 24 25 19
16 19 18 19 21 12 16 17 18 23 25 20 23 16
20 19 24 28 15 22 24 20 22 24 22 20
SOLUCION:
Paso 1. Primero determinamos el rango R. Como la medida mayor es 28 y la menor es 12,
entonces, el rango es
R = 28 − 12 = 16.
Paso 2. El ejemplo no nos dice con cuantas clases debemos construir la tabla de frecuencias
agrupadas. Podemos seleccionar esta cantidad arbitrariamente (entre 5 y 20) o aplicar
la regla de Sturges (que es la que utilizaremos). Como tenemos n = 40 datos, la regla
de Sturges sugiere usar c = 6 clases, porque el número de clase es
Unidad de medida 1
Punto medio de cada unidad de medida = = = 0, 5,
2 2
entonces, en este caso, la frontera inferior de la primera clase la hallaremos ası́:
Front. inf. de primera clase = dato menor − punto medio de unidad de medida
= 12 − 0, 5 = 11, 5.
Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta que
la frontera inferior de la clase precedente coincide con la frontera superior de la clase
anterior y que la amplitud del intervalo es w = 3. De esta forma, las seis clases
resultan ser las siguientes:
Paso 6. Para determinar la frecuencia de cada clase usamos una columna de marcas de cuenta.
Si uno de los datos cae en una clase, anotamos una marca (|) en la columna corre-
spondiente a esa clase. La tabla 1.4 contiene la tabla de frecuencias agrupadas para
los 40 datos dados.
Ejemplo 1.2.6 (Segundo modelo: Datos con un solo lugar decimal) Forme una dis-
tribución de frecuencias considerando los siguientes datos:
8,9 10,2 11,5 7,8 10,0 12,2 13,5 14,1 10,0 12,2
6,8 9,5 11,5 11,2 14,9 7,5 10,0 6,0 15,8 11,5
SOLUCION:
Paso 1. Como la medida mayor es 15,8 y la menor es 6,0, entonces, el rango es
R = 15, 8 − 6, 0 = 9, 8.
Paso 2. Ya que tenemos n = 20 datos, entonces, por la regla de Sturges debemos usar c = 5
clases, porque el número de clase es
Paso 4. Como la unidad de medida es 0,1 (por tener los datos un sólo lugar decimal) y como
el “punto medio” de cada unidad de medida es
Unidad de medida 0, 1
Punto medio de cada unidad de medida = = = 0, 05,
2 2
entonces, la frontera inferior de la primera clase es
Paso 6. Para determinar la frecuencia de cada clase usamos una columna de marcas de cuenta.
Si uno de los datos cae en una clase, anotamos una marca (|) en la columna correspon-
diente a esa clase. La tabla 1.5 contiene la tabla de frecuencias agrupadas para los 20
datos dados. Además, allı́ también aparecen las marcas de clase X correspondientes
a cada clase. Por ejemplo, la primera marca de clase se calcula ası́:
6, 0 + 7, 9
X= = 6, 95.
2
Cada marca de clase sucesiva se encuentra sumando w = 2 a la marca anterior.
Ejemplo 1.2.7 (Tercer modelo: Datos con dos lugares decimales) Forme una dis-
tribución de frecuencias considerando los siguientes datos:
SOLUCION:
Paso 1. El rango es R = 82, 71 − 17, 89 = 64, 82.
Paso 2. Aplicando la regla de Sturges, obtenemos que el número de clase es
Unidad de medida 0, 01
Punto medio de cada unidad de medida = = = 0, 005,
2 2
y la frontera superior
Tablas bivariadas
Una tabla de frecuencias bivariadas es un arreglo de datos clasificados en dos
categorı́as con sus respectivas frecuencias. Las categorı́as pueden ser números discretos,
intervalos numéricos o valores cualitativos como género, color de cabello o religión.
Ejemplo 1.2.10 Una encuesta sobre el deporte preferido tuvo los resultados en hombres y
mujeres que se muestran en la siguiente tabla bivariada.
Deporte preferido
Béisbol Básquetbol Fútbol Total
Hombres 19 15 24 58
Mujeres 16 18 16 50
Total 35 33 40 108
Ejemplo 1.2.11 La siguiente tabla presenta los datos sobre la cantidad de refrescos de
marca A, B, C, D y E que se vendieron en una tienda.
Esta información se puede presentar a través de un diagrama circular como el que se muestra
en la figura 1.3.
Para trazarlo se dibuja primero un cı́rculo. A continuación, con las frecuencias relativas, se
divide el cı́rculo en sectores o partes que corresponden a la frecuencia relativa de cada clase.
Por ejemplo, como hay 360 grados en un cı́rculo, y como el refresco A tiene 0,38 de frecuencia
relativa, el sector del diagrama circular que le corresponde debe tener (0,38)(360)=136,8
1.2 Organización de datos 23
grados. Se efectúan cálculos semejantes para las demás clases, obteniéndose el diagrama
de la figura 1.3. Los valores numéricos que se ven para cada sector pueden ser frecuencias,
frecuencias relativas o porcentajes. ◭
Pictogramas o pictógrafos
Un pictograma es la representación de datos estadı́sticos por medio de sı́mbolos que
por su forma sugieren la naturaleza del dato.
Ejemplo 1.2.12 El siguiente pictograma representa una información sobre las casas cons-
truidas en algunos años por una firma constructora. En él se hacen las siguientes conven-
ciones: ∆ significa 1.000 casas construidas y Λ significa 500 casas construidas.
Fácilmente se puede interpretar del diagrama que en el año 2.000, la firma construyó 5.000
casas y, el 2.002, construyó 5.500 casas. ◭
Diagrama de barras
Es una representación gráfica en la que cada una de las modalidades del aspecto de
interés se representa mediante una barra. En este gráfico se suelen disponer los datos
en el primer cuadrante de unos ejes coordenados, levantando sobre el eje de las abscisas
una barra para cada modalidad del dato observado. La altura de la barra ha de ser
proporcional a la frecuencia absoluta o relativa, que se representará en el eje de las
ordenadas. Estos diagramas se utilizan tanto para datos categóricos como numéricos.
Ejemplo 1.2.13 La figura 1.4 muestra un diagrama de barras sobre los datos del ejemplo
1.2.11.
Histogramas
Los histogramas son una forma de representación gráfica de una distribución de fre-
cuencia que consiste en representar las frecuencias (absolutas, relativas, acumuladas o
relativas acumuladas) por medio de áreas de rectángulos (barras). Cuando utilizamos fre-
cuencias absolutas, hablamos de histograma de frecuencias; cuando usamos frecuencias
relativas, histogramas de frecuencias relativas, etc. Los histogramas pueden construirse
para distribuciones de frecuencias agrupadas y no agrupadas.
Es importante señalar que aquı́ los datos pueden ser categóricos o núméricos y que
estos se colocan en el horizontal y sus correspondientes frecuencias (absolutas, relativas,
acumuladas o relativas acumuladas) en el eje vertical del diagrama.
Tabla 1.8: Tabla de frecuencia agrupada para los datos del ejemplo 1.2.6
Los histogramas de frecuencias relativas y de frecuencias acumuladas para estos datos son
como se ve en las figuras 1.5 y 1.6, respectivamente.
1.2 Organización de datos 25
Fig. 1.5: Histograma de frecuencias relativas para los datos del ejemplo 1.2.6
Fig. 1.6: Histograma de frecuencias acumuladas para los datos del ejemplo 1.2.6◭
Polı́gonos
Estos gráficos se utilizan para representar series cronológicas y se construye usando una
tabla de frecuencias (absoluta o relativa) agrupadas con marcas de clase. Si se usan
frecuencias absolutas, se denomina polı́gono de frecuencias y si se utilizan frecuencias
relativas, polı́gono de frecuencias relativas.
Ejemplo 1.2.16 Construir un polı́gono de frecuencia para los datos del ejemplo 1.2.6.
SOLUCION:
Consideremos la tabla 1.5 corresponde a la tabla de frecuencias agrupadas para los 20 datos
del ejemplo 1.2.6, con sus correspondientes marcas de clase. Ahora, construimos el polı́gono
con frecuencias absolutas mostrada en la figura 1.7. Las marcas de clase se colocan en el eje
horizontal y las frecuencias en el eje vertical. Notemos que el polı́gono se “baja” en ambos
extremos, colocando el primer y el último puntos en puntos del eje horizontal que distan
w = 2 de las marcas de clase más cercanas.
1.2 Organización de datos 26
Fig. 1.7: Polı́gono de frecuencias para los datos del ejemplo 1.2.6 ◭
Ojivas
La ojiva, llamada también polı́gono de frecuencias acumuladas (o polı́gono de frecuen-
cias relativas acumuladas), se construye a partir de tablas de frecuencias (acumuladas o
relativas acumuladas). Las ojivas ofrecen un medio gráfico para interpolar o aproximar
el número o porcentaje de observaciones menores o iguales que un valor especı́fico.
Ejemplo 1.2.17 La figura 1.8 representa una ojiva con frecuencias acumuladas para los
datos del ejemplo 1.2.6. Para su construcción consideramos la tabla 1.8.
Para localizar los puntos de la ojiva usamos las fronteras superiores de cada clase (ubicadas
1.2 Organización de datos 27
SOLUCION:
En el conjunto de datos se observa que el menor número de anuncios pagados es 88. Ası́ es
que el valor del primer tallo será 8. El número más grande es 156. Entonces, los valores de
los tallos empezarán en 8 e irán hasta 15. El primer número en los datos es 96, que tendrá
como tallo 9 y como hoja 6. Moviéndose por el renglón superior el segundo valor es 93 y el
tercero 88. Después de tomar los tres primeros valores del conjunto de datos, su diagrama
es
8 8
9 6 3
10
11
12
13
14
15
8 8 9
9 6 3 5 6 4 4 7
10 8 7 3 4 6 3
11 7 3 2 7 2 1 9 8 3
12 7 5 7 0 5 5 0 4
13 9 5 2 9 4 6 8
14 8 2 3
15 6 5 5
Lo que suele hacerse es ordenar los valores de las hojas de menor a mayor y, en este caso, el
diagrama final se verá ası́:
8 8 9
9 3 4 4 5 6 6 7
10 3 3 4 6 7 8
11 1 2 2 3 3 7 7 8 9
12 0 0 4 5 5 5 7 7
13 2 4 5 6 8 9 9
14 2 3 8
15 5 5 6
Del diagrama de tallos y hojas se pueden sacar varias conclusiones como, entre otras, las
siguientes:
• Primero, el menor número de anuncios comprados es 88 y el mayor es 156.
• Dos comerciantes compraron menos de 90 anuncios y tres, más de 150.
• Puede observarse, por ejemplo, que los tres comenrciantes que compraron más de 150,
compraron 155, 155 y 156 comerciales.
• La mayor concentración del número de comerciales está entre 110 y 130.
• Hubo 9 comerciantes que compraron entre 110 y 119 anuncios y que 8 compraron
entre 120 y 129.
• También podemos decir que dentro del grupo de 120 a 129 el número de anuncios
comprados se repartió uniformemente.
• Dos comerciantes compraron 120, un comenrciante compró 124, tres compraron 125
y dos, 127.
Para concentrarnos en la forma que toma el diagrama de tallos y hojas, coloquemos un
rectángulo para representar la “cantidad de hojas” de cada tallo. Al hacerlo obtenemos la
siguiente representación:
8 8 9
9 3 4 4 5 6 6 7
10 3 3 4 6 7 8
11 1 2 2 3 3 7 7 8 9
12 0 0 4 5 5 5 7 7
13 2 4 5 6 8 9 9
14 2 3 8
15 5 5 6
Si giramos la página 90 grados en el sentido de las manecillas del reloj, obtenemos una
imagen de los datos que se parece mucho a la de un histograma con clases de 80 a 90,
90 a 100, 100 a 110, etc. Aunque el diagrama de tallos y hojas parece ofrecer la misma
información que un histograma, tiene dos ventajas principales:
1.2 Organización de datos 29
(a) Identifique los datos de cada una de las tres columnas como cuantitativos o cualita-
tivos.
(b) Identifique los datos de la tercera columna como discretos o continuos.
(c) Determine los datos de cada una de las tres columnas como nominales, ordinales, de
intervalo o de razón.
10. Los datos anotados representan los totales, en miles de pesos, gastados en fotocopias por
una muestra de 25 estudiantes durante un semestre.
29 89 77 72 39 47 64 84 88 57 28 63 38
42 36 72 69 68 41 52 39 84 45 52 72
Mediante cinco clases construya una tabla de frecuencias relativas acumuladas agrupadas.
12. Se clasificó a los estudiantes de un programa universitario de acuerdo a con el semestre
que cursa y su preferencia deportiva. Los resultados están registrados en la siguiente tabla.
13. Los siguientes datos representan las cuentas telefónicas mensuales, en miles de pesos, de
25 residentes de un pequeño pueblo:
21,48 21,15 25,12 23,47 27,81 19,80 36,05 28,50 26,66
20,35 30,22 25,49 20,80 23,83 25,35 23,48 25,81 21,07
26,83 30,96 33,38 20,77 19,98 35,87 22,02
128 144 168 109 167 141 149 206 175 123
153 197 127 82 96 171 202 178 147 102
135 191 137 129 158 108 119 183 151 114
111 148 213 130 165 157 185 90 116 172
143 187 166 139 149 95 163 150 154 130
16. Se les pidió a 20 personas que identificaran su preferencia religiosa. Los resultados son:
C P P J J A J C P P C J J C P P A P C J
Construir un diagrama de tallo y hojas, una tabla de frecuencias y con ayuda de esta tabla
responda las preguntas que se formulan en los siguientes incisos:
(a) ¿Qué porcentaje de empresas tienen el porcentaje de rentabilidad de las acciones
mayor que 34,25%?
(b) ¿Cuántas empresas tienen el porcentaje de rentabilidad de las acciones entre 20,25%
y 48,25%?
(c) ¿Qué porcentaje de empresas tienen el porcentaje de rentabilidad de las acciones
entre 34,25% y 41,25%?
(d) ¿Cuántas empresas tienen el porcentaje de rentabilidad de las acciones menor que
27,25% o mayor que 41,25%?
18. Según un estudio reciente, en cierto paı́s mueren cada año 40.000 mujeres a causa del
cáncer de mama y 85.000 a causa de diabetes. Dibujar un diagrama de barras y un
pictograma que represente esta información.
19. En 1.986 se produjeron 50,2 nacimientos por cada mil mujeres con una edad entre 15 y 19
años. En 1.991, el número de nacimiento fue de 62,1 por cada mil mujeres de la misma
edad. Dibujar un diagrama de barras que represente esta información.
20. De las pelı́culas que están en cartelera en una gran ciudad, el 30% son dramas, el 35%
comedias, un 15% son pelı́culas de acción, otro 6% de ciencia ficción, el 10% son policiacas,
y el 4% son de terror. Construir un diagrama circular que represente esta información.
21. La siguiente tabla se refiere a los usos más comunes citados en una encuesta realizada
a usuarios de computadores de pequeñas y medianas empresas. Construir un diagrama
circular para representar esta información.
1.3 Análisis de datos en tablas de frecuencias no agrupadas 32
22. Un reporte sobre galletas reportó las siguientes calificaciones para varias marcas:
Integral: 32 53 50 65 45 40 56 44 62 32
30 40 50 56 30 22 56 68 41
No integral: 47 40 34 62 52 62 53 75 42
75 80 47 56 62 50 34 42 36
Construya una presentación comparativa de tallo y hoja, ponga en una lista los tallos (en
el centro de la página), las hojas integrales a la derecha y las hojas no integrales a la
izquierda. Describa las similitudes y diferencias para los dos tipos.
Media
Ejemplo 1.3.2 Supongamos que tenemos la muestra siguiente de edades en año de prin-
cipiantes de una universidad: 18, 18, 18, 18, 19, 19, 19, 20, 20, 21. Entonces, la media
aritmética de estos datos es
18 + 18 + 18 + 18 + 19 + 19 + 19 + 20 + 20 + 21
x = = 19. ◭
10
Generalmente, para calcular la media de un conjunto de datos, es más cómodo utilizar la
llamada media aritmética ponderada, la cual es un caso especial de la media aritmética.
Esta se puede utilizar cuando se tienen varias observaciones con un mismo valor, lo que
puede ocurrir si se han organizado los datos en una tabla de frecuencias.
Dato x1 x2 ... xn
Frecuencia f1 f2 ... fn
Ejemplo 1.3.4 La media aritmética de los datos del ejemplo 1.3.2 se pueden calcular con
ayuda de la llamada media aritmética ponderada. Para ello, organizamos estos datos en una
tabla de frecuencias no agrupadas, tal como
Dato 18 19 20 21
Frecuencia 4 3 2 1
Luego, aplicamos la definición 1.3.3 y hallamos la media de los datos de la siguiente manera:
(18)(4) + (19)(3) + (20)(2) + (21)(1)
x = = 19. ◭
4+3+2+1
Desventaja de la media
La media tiene una seria desventaja: se ve afectada por los valores extremos del final de
una distribución. Como depende del valor de cada medida, los valores extremos pueden
llevarla a representar defectuosamente los datos.
Mediana y moda
La mediana y la moda son medidas de tendencia central que no tienen propiedades que
les permitan intervenir en desarrollos algebraicos como la media aritmética, por eso son
de menor importancia teórica que ella. Sin embargo, poseen propiedades que ponen en
evidencia ciertas cualidades de un colectivo, cosa que no ocurre con la media aritmética
que promedia todos los valores igualando en un justo reparto todas las observaciones,
es decir, suprimiendo sus individualidades. En cambio, la mediana y la moda destacan
los valores individuales, de lo que se desprende su utilidad e importancia en cierto tipo
de análisis.
Mediana
Para determinar la mediana de un conjunto de n datos, hay que realizar los siguientes
pasos:
• Ordene los datos de menor a mayor con ayuda con ayuda de un diagrama de tallo y hojas
ordenado.
• El valor de la mediana dependerá del hecho de que n sea par o impar:
– Si n es impar, entonces, la mediana será el dato en el centro, es decir, la mediana es
el dato que se encuentra en el lugar n+1
2
;
– si n es par, entonces, la mediana es la media de los dos datos que ocupan posiciones
centrales, es decir, la mediana es el promedio de las datos que se encuentran en los
lugares n2 y n2 + 1.
Nótese que, por ejemplo, n+1
2
no representa uno de los datos, sino el número de valores que
deben contarse para llegar a la mediana.
Ejemplo 1.3.8 Encuentre la mediana para los datos organizados en la siguiente tabla de
frecuencias.
Dato 0 1 2 3 4
Frecuencia 10 10 8 4 8
SOLUCION:
Como los datos se presentan en una tabla de frecuencias no agrupadas, para calcular la me-
diana es conveniente determinar las frecuencias acumuladas de los datos. Estas se encuentran
en la tabla 1.9.
Tabla 1.9: Tabla de frecuencia acumulada para los datos del ejemplo 1.3.8
Moda
Ejemplo 1.3.11 Para los datos del ejemplo 1.2.11, el refresco más popular es el A
(es decir, la moda es el refresco A), puesto que es el que más se compra. ◭
• La moda tiene varias desventajas como medida de tendencia central: una de ellas
es que para un cierto conjunto de datos no puede haber moda. Esta situación
surge cuando todos los datos tienen la misma frecuencia. Otra desventaja es que
la moda puede existir pero no ser única.
Rango medio
Ejemplo 1.3.14 El rango medio del conjunto de datos 32, 38, 45, 44, 27, 36, 40 y 38 está
dado por
27 + 45
Rango medio = = 36,
2
ya que 45 y 27 son los datos mayor y menor, respectivamente. ◭
Media geométrica
La media geométrica es útil para encontrar los cambios procentuales en una serie
de números positivos, inclusive, para encontrar el promedio de proporciones, ı́ndices, o
1.3 Análisis de datos en tablas de frecuencias no agrupadas 37
La media geométrica siempre será menor que la media aritmética salvo en el extraño caso en el que
todos los incrementos porcentuales sean iguales. Si esto último sucede, las dos medias serán iguales.
Ejemplo 1.3.16 El director ejecutivo de una empresa desea determinar la tasa de creci-
miento promedio en los ingresos con base en las cifras dadas en la tabla 1.10. Si la tasa de
creciemiento promedio es menor que el promedio industrial del 10%, se asumirá una nueva
campaña publicitaria.
SOLUCION:
Primero es necesario determinar el porcentaje que los ingresos de cada año representan
respecto de los obtenidos el año anterior. En otras palabras, ¿qué porcentaje del ingreso de
1.992 es el ingreso en 1.993? Esto se encuentra dividiendo los ingresos de 1.992 entre los
de 1.993. El resultado, 1,10 revela que los ingresos de 1.993 son 110% de los ingresos de
1.992. También se calculan los porcentajes para los tres años restantes. Tomando la media
geométrica de estos porcentajes da
Media armónica
Si estos datos x1, . . . , xn tienen frecuencias (ponderaciones o pesos) f1, . . . , fn, res-
pectivamente, entonces, la media armónica (ponderada) de estos datos viene
dada por
f1 + f2 + · · · + fn
Media armónica = f f2 fn
.
x1 + x2 + · · · + xn
1
Ejemplo 1.3.20 Una ama de casa ha ido comprando durante cuatro años arroz a distintos
precios:
• El primer año a $ 1.200 el kilogramo.
• El segundo año a $ 1.400 el kilogramo.
• El tercer año a $ 1.600 el kilogramo.
• El cuarto año a $ 1.700 el kilogramo.
Hallar el costo promedio del arroz durante estos cuatro años, suponiendo que:
(a) El número promedio de kilos consumidos al año por el ama de casa es constante.
(b) La cantidad de dinero gastado al año es constante.
SOLUCION:
Aquı́ nos piden calcular el cociente
Costo total
T := Costo promedio = .
Cantidad total comprada
(a) Si K representa al número de kilos consimidos cada año, entonces, el costo promedio T
será
$ 1.200K + $ 1.400K + $ 1.600K + $ 1.700K
T =
4K
$ 1.200 + $ 1.400 + $ 1.600 + $ 1.700
= = $ 1.475 por kilogramo,
4
1.3 Análisis de datos en tablas de frecuencias no agrupadas 40
Ejemplo 1.3.21 Una persona viaja en auto de Barranquilla a Cartagena con una velocidad
media de 60 kilómetros por hora y regresa (por la misma vı́a) a una velocidad media de 120
kilómetros por hora. Hallar su velocidad media en el viaje completo.
SOLUCION:
Sea D la distancia recorrida por el auto de Barranquilla a Cartagena (que es la misma que
recorre el auto de Cartagena a Barranquilla). Entonces,
D
Tiempo para ir de Barranquilla a Cartagena = ,
60km/h
D
Tiempo para ir de Cartagena a Barranquilla = .
120km/h
Por consiguiente,
distancia total 2D
Velocidad media del viaje total = = D D
tiempo total 60km/h + 120km/h
2D
= D D
= 80km/h,
60km/h + 120km/h
que corresponde3 a la media armónica de 60 km/h y 120 km/h. Notemos que uno hubiera
estado tentado de calcular la media aritmética de 60 km/h y 120 km/h obteniendo 45 km/h,
lo cual es incorrecto. ◭
La mediana, los percentiles, deciles y cuartiles son ejemplos de medidas de posición relativa.
3
Si las distancias recorridas no son iguales, se llega a una media armónica ponderada, en donde
las ponderaciones o pesos son las distancias.
1.3 Análisis de datos en tablas de frecuencias no agrupadas 41
Percentiles
Ejemplo 1.3.24 Calcule (a) el 85-ésimo punto percentil y (b) el 50-ésimo punto percentil
de los siguientes datos que representan los salarios (en millones de pesos) de 12 empleados
en una empresa:
2, 350 2, 450 2, 550 2, 380 2, 255 2, 210 2, 390 2, 630 2, 440 2, 825 2, 420 2, 380.
SOLUCION:
Como primer paso fundamental, debemos ordenar los datos de manera ascendente (preferi-
blemente, con ayuda de un diagrama de tallo y hojas):
2, 210 2, 255 2, 350 2, 380 2, 380 2, 390 2, 420 2, 440 2, 450 2, 550 2, 630 2, 825.
(a) Para determinar el 85-ésimo punto percentil, calcular el ı́ndice i = np/100, con p = 85
y n = 12. Reemplazando, obtenemos que i = 10, 2. En este caso, como i = 10, 2 no
es entero, entonces redondeamos a 11. Por lo tanto, el lugar del 85-ésimo percentil es
el lugar 11. En nuestros datos ordenados corresponde a 2,630. Esto quiere decir que el
85% de los empleados de la empresa ganan $2.630.000 o menos de este valor y que el
25% de estos empleados ganan $2.630.000 o más que este valor.
(b) En este caso, p = 50. Con ello y con n = 12, obtenemos que i = 6 (que es un número
entero). Es decir, el 50% percentil es el promedio de los valores sexto (2,390) y séptimo
(2,420), o sea, 2,405. Observemos que este valor coincide con la mediana del conjunto
de datos. En conclusión, podemos decir que el 50% de los empleados tienen un salario
menor o igual (o mayor o igual) que $2.405.000. ◭
Cuartiles
Como veremos en la siguiente definición, los cuartiles son casos particulares de los per-
centiles.
1.3 Análisis de datos en tablas de frecuencias no agrupadas 42
Definición 1.3.25 Los cuartiles son las medidas de posición relativa correspon-
diente a un conjunto ordenado de datos divididos en cuatro partes (iguales) y se
definen como sigue:
Ejemplo 1.3.26 Calcule todos los cuartiles del conjunto de datos del ejemplo 1.3.24.
SOLUCION:
Como Q2 coincide con la mediana, entonces, Q2 = 2, 405. Calculando los percentelis como
en el ejemplo 1.3.24 podemos verificar que
2, 350 + 2, 380 2, 450 + 2, 550
Q1 = = 2, 365 y Q3 = = 2, 500.
2 2
Estos resultados se interpretan de la siguiente manera: el valor del primer cuartil significa
que el 25% de los empleados gana al menos $2.365.000 o el 75%, gana más de este salario y
el valor del tercer cuartil significa que el 75% de los empleados gana al menos $2.500.000 o
el 25%, gana más de este salario. ◭
Deciles
Al igual que los cuartiles, los deciles también son casos particulares de los percentiles.
Definición 1.3.27 Los deciles son las medidas de posición relativa correspondi-
ente a un conjunto de datos (ordenado ascendentemente) que está dividido en diez
partes, de tal forma que cada parte contiene aproximadamente 10% de las medidas.
Fig. 1.9: Dispersión de los salarios anuales de los empleados de dos empresas
(compárese con los datos de la tabla 1.11)
Rango
Es la medida de dispersión más simple. Esta medida ya ha sido utilizada en secciones
anteriores.
Su ventaja es que es fácil de calcular. Su desventaja es que considera sólo dos de la gran
cantidad de datos que hay en un conjunto (de datos), ignorando ası́ el resto de los datos.
Rango intercuartil
Una medida de dispersión que elimina la influencia de los valores extremos de los datos
es el rango intercuartil.
1.3 Análisis de datos en tablas de frecuencias no agrupadas 44
R.I = Q3 − Q1.
El rango intercuartil contiene el 50% de los datos, dejando a la izquierda el 25% inferior de los
datos y a la derecha, el 25% superior.
Desviación
Ejemplo 1.3.33 Calcule la desviación de los puntaje para los datos siguientes, que repre-
senten el número de defectos encontrados por un inspector de automóviles en una lı́nea de
ensamblaje en los últimos cinco automóviles producidos: 1, 4, 6, 6 y 8.
SOLUCION:
Se puede determinar que la media muestral es x = 5. Las desviaciones de los valores se
presentan en la tabla siguiente:
x x−x
1 1-5 = -4
4 4-5 = -1
6 6-5 = 1
6 6-5 = 1
8 8-5 = 3
Una propiedad importante que podemos resaltar con respecto la desviación de un dato
es la siguiente:
Teorema 1.3.34 La suma de las desviaciones de los valores para cualquier conjunto
de números x1, . . . , xn es igual a cero. Esto es, (x1 − x) + · · · + (xn − x) = 0.
La desviación de los valores puede usarse para describir la dispersión de una distribución
dada de datos cuantitativos. Recordemos que la desviación de un valor representa
la diferencia entre un dato y la media del conjunto de datos del cual proviene. En
consecuencia, podrı́amos pensar que el promedio de todas las desviaciones de los valores
proporciona una medida de la dispersión de todos los valores, pero eso no ocurre, pues
ya se ha dicho en el teorema 1.3.34 que la suma de todas las desviaciones de los valores
es 0.
Ejemplo 1.3.37 Encuentre la varianza y desviación de los datos 62, 80, 83, 72 y 73 si estos
constituyen una población.
SOLUCION:
La media de estos datos es µ = 74. Por lo tanto, la varianza poblacional está dada por
(62 − 74)2 + (80 − 74)2 + (83 − 74)2 + (72 − 74)2 + (73 − 74)2 266
σ2 = = = 53, 2.
5 5
√
La desviación estándar de estos datos es σ = 53, 2 = 7, 29.
Al igual que la varianza poblacional, la varianza muestral se puede calcular de otra ma-
nera como se ilustra en el siguiente
Ejemplo 1.3.40 Encuentre la varianza y desviación estándar de los datos del ejemplo 1.3.37
si estos constituyen una muestra de una población.
SOLUCION:
Nuevamente, x = 74. Por lo tanto, la varianza muestral está dada por
(62 − 74)2 + (80 − 74)2 + (83 − 74)2 + (72 − 74)2 + (73 − 74)2 266
s2 = = = 66, 5
5−1 4
√
y la desviación muestral, por s = 66, 5 = 8, 15. Observemos cómo cambia el valor de la
varianza (y, por consiguiente, también la desviación muestral) al considerar los datos como
una muestra o como una población. ◭
1.3 Análisis de datos en tablas de frecuencias no agrupadas 47
Desviación media
Otro tipo de medida de dispersión es la que se define a continuación.
Ejemplo 1.3.42 Para la población 2, 2, 4, 5 y 2 de las edades (en años) de cinco casas, la
media es x = 3, con lo que la desviación media es DM = 6/5 = 1, 2 años. Ası́, la edad de
cada casa difiere de la media de la población en un promedio de 1,2 años. ◭
La varianza y la desviación estándar tienen una limitación seria: pueden verse afec-
tadas en presencia de observaciones aberrantes, pues ambas dependen de la media, que
se modifica por las medidas extremas. Cuando en un conjunto de datos están presentes
observaciones aberrantes y se requiere una medida resistente a ellas, debe utilizarse el
rango intercuartil.
1.3 Análisis de datos en tablas de frecuencias no agrupadas 48
Ejemplo 1.3.44 Dados los siguientes datos de una población, hallar la media, varianza y
desviación estándar.
Dato 28 31 34 37 40 43 46
Frecuencia 1 10 14 33 14 7 3
SOLUCION:
Primero construimos la tabla 1.12 que nos ayudará en los cálculos.
Además, P
2 f(x − µ)2 1.188
σ = P = = 14, 4878
f 82
√
y de esta forma σ = 14, 4878 = 3, 806. ◭
1.3 Análisis de datos en tablas de frecuencias no agrupadas 49
Ejemplo 1.3.46 Consideremos los datos de la empresa 1 de la tabla 1.11(a), que tenı́a una
media de 33.000 dólares y una desviación estándar de 1.554 dólares. La regla de Tchebychev
nos dice que, para esta población, al menos el 55% de los salarios deben estar a una distancia
de la media menor que (1,5)(1.554)=2.331 dólares. En otras palabras, dentro del intervalo
que va desde 31.169 dólares a 35.831 dólares están por lo menos el 55,6% de los salarios.
Analogamente, dentro del intervalo que va desde 30.392 a 36.608 dólares se encuentran por
lo menos el 75% de los salarios. ◭
2, 54 2, 55 2, 50 2, 60 2, 51 2, 52 2, 70 2, 40 2, 36 2, 53 2, 54 2, 52 2, 51 2, 55.
Si el inspector decide excluir los clavos que están fuera del intervalo x ± 2s, ¿cuál es el
porcentaje de clavos excluidos? ¿Se verifica la regla de Tchebychev?
SOLUCION:
Vemos que x = 2, 52 y s = 0, 07. Como deseamos desechar los clavos que están fuera
del intervalo x ± 2s, es decir, [2, 38; 2, 66], observamos que dos clavos no pertenecen a ese
intervalo (los de longitud 2,70 y 2,36) que corresponde al 14, 28% de la muestra. La regla
de Tchebychev afirma que por lo menos el 75% de los clavos deberán estar en el intervalo
x ± 2s, es decir, a lo más el 25% estarán fuera de dicho intervalo, lo cual verifica la regla de
Tchebychev. ◭
Teorema 1.3.48 (Regla empı́rica) Para las poblaciones que tengan forma acam-
panada, aproximadamente el 68% de los valores de la población se encuentran a una
distancia de la media menor que una desviación estándar, y aproximadamente el
95% están a una distancia de la media menor que dos veces la desviación tı́pica
(compárese con la figura 1.11).
Ejemplo 1.3.49 Supongamos que tenemos una población de salarios que tienen forma
acampanada con una media de 33.000 dólares y una desviación estándar de 1.554 dólares.
La regla empı́rica estimarı́a que aproximadamente el 68% de los salarios estarán dentro del
intervalo que va desde 31.946 dólares a 35.054 y que aproximadamente el 95% estará dentro
del intervalo que va desde 30.392 a 36.608 dólares. ◭
El coeficiente de variación
Para comparar las dispersiones de dos o más conjuntos de valores no podemos confrontar
simplemente las varianzas o las desviaciones estándar respectivas, puesto que estos coe-
ficientes de dispersión vienen afectados por la escala de medida del respectivo valor. Es
necesario, por tanto, eliminar esa influencia convirtiendo dichos valores en números sin
1.3 Análisis de datos en tablas de frecuencias no agrupadas 51
Fig. 1.11: Ilustración de la regla empı́rica para una población con forma acampanada
unidades de medidas. Una medida que cumple perfectamente con este cometido es el
llamado coeficiente de variación de Pearson.
Ejemplo 1.3.51 Los siguientes datos representan el promedio de millas por galón diario
por cinco dı́as para un determinado auto: 20, 25, 30, 15, 35. Encuentre el coeficiente de
variación e interprete su respuesta.
SOLUCION:
La media y desviación estándar de millas por galón están dadas por x = 25 y s = 7, 9,
respectivamente. Por tanto, el coeficiente de variación de estos datos es
s
7, 9
CV = · 100% = · 100% = 31, 6%.
x 25
El coeficiente de variación es muy útil cuando se comparan dos o más conjuntos de datos
que se miden con las mismas unidades, pero son tan diferentes que una comparación
directa de las desviaciones estándar respectivas no ayuda mucho. Esto se ilustra en el
siguiente
Ejemplo 1.3.53 Un inversionista potencial piensa adquirir acciones en una de dos compañı́as
A o B, listadas en la Bolsa de Valores de Nueva York. Si ninguna de las compañı́as ofrece
dividendos a sus clientes y ambas tienen igual clasificación (según varios servicios de in-
versión) en términos de crecimiento potencial, el posible inversionista quizás considere la
volatilidad (variabilidad) de ambas acciones para ayudar en la decisión de inversión. En los
últimos meses, el precio promedio de las acciones en la compañı́a A fue de 50 dólares con una
desviación estándar de 10 dólares. Además, durante el mismo periodo, el precio promedio
1.3 Análisis de datos en tablas de frecuencias no agrupadas 53
de las acciones en la compañı́a B fue de 12 dólares con una desviación estándar de 4 dólares.
¿Cómo puede determinar el inversionista cuáles acciones son más variables?
SOLUCION:
En términos de la desviación estándar, el precio de las acciones de A parece más volátil
que el de las acciones de B. Sin embargo, como los precios promedio por acción de las dos
compañı́as son tan diferentes, serı́a conveniente que el inversionista potencial considere la
variabilidad en precio respecto al promedio a fin de examinar la volatilidad/estabilidad de
ambas acciones.
Simétrı́a y asimétrı́a
Una distribución de frecuencias será simétrica o asimétrica según lo sea su representación
gráfica.
• Para distribuciones que tengan más de una moda, la media es igual a la mediana
si y sólo si la representación gráfica de la distribución es simétrica.
Medidas de asimetrı́a
Las medidas de asimetrı́a o coeficientes de sesgo tienen como finalidad la
de elaborar un indicador que permita establecer el grado de simetrı́a (o asimetrı́a) que
presenta una distribución, sin necesidad de llevar a cabo su representación gráfica. La
medida de asimetrı́a más utilizada en la práctica es el llamado coeficiente de asimetrı́a
de Pearson.
1.3 Análisis de datos en tablas de frecuencias no agrupadas 56
• Los datos en la figura 1.13(a) son simétricos. Por esta razón, el coeficiente de
sesgo es cero.
Ahora bien, por diversas razones, el coeficiente de asimetrı́a de Pearson tan sólo es apli-
cable en las distribuciones de forma acampanada y unimodales . En distribuciones de
otro tipo se puede utilizar, entre otros, los llamados coeficiente de asimetrı́a de Fisher
y coeficiente de asimetrı́a de Fisher estandarizado.
4
Téngase en cuenta que, en las distribuciones moderadamente asimétricas, la mediana siempre
se sitúa entre la media y la moda.
1.3 Análisis de datos en tablas de frecuencias no agrupadas 57
27. Un piloto A de la Fórmula 1 ganó 60 carreras de las 152 en las cuales participó, mientras
que otro piloto B ganó 52 carreras de las 115 en las que participó. ¿Cuál de los dos es
mejor piloto? Explique su respuesta.
28. Durante cierto dı́a caluroso en Barranquilla, se registró una temperatura de 38 ◦ C a las
3:00 p.m. De repente un viento frı́o se hizo acompañado con lluvias que hizo descender
la temperatura a 25 ◦ C a las 3:35 p.m. Se puede afirmar que la temperatura promedio de
ese da fue de 31,5 ◦ C? Justifique sus respuestas.
29. Según el recibo de energı́a eléctrica, los consumos de los últimos cinco meses de un usuario
son: 1, 6, 33, 40 y 51 Kwh, respectivamente. Para el sexto mes, el recibo le llega con
una lectura estimada (no real) de 50 Kwh. ¿Debe el usuario reclamar ante la empresa de
energı́a eléctrica? ¿Por qué?
30. Una cadena de grandes almacenes tiene diez establecimientos. Se analiza el volumen
de ventas durante el perı́odo de navidad y se comparan con las obtenidas en el mismo
perı́odo del año anterior. Los porcentajes de incrementos de ventas en dólares de los diez
establecimiento fueron
10,2 3,1 5,9 7,0 3,7 2,9 6,8 7,3 8,2 4,3
73,7 36,6 109,9 4,4 33,1 66,7 30,0 81,5 22,2 40,4 16,4
Determine el valor de la media y mediana muestrales. ¿Por qué la mediana es tan diferente
de la media?
34. Los valores de presión sanguı́nea se reportan a veces a los 5 mm Hg más cercanos (100,
105, 110, etc.). Suponga que los valores reales de presión sanguı́nea para nueve individuos
seleccionados al azar son:
35. La propagación de grietas por fatiga en diversas partes de aeronaves ha sido objeto de
profundo estudio en años recientes. Los datos que aparecen a continuación constan de
tiempo de propagación (horas de vuelo/104 ) para llegar a un tamaño de grieta dado en
agujeros sujetadores que se usan en aeronaves militares:
0,915 0,937 0,983 1,007 0,736 0,863 0,865 0,913
1,132 1,140 1,153 1,253 1,394 1,011 1,064 1,109
36. Una manifestación interesante de la variación surge cuando se efectúan los análisis de
emisión de gases en los vehı́culos automotores. Los requisitos de costo y tiempo del
procedimiento federal de prueba (PFT) en cierto pais evitan la difusión de su uso en los
programas de inspección vehicular. Como resultado, muchas agencias han desarrollado
análisis menos costosos y más rápidos con la esperanza de reproducir los resultados.
Según un artı́culo de una prestigiosa revista, se dice que la eceptación del PFT como
patrón de excelencia ha conducido a la creencia de que las mediciones repetidas en el
mismo vehı́culo darán resultados idénticos (o casi). Los autores del artı́culo aplicaron el
PFT a siete vehı́culos caracterizados como “grandes emisores”. Los resultados de uno de
esos vehı́culos son los siguientes:
HC (g/mi) 32,2 32,5 13,8 18,3
CO (g/mi) 232 236 118 149
(a) Calcule las desviaciones estándar muestrales de las observaciones de HC y CO. ¿Parece
justificada la creencia general?
(b) Compare los coeficientes de variación de cada conjunto de datos para determinar
cuáles presentan mayor o menor variación.
57 31 30 41 22 58 24 50 29 52
37 32 44 49 29 44 40 46 29 31
41. En una prueba de rendimiento y consumo de gasolina se probaron 13 autos, durante 400
millas, en condiciones de tránsito en ciudad y en el campo; de lo anterior se obtuvieron
los siguientes datos en millas por galón.
5 6 5 8 4 0 2 3 7 5 6 4 5 3 6 7 1 2 3 0 3
¿Qué la medida de tendencia central le servirá mejor para su propósito? ¿Cuál es su valor
numérico?
45. La tabla siguiente contiene los salarios (en miles de pesos) de 30 trabajadores.
46. Una maestra hizo un examen con el mismo grado de dificultad en cada uno de sus tres
grupos. Con los resultados determinó las tres medianas y las promedió para estimar el
punto central de su habilidad profesional. ¿Puede engañarse al hacer esto? Diga por qué.
47. Suponga que una muestra tiene media 26 y desviación estándar 3,1.
1.4 Análisis de datos en tablas de frecuencias agrupadas 61
(a) Determine un intervalo que contenga al menos 95% de las medidas de las muestras.
(b) ¿Cuál es el mı́nimo porcentaje de la muestra que está contenido en el intervalo 18 -
34?
48. Suponga que una muestra tiene media 542 y desviación estándar 10,4.
(a) Determine un intervalo que contenga al menos 93% de las medidas de las muestras.
(b) ¿Cuál es el mı́nimo porcentaje de la muestra que está contenido en el intervalo 523,22
- 567,22?
49. La tabla siguiente da una muestra de los tiempos de recorrido (en minutos) de un camino
de 2,5 millas para el carro de Humberto y el de Greyci.
(a) Encuentre el promedio de los tiempos de recorrido para cada uno de los carros.
(b) Calcule la varianza de los tiempos de recorrido para cada uno de los carros, respecti-
vamente.
(c) ¿Qué auto tuvo un desempeño más consistente, si la consistencia se mide con la
varianza?
(d) Encuentre el coeficiente de variación para cada carro y comente al respecto.
50. Una gran lecherı́a vigila continuamente el nivel de contenido de grasa en su producto. El
porcentaje de grasa no debe desviarse mucho del 1% de la leche, siendo aceptable una
desviación estándar del 8%. Se obtuvo una muestra de 20 cartones de leche y se registró
el porcentaje grasa en cada uno. Los resultados se anotan a continuación:
1,97 1,80 2,05 2,23 1,65 1,86 1,85 2,25 2,01 1,90
2,14 1,93 2,08 2,17 1,91 1,93 2,02 2,09 2,04 2,07
Ejemplo 1.4.1 Los datos siguientes representan el número de personas que han entrado a
un establecimiento diariamente durante un periodo de 25 dı́as.
60 36 61 56 19 35 51 42 21 28 33 67 30
49 57 54 59 28 63 38 15 24 35 46 53
Los √
datos han sido agrupados en la tabla de frecuencias agrupadas 1.13 usando la fórmula
c = n para el número de clases.
(a) Calcular la media x del número de personas que entran por dı́a.
(b) Calcular la media aproximada xa del número de personas que entran por dı́a.
SOLUCION:
(a) Se puede comprobar que la media de los datos es x = 42, 4.
(b) Primero debemos calcular la marca de cada clase (recordemos que una marca de clase
es el punto medio de cada intervalo de clase). Cada marca de clase se multiplica por su
frecuencia correspondiente, como se muestra en la tabla 1.14.
el cual es sólo un valor aproximado para la media de las 25 medidas muestrales originales.
La aproximación se considera buena comparada con el valor exacto x = 42, 40, obtenido
en la parte (a). ◭
1.4 Análisis de datos en tablas de frecuencias agrupadas 63
en donde
Es decir,
25 − 10
Mediana = 69, 5 + · 10 = 77, 83.
18
en donde
Ejemplo 1.4.2 El rango promedio aproximado para los datos del ejemplo 1.4.1 es
26, 5 + 47, 5
Rango promedio = = 74. ◭
2
en donde
1.4 Análisis de datos en tablas de frecuencias agrupadas 65
Ejemplo 1.4.3 Calcular la varianza y desviación estándar de los datos del ejemplo 1.4.1.
SOLUCION:
Como antes, debemos encontrar las marcas de clase m y con ello construimos la tabla 1.16,
siendo µa la media poblacional aproximada de los datos.
53. Durante una epidemia de gripe, los tiempos de espera en cierto centro de salud fueron
más largos de lo habitual. La siguiente tabla resume la distribución de los tiempos de
espera para una muestra de 24 pacientes que visitaron el centro de salud durante este
perı́odo.
54. Se dispone de la siguiente información acerca de las rentas familiares (en millones de
pesos) en los hogares de cierta ciudad.
(d) Si se aumenta posteriormente las ayudas en once mil euros a cada proyecto, ¿cómo
afecta a los incisos anteriores?
(e) Si para el año siguiente las ayudas aumentan un 5% sobre el valor inicial, man-
teniéndose el criterio del reparto, ¿cuál será ahora la ayuda media? ¿Sigue siendo
representativa?
(a) ¿Cuál era el número exacto de personas que habı́an en la sala del concierto?
(b) ¿Cuál es la media aproximada de las personas que asistieron al concierto?
(c) ¿Qué edad tienen el 77,5% de las personas?
(d) ¿Qué porcentaje de personas tienen una edad entre 11,5 y 20,5?
(e) ¿Qué porcentaje de personas tienen una edad mayor de 23,5?
(f) ¿Cuántas personas tienen una edad entre 17,5 y 20,5?
(g) ¿Cuántas personas tienen una edad mayor que 14,5?
(h) ¿Qué interpretación tiene el valor de la mediana y el de los cuartiles?
5
En general, las técnicas del análisis exploratorio de datos consisten en operaciones aritmé-
ticas sencillas y representaciones fáciles de trazar, que pueden emplearse para resumir con rapidez los
datos. Muchos autores presentan el diagrama de tallo y hoja como técnica del análisis exploratorio
de datos.
1.5 Análisis exploratorio de datos 68
A partir del resumen de cinco números se pueden obtener, entre otras, dos medidas de
tendencia central (la mediana y el rango medio) y dos medidas de variación (el rango
intercuartil y el rango) para tener una mejor idea de la forma de la distribución.
Ejemplo 1.5.4 Utilice el resumen de cinco números para estudiar la forma de la dis-
tribución de los datos del ejemplo 1.3.24.
SOLUCION:
En el ejemplo 1.3.26 calculamos que el primer cuartil es 2,365; la mediana es 2,405 y el
tercer cuartil es 2,500. Por tanto, el resumen de cinco números es
De las situaciones que se presentaron en los teoremas 1.5.2 y 1.5.3 es claro que los salarios
están sesgados a la derecha porque la distancia del valor mı́nimo a Q1 (es decir, 0,155) es
bastante menor que la distancia de Q3 al valor máximo (es decir, 0,325).
Además, si se compara la mediana (2,405) y el rango medio (2,5175), se observa que el
rango medio se mueve debido al valor extremo 2,825, y es por mucho la más grande de estas
medidas de resumen (compárese con la figura 1.14). ◭
1.5 Análisis exploratorio de datos 69
Fig. 1.14: Diagrama de barras para los datos del ejemplo 1.5.4
El diagrama de caja y bigotes divide los datos en cuatro áreas de igual frecuencia, una
caja central dividida en dos áreas por una lı́nea vertical y otras dos áreas representadas
por dos segmentos horizontales (bigotes) que parten del centro de cada lado de la caja.
La caja central encierra el 50% de los datos. En el interior de caja central se acostumbra
a representar la media con un signo más y se dibuja la mediana como una lı́nea vertical
en el interior de la caja (compárese con la figura 1.15). Si esta lı́nea está en el centro de
1.5 Análisis exploratorio de datos 70
la caja no hay asimetrı́a en los datos. Los lados verticales están situados en los cuartiles
inferior y superior de los datos. Partiendo del centro de cada lado vertical de la caja se
dibujan los dos bigotes, uno hacia la izquierda y el otro hacia la derecha, teniendo en
cuenta lo siguiente:
Si hay datos que se encuentran a la izquierda del bigote izquierdo y a la derecha del
bigote derecho se les denomina valores atı́picos.
Definición 1.5.5 Todo valor que está más alejado del 1,5R.I del cuarto más
cercano se dice que es atı́pico. Un valor atı́pico es extremo si está a más de
3R.I del cuarto más cercano y es moderado en otro caso.
Un valor atı́pico puede ser un elemento para el cual se haya anotado su valor en forma
errónea. Si es ası́, puede corregirse antes de proseguir con el análisis. También, un valor
atı́pico puede ser uno que por error se incluyó en el conjunto de datos y, en estos casos,
debe eliminarse. Por último, puede ser tan sólo un elemento poco común que se haya
anotado en forma correcta y que sı́ pertenece al conjunto de datos. En estos casos ese
elemento debe mantenerse.
Ejemplo 1.5.6 Construir un diagrama de caja y bigotes para los datos del ejemplo 1.5.4.
SOLUCION:
Tenemos que el rango intercuartil es R.I = 2, 500 − 2, 365 = 0, 135, de donde se obtiene que
la longitud de los bigotes es 1, 5R.I = 0, 2025. Ahora
• El bigote de la izquierda tiene un extremo en el primer cuartil Q1 = 2, 365 y el otro
en el valor Q1 − 1, 5R.I = 2, 1625.
• El bigote de la derecha tiene un extremo en el tercer cuartil Q3 = 2, 500 y el otro en
el valor Q3 + 1, 5R.I = 2, 7025.
La figura 1.16 es el diagrama de caja y bigotes pedido. En el diagrama podemos observar
que hay un valor atı́pico (el valor 2,825) porque éste se encuentra por fuera de los bigotes.
Debido a que Q3 + 3R.I = 2, 905, este valor atı́pico es moderado porque está 2,825 es menor
que 2,905. Además, podemos afirmar que la distribución de frecuencias está sesgada a la
derecha porque el área del rectángulo a la izquierda de la mediana es menor que el del
rectángulo a la derecha de la mediana. Esto también se puede concluir al tener en cuenta
que media es mayor que la mediana. ◭
1.5 Análisis exploratorio de datos 71
Fig. 1.16: Diagrama de caja y bigotes para los datos del ejemplo 1.5.4
Ejemplo 1.5.7 La figura 1.17 contiene los diagramas de caja de las calificaciones en un
examen de matemáticas para quince estudiantes de primer curso de primaria, quince de
segundo y quince de tercero.
En el diagrama puede apreciarse que no hay valores atı́picos en ninguno de los tres gru-
pos. Los estudiantes del tercer curso consiguieron la mejor mediana, pero sus calificaciones
tienen una variabilidad considerablemente que la de los otros grupos. Otro hecho que llama
la atención es la gran cantidad de calificaciones bajas obtenidas por los estudiantes de primer
curso. Finalmente, podemos afirmar que las distribuciones de frecuencias de los tres con-
juntos de datos están sesgadas a la izquierda. ◭
1.5 Análisis exploratorio de datos 72
166 342 426 492 562 298 264 631 451 1.049 317 545 512
451 1.023 852 809 596 744 652 576 1.112 971
1.278 820 511 907 1.251 941 975 400 711 1.174
60. Una de las metas de toda administración es ganar lo más posible en relación con el
capital invertido en la empresa. Una medida del éxito en alcanzarla es el retorno sobre
la aportación, que es la relación de la ganancia neta entre el valor de las acciones. A
continuación se muestran los porcentajes de ganancia sobre las acciones para 25 empresas.
62. Dos modos que usan las empleados para ir a trabajar diariamente son el transporte público
y el automóvil. A continuación vemos unas muestras de tiempos de cada modo. Las cifras
son minutos:
Transporte público: 25 29 32 41 34 28 29 32 37 33
Automóvil: 30 31 32 35 33 29 31 33 32 34
(a) Calcule la media y la desviación estándar de la muestra del tiempo que se lleva en
cada modo de transporte.
(b) Con base en los resultados del inciso (a), ¿qué modo de transporte debe preferirse?
Explique sus razones.
(c) Trace un diagrama de caja para cada modo. Al comparar los diagramas de caja, ¿se
respalda la conclusión del inciso (b)?
• Con el ratón se elige la variable deseada (que en nuestro caso será la variable lon-
gitud), aparecerá resaltada, y a continuación se pulsa el botón Data, apareciendo
el nombre de dicha variable como variable activa. Dicha ventana tiene la opción
1.6 Uso de Statgraphics en la estadı́stica descriptiva 74
ordenar (sort) las variables alfabéticamente. Los botones que aparecen en la parte
inferior permiten realizar el análisis, cancelar el análisis, transformar los datos y
consultar la ayuda. Se pulsa la opción OK para realizar el análisis y aparece la
llamada ventana del análisis, dando informaciones estadı́sticas acerca del conjunto
de datos con el que se está trabajando (véase la figura 1.19).
Los ı́conos principales que hay en la barra de herramientas de esta ventana son los cuatro
de la izquierda (los restantes se activan en algunas opciones gráficas):
• El primer ı́cono (Input dialog, ı́cono de diálogos) permite la selección (o cambio)
1.6 Uso de Statgraphics en la estadı́stica descriptiva 75
de variables dentro del archivo y análisis seleccionado. Por ejemplo, dentro del
archivo calles.sf3 se puede cambiar la variable longitud por la varible anchura
utilizando este ı́cono.
• El cuarto ı́cono (Save results, ı́cono de salvar resultados) permite salvar los resul-
tados del análisis para tratarlos posteriormente o para imprimirlos.
Opciones numéricas
Al marcar el segundo ı́cono (Tabular options) de la barra de herramientas de la ventana
del análisis podemos seleccionar las siguientes opciones:
• Percentiles.
Permite el cálculo simultáneo de hasta 10 percentiles a voluntad del usuario. Si,
estando situado sobre esta salida, pulsamos el botón derecho del ratón y elegimos
Pane options, se introducen los percentiles que se deseen calcular.
– Hold (Mantener ).
Se señala cuando se quiere mantener la definición actual de clase para la
siguiente tabla de frecuencias que se realice.
Opciones gráficas
Al marcar el tercer ı́cono (Graphical options) de la barra de herramientas de la ventana
del análisis podemos seleccionar las siguientes opciones:
– Direction (Dirección).
Se puede elegir Vertical u Horizontal para orientar el diagrama en el sentido
que uno lo desee.
– Features (Aspectos).
Esta opción nos permite señalar o no en el gráfico la media (Mean Marker ),
los valores atı́picos (Outlier Symbols) y muescas sobre la mediana (Median
Nocht).
gráfico del histograma, pulsamos el botón derecho del ratón y elegimos Pane op-
tions, obtenemos la ventana de diálogo Frequency Plot Options con las siguientes
opciones:
izquierda. Es recomendable modificar el número de clases del histograma, para ası́ ob-
servar las variaciones que se producen en éste.
Para trabajar con la variable transformada es suficiente con escribir en lugar del nombre
de la variable la transformación adecuada. Por ejemplo, si quisiéramos trabajar con el
logaritmo de la variable escribimos LOG(longitud) en vez de longitud. Otro método para
escribir la transformación adecuada es desde la opción de One Variable Analysis; en la
parte inferior de la ventana activar el botón Transform, lo que nos permite acceder a los
diferentes operadores (Operators) entre los que se encuentran las transformaciones antes
mencionadas. De las estas transformaciones, la que ofrece una distribución más simétrica
es el logaritmo. A continuación presentamos las conclusiones obtenidas del estudio
descriptivo (medidas caracterı́sticas, diagrama de tallo y hojas, caja e histograma) de la
variable LOG(longitud).
Para obtener diagramas de cajas múltiples para dos o más conjuntos de datos, una
alternativa es mediante las opciones Compare . . . Multiple Samples . . . Multiple-Sample
Comparison . . . Multiple Data Columns . . . Ok . . . Samples= (en esta última opción
mencionar los datos que se quieren comparar).
s 64. En el archivo de datos autos.sf3 se muestran las distancias recorridas (dadas en millas
por galón) de 154 modelos de automóviles sacados al mercado entre los años 1978 y
1982 por diferentes fabricantes: americanos (origen=1), europeos (origen=2) y japoneses
(origen=3). También aparecen los respectivos cilindrajes de los autos, las potencias, etc.
(a) Construya un diagrama de caja y bigotes para los datos de la distancia recorrida y a
partir de él, responda las siguientes preguntas: ¿Entre cuáles valores varı́a la distancia
recorrida? ¿Cuánto recorre el 50% central de los autos? ¿Hay valores atı́picos? ¿Es
simétrica o asimétrica la distribución de los datos? En caso de ser asimétrica, ¿es
asimétrica a la izquierda o a la derecha? ¿Cuáles son los valores de la media y de la
mediana?
(b) Estudie el grado de simetrı́a de los datos de la distancia recorrida de cuatro maneras
diferentes (compare sus respuestas):
i. Utilizando las medidas estadı́sticas (media, mediana, moda, sesgo, etc. )
ii. Construyendo un histograma de frecuencias con 5 clases.
iii. Construyendo un un histograma con 13 clases. ¿Porqué este histograma resulta
más adecuado que el que construyó con 5 clases?
iv. Construyendo un gráfico de simetrı́a con la opción graphical options . . . symmetry
plot de Statgraphics.
(c) Considere ahora por separado los conjuntos de distancias recorridas de los modelos
de cada uno de los cinco años.
i. Analice gráfica y numéricamente cada uno de estos conjuntos.
ii. Utilizando la opción Plot . . . Exploratory Plots . . . Multiple Box-and-Whishker
Plot . . . Data=distancia . . . Level codes=year . . . obtenga los diagramas de cajas
(múltiples) de los cinco conjuntos de distancias recorridas con respecto a cada
uno de los años. ¿Qué se observa? ¿Conoce alguna razón que pueda explicar
lo que resulta de los análisis numéricos y de la observación de los diagramas de
cajas?
(d) Ahora, construya el diagrama de caja múltiple de la distancia recorrida de los au-
tomóviles según su cilindrada.
i. Teniendo en cuenta cada uno de los diagramas, responda las preguntas formu-
ladas en la parte (a).
ii. Compare entre sı́ los distintos diagramas y responda las siguientes preguntas:
¿Dónde es más fuerte la asimetrı́a? ¿Dónde es menor? ¿Dónde no existe? ¿Varı́a
bastante los valores de la media y de la mediana para los diferentes grupos?
(e) Construya el diagrama de caja múltiple de la potencia de los automóviles según su
origen y responda las preguntas formuladas en el inciso anterior.
s 65. Se han medido los diámetros (en milı́metros) de 50 tornillos y se han obtenido los resultados
que se encuentran en el archivo tornillos.sf3.
(a) Obtenga la mediana, la moda, el primer y tercer cuartiles, el sexto y séptimo deciles
y los percentiles 54, 47, 82. Interprete cada uno de sus resultados.
(b) Formar la tabla de frecuencias con 6 clases para los datos y, a partir de ella, responda
las siguientes preguntas:
i. ¿Cuántos tornillos tienen un diámetro entre 29 y 32 milı́metros?
ii. ¿Qué porcentaje de tornillos tienen un diámetro entre 30 y 34 milı́metros?
iii. ¿Cuántos tornillos tienen un diámetro mayor de 32 milı́metros?
iv. ¿Qué porcentaje de tornillos tienen un diámetro mayor 34 milı́metros?
1.6 Uso de Statgraphics en la estadı́stica descriptiva 81
s 66. Los datos del archivo fotocopia.sf3 muestran el gasto en fotocopias (en miles de pesos)
de 70 estudiantes universitarios durante un determinado año.
(a) Obtenga la media y la mediana, la moda, el primer y tercer cuartiles, el segundo y
octavo deciles, los percentiles 33, 67, 84 y 93, el sesgo y el coeficiente de variación.
Interprete cada uno de sus resultados.
(b) Formar la tabla de frecuencias con 8 clases para los datos, en donde la primera frontera
inferior sea 0 y la última frontera superior sea $ 1.400.000. A partir de ella, responda
las siguientes preguntas:
i. ¿Cuántos estudiantes han gastando entre $ 175.000 y $ 525.00 en el año?
ii. ¿Qué porcentaje de estudiantes han gastando entre $ 700.000 y $ 1.225.000 en
el año?
iii. ¿Cuántos estudiantes han gastando más de $ 1.050.000 en el año?
iv. ¿Qué porcentaje de estudiantes han gastando más de $ 350.000 en el año?
v. ¿Cuántos estudiantes han gastando menos de $ 875.000 en el año?
vi. ¿Qué porcentaje de estudiantes han gastando menos de $ 525.000 en el año?
(c) Con 8 clases (en donde la primera frontera inferior sea 0 y la última frontera superior
sea $ 1.400.000), construir los histogramas de frecuencias absolutas y de frecuencias
absolutas acumuladas, los polı́gonos de frecuencia y de frecuencias relativas y las
ojivas de frecuencias acumuladas y de frecuencias relativas acumulada. A partir de
estos gráficos, responda las siguientes preguntas:
i. ¿Aproximadamente cuántos estudiantes han gastando más de $ 767.810 en el
año?
ii. ¿Aproximadamente cuántos estudiantes han gastando menos de $ 391.821 en el
año?
iii. ¿Qué porcentaje aproximado de estudiantes han gastando más de $ 601.583 en
el año?
iv. ¿Cuántos estudiantes han gastando menos de $ 1.104.220 en el año?
(d) Estudie la simetrı́a de la distribución de los datos.
(e) ¿Existen valores atı́picos? ¿Cuántos? ¿Cuáles?
(f) Realice una transformación logarı́tmica de los datos e interprete los resultados. Co-
mente las diferencias con los datos sin transformar.
s 67. En el archivo de datos doscientos.sf3 se proporcionan las sesenta y nueve mejores marcas
de todos los tiempos en la prueba de 200 metros lisos masculinos (las marcas se dan en
segundos), ası́ como el nombre del atleta y la fecha en que se consiguió la marca.
1.6 Uso de Statgraphics en la estadı́stica descriptiva 82
s 70. En 1893 Lord Rayleigh investigó la densidad del nitrógeno empleando en su obtención
distintas fuentes. Previamente habı́a comprobado la gran discrepancia existente entre la
densidad del nitrógeno producido tras la eliminación del oxı́geno del aire y el nitrógeno
1.7 Uso de la calculadora en la estadı́stica 83
producido por la descomposición de ciertos compuestos quı́micos. Los datos del archivo
Rayleigh.sf3 muestran esta diferencia de forma clara. Esto llevó a Lord Rayleigh a in-
vestigar detenidamente la composicion del aire libre de oxı́geno y al descubrimiento de un
nuevo elemento gaseoso, el argón.
(a) Analice numérica y gráficamente estos datos. Preste especial atención a los diagramas
de tallo y hojas y al diagrama de cajas. ¿Hay alguna peculiaridad de la población de
pesos que se manifieste en un diagrama y no en el otro?
(b) Realice diagramas de cajas dividiendo los datos en los pesos obtenidos a partir de aire
y los obtenidos a partir de compuestos quı́micos del nitrógeno. ¿Qué se observa?
s 71. Una de las medidas de seguridad de los reactores nucleares frente a desajustes en el proceso
de generación de energı́a o de extracción de ésta es el disparo del reactor. Esta medida
consiste en la detención del proceso de fusión mediante la inserción en el núcleo del reactor
de venenos neutrónicos. El número de disparos no previstos de un reactor en un periodo es
un indicador de problemas de comportamiento y de fiabilidad en la planta. En el archivo
de datos disparos.sf3 se proporciona, para dos años diferentes (1984 y 1993), el número
de disparos no previstos en sesenta y seis reactores nucleares de los Estados Unidos de
Norteamérica.
(a) Analice numérica y gráficamente, por separado, el número de disparos de reactor en
cada uno de los dos años considerados.
(b) Compare gráficamente las distribuciones de ambas variables ¿Se aprecian diferencias
importantes entre ellas? ¿Qué conclusiones le merece esta comparación?
Cálculos estadı́sticos
Para realizar cálculos estadı́sticos en la calculadora, tenga en cuenta los siguientes co-
mentarios:
• Utilice las teclas mode 2 para ingresar el modo SD cuando desea realizar cálculos
estadı́sticos con ayuda de las funciones estadı́sticas que hay incorporadas en la
calculadora.
• El ingreso de datos comienza siempre con shift clr 1 = para borrar la
memoria de estadı́sticas.
• Ingrese los datos usando la secuencia de tecla siguiente: <Dato> dt .
• Los
P datos ingresados se usan paraP calcular los valores para n (el total de datos),
x (la suma de todos los datos), x2 (la suma de los cuadrados de los datos), x
(la media), σn (la desviación estándar poblacional) y σn−1 (la desviación estándar
muestral), que pueden llamarse usando las operaciones de tecla indicados a con-
tinuación:
1.7 Uso de la calculadora en la estadı́stica 84
P P
Ejemplo 1.7.1 Calcular n, x, x2 , x, σn y σn−1 para los datos siguientes: 55, 54, 51,
55, 53, 53, 54 y 52.
SOLUCION:
• Primero, ingresamos al modo SD con las teclas mode 2.
21 22 27 36 22 29 22 23 22 28 36 33
17,6 26,6 15,6 12,4 22,9 25,0 22,4 18,5 27,9 11,6
✍ Ejercicios complementarios
76. Diga si la afirmación dada es verdadera o falsa. Justifique siempre su respuesta. En caso
que sea falso, dé un contraejemplo.
(a) La suma de las desviaciones de los valores respecto a la media para cualquier conjunto
de datos es uno.
(b) Si la desviación estándar de un conjunto de datos es 0, entonces, los datos son iguales.
(c) El valor de la desviación estándar es menor que el de la varianza.
(d) No existen datos de tal forma que sean iguales el rango y la desviación estándar.
(e) No existen datos de tal forma que sean iguales el rango y la varianza.
(f) Si el ingreso medio de 25 trabajadores es de $ 2.500.000, entonces, el ingreso total es
de $ 10.000.000.
(g) Si 10 calificaciones tienen una media de 2,0 y 27 calificaciones una media de 3,0,
entonces, la media del grupo total de 37 calificaciones es 2,5.
(h) Existen datos con desviación estándar negativa.
(i) En una distribución simétrica, la media, la mediana y la moda son iguales.
(j) En una distribución positivamente sesgada, la mediana es mayor que la media.
(k) La desviación estándar está dada por las mismas unidades que la media.
Cap. 1. Ejercicios complementarios 86
6,8 7,0 7,6 6,8 5,9 7,2 7,3 6,3 8,1 11,6 9,0 11,8 10,7 11,3
6,5 7,0 6,3 7,9 8,2 8,7 7,8 9,7 7,7 9,7 7,8 7,7 7,4
(a) Construya un diagrama comparativo de tallo y hojas de los datos. ¿Cuál parece
ser un valor representativo de la resistencia? ¿Parecen estar las observaciones muy
concentradas cerca del valor representativo, o sólo están dispersas?
(b) ¿Parece ser razonablemente simétrico el diagrama respecto a un valor representativo,
o describirı́a su forma de otra manera?
(c) ¿Parece haber algún valor extraño o atı́pico?
(d) ¿Qué proporción de observaciones de resistencia fueron mayores que 10 megapascales?
78. El reporte del ejercicio 77 también presenta las siguientes observaciones de resistencia de
cilindros:
9,2 6,6 8,3 7,0 8,3 6,1 5,8 7,8 7,1 7,2
9,8 9,7 14,1 12,6 11,2 7,8 8,1 7,4 8,5 8,9
(a) Construya un diagrama comparativo de tallo y hojas de los datos para vigas y para
cilindros y a continuación conteste las preguntas de la parte (b) a (d) de aquél ejercicio,
sobre las observaciones con cilindros.
(b) ¿En qué aspectos se parecen los dos lados del diagrama? ¿Hay diferencias obvias
entre las observaciones para vigas y para cilindros?
79. Según un diario, en Colombia la donación y disponibilidad de sangre es muy baja, tomando
en cuenta que la captación anual es tan sólo de 485 mil unidades, lo que equivale al 1 por
ciento de la población. ¿Cuál es el promedio de unidades de sangre para 1.000 personas?
80. Un multicentro ha vendido el 70 por ciento de sus metros cuadrados por un valor de 399
millones de dólares. Si el multicentro tiene 190 mil metros cuadrados, ¿cuál es el precio
promedio por metro cuadrado? ¿Cuánto recibirá aproximadamente la cadena por la venta
de todos los locales del multicentro?
81. Si cada colombiano consume cien botellas de 8 onzas de una marca de gaseosa al año,
¿cuánto consume de dicha gaseosa diariamente en botellas y en onzas?
82. Una revista efectuó una encuesta para estudiar sus suscriptores en ciertos paı́ses. Una de
las preguntas pedı́a el valor del portafolio del suscriptor (acciones, bonos, fondos hipote-
carios y certificados de depósitos). La siguiente distribución de frecuencias porcentuales
fue preparada con las respuestas.
Cap. 1. Ejercicios complementarios 87
83. De todos los anuncios de bebidas alcohólicas en vallas publicitarias, el 60% son de cerveza,
el 30% de licores con alta graduación, el 6% sobre vino, y el 4% restantes de bebidas
con bajas graduación alcohólica. Construir un diagrama de barras y uno de pastel que
represente esta información.
84. Una sucursal bancaria que se localiza en la zona comercial de una ciudad desarrolló un
proceso para atender a sus clientes durante la hora pico de almuerzo, de 12:00 p.m. a
1:00 p.m. Se registró el tiempo de espera en minutos (definido como el tiempo desde que
el cliente se forma en la cola hasta que lo atienden) para todos los clientes que asisten a
esta hora durante una semana. Se seleccionó una muestra aleatoria de 15 clientes y los
resultados fueron:
2,34 3,02 3,54 3,20 5,13 4,21 5,55 4,77
4,50 6,10 6,19 3,79 5,12 6,46 0,38
(a) Calcule la media, la mediana, la moda, el rango medio, los tres cuartiles, el rango, el
rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación.
(b) ¿Están los datos sesgados? Si es ası́, ¿cómo?
(c) Un cliente entra en la sucursal a la hora del almuerzo y pregunta cuánto tiempo tendrá
que esperar. Éste responde: “es casi seguro que no tendrá que esperar más de cinco
minutos”. Evalúe esta afirmación según los resultados obtenidos en el inciso (a).
85. Un auditor ha comprobado que el valor de la facturas pagadas por cierta empresa norte-
americana tiene una media de 300 dólares, y una desviación tı́pica de 65 dólares. Hallar
un intervalo en el cual se pueda garantizar que se encuentra por lo menos (a) 60%, (b)
80% de estos valores.
86. Los siguientes tiempos fueron registrados por corredores de cuarto de milla de un equipo
universitario de pista (tiempos en minutos).
Tiempos en el cuarto de milla: 1,04 0,90 0,99 0,92 0,98
Tiempos en la milla 4,60 4,70 4,50 4,52 4,35
Después de ver esta muestra de tiempos, uno de los entrenadores comentó que los corre-
dores de cuarto de milla corrı́an con más consistencia. Emplee la desviación estándar y
el coeficiente de variación para resumir la variabilidad de los datos. ¿El coeficiente de
variación indica que es cierta la afirmación del entrenador?
Cap. 1. Ejercicios complementarios 88
87. La máxima temperatura registrada durante el verano en una ciudad europea durante los
últimos 8 años son: 25; 24; 23,2; 25,5; 24,8; 23,6; 26 y 35 ◦ C. ¿Se puede considerar la
última temperatura como fuera de lo normal? Justifique.
88. Dos poblaciones constan de n datos cada una. La media de estas dos poblaciones es
la misma, y también lo son sus desviaciones tı́picas. Si (a) n = 2, (b) n = 3, ¿son
necesariamente iguales los valores numéricos de los datos de las dos poblaciones?
⋆ 89. Sean dados los datos x1 , . . ., xn .
Pn
(a) ¿Para qué valor de c la cantidad i=1 (xi − c)2 es minimizada?
Pn
(b) P
Mediante el resultado del inciso (a), ¿cuál de las dos cantidades i=1 (xi − x)2 y
n 2
i=1 (xi − µ) será menor que la otra (suponiendo que x 6= µ)?
⋆ 90. Supongamos que a cada dato de un conjunto de datos se le suma una constante c, es
decir, supongamos que se agrega una constante c a cada xi en una muestra, obteniendo
yi = xi + c.
(a) Demuestre que la media del nuevo conjunto de datos es igual a la media de los datos
originales más la constante. Es decir, y = x + c.
(b) Demuestre que la mediana del nuevo conjunto de datos es igual a la mediana de los
datos originales más la constante. Es decir,
(c) Demuestre que la varianza del nuevo conjunto de datos es igual a la varianza de los
datos originales. Es decir,
(d) Demuestre que la desviación estándar del nuevo conjunto de datos es igual a la
desviación estándar de los datos originales. Es decir,
⋆ 91. Supongamos que a cada dato de un conjunto de datos se le multiplica una constante, es
decir, supongamos que se multiplica una constante k a cada xi en una muestra, obteniendo
yi = kxi .
(a) Demuestre que la media del nuevo conjunto de datos es igual a la media de los datos
originales multiplicada por la constante. Es decir, y = kx.
(b) Demuestre que la mediana del nuevo conjunto de datos es igual a la mediana de los
datos originales multiplicada por la constante. Es decir,
(c) Demuestre que la varianza del nuevo conjunto de datos es igual a la varianza de los
datos originales por la constante al cuadrado. Es decir,
(d) Demuestre que la desviación estándar del nuevo conjunto de datos es igual a la
desviación estándar de los datos originales multiplicada por el valor absoluto de la
constante . Es decir,
Aplique los resultados de los ejercicios 90 y 91 para resolver los problemas 92 y 93.
92. (a) Una muestra de temperatura para iniciar cierta reacción quı́mica dio una media mues-
tral de 87, 3◦ C y una desviacón estándar muestral de 1, 04◦ C. ¿Cuál son la media y
desviación estándar muestrales medidas en ◦ F? (Sugerencia: F = 95 C + 32.)
(b) Si se suma 5 a cada dato en un conjunto de diez que tiene una desviación estándar
de 7, ¿cuál es la desviación estándar del nuevo conjunto de datos?
(c) Suponga que 3,0 es la media de una muestra de cuatro calificaciones.
i. Si se suma 5 décimas a cada calificación, ¿cuál es la media del nuevo conjunto?
ii. Si cada calificación se multiplica por 1,5 puntos, ¿cuál será la media?
93. El propietario de una pequeña empresa tiene asignado un sueldo de 3.910 euros mensuales.
Los salarios de los empleados aparecen a continuación:
(a) ¿Cuál es el salario medio de todos los que trabajan en la empresa incluyendo al
propietario? ¿Cuál es la desviación estándar?
(b) Si se decide aumentar el salario a cada uno en 20 euros, ¿cómo varı́a la media? ¿Y
la desviación estándar?
(c) Si se aumenta sólo el sueldo del dueño en 600 euros, ¿qué ocurre con la media?
(d) Hallar la mediana. ¿Cómo varı́a la mediana si se aumentan todos los sueldos en 300
euros? ¿Y si sólo se aumenta el salario del director en 1.200 euros?
5 2 4 5 4 4 3 3 4 4 5 1 5 4 3 5 4 5 4 3
2 5 4 2 4 4 4 4 5 5 4 4 4 5 1 5 3 3 4 3
3 4 5 4 3 5 4 5 5 3 4 5 5 2 4 5 3 4 4 3
s 96. Una de las principales atracciones turı́sticas del Parque Nacional de Yellowstone (Estado de
Wyoming, Estados Unidos de Norteamérica) es el geiser Old Faithful, cuyo nombre procede
del hecho de que sus erupciones siguen una pauta bastante estable a lo largo del tiempo.
En el archivo de datos parque.sf3 se proporcionan los lapsos de tiempo transcurridos
entre sucesivas erupciones (variable Lapso) y las duraciones de esas erupciones (variable
Duración). Ambas variables se dan en minutos. Estudie numérica y gráficamentre ambas
variables. ¿Se observa alguna peculiaridad en ellas?
s 97. En el archivo de datos pi.sf3 se proporcionan los 200 primeros dı́gitos del número π.
Analice numérica y gráficamente este conjunto de datos.
s 98. En el archivo de datos sismo.sf3 se muestran el tiempo transcurrido (dado en dı́as) entre
sismos sucesivos acaecidos en el mundo. Todos los sismos considerados o tuvieron una
intensidad de al menos 7,5 en la escala de Richter o produjeron más de 1000 vı́ctimas
mortales. Los sismos registrados ocurrieron entre el 16 de diciembre de 1902 y el 4 de
marzo de 1977. Estudie numérica y gráficamente estos datos.
Respuestas a ejercicios impares
seleccionados
Capı́tulo 1
5. (b) Se ha cometido un error. 43. 2,9
7. (a) de barras, circular (b) histograma,
ojiva (c) de barras 45. (a) 963,33; 550; 700; 1.775; 413,3 (b)
Mediana (c) 550; 800; 700 (d) 2.450;
9. (a) Ordinal 803,52; 250
13. (a) 80% (b) 40%
47. (a) [12,05; 39,95] (b) Por lo menos
15. (c) 149 en la clase 138,5 - 157,5 (d)
aproximadamente el 85%
Ojiva
17. (a) 16% (b) 20 (c) 12% (d) 13 49. (a) H:0,9375; G:1,15 (b) H:5,53 ×
23. (a) Ordinal, nominal (b) Distribución 10−3 ; G:0,04 (c) El de Humberto (d)
simétrica unimodal CV(H)=0,075; CV(G)=0,173
25. 190
51. (a) x = 27, 95; e
x = 27, 639;
27. El piloto A s = 8, 0829; R.I = 5, 42 (b)
29. Sı́ x = 27, 944; s = 8, 1061
59. (a) 1,9; 2,28; 2,79; 3,05; 3,25 (b) La tiende a ser grande si el rango es grande
distribución está sesgada a la izquierda comparada con un valor representativo”
(c) El rango de los datos de 1,35 (en este caso, “grande” significa que el
puntos es grande dado los pequeños porcentaje está más cerca de 100% que
rendimientos porcentuales sobre los que a 0%). Aquı́, el rango es 5,9. Esto
está calculado. Las tasas del mercado constituye un 5, 9/7, 9 ≈ 75% del valor
de dinero varı́an entre bancos. representativo. Por tanto, la variación
61. (a) x = 79, 31; Resumen de cinco es grande. (b) Tendencia a ser sesgada
números: 72; 76,5; 78,5; 80,5; 90 (c) Sı́ a la derecha (c) No parece (d) 15%
de clase, 15 Regla
inferior de clase, 15 de Sturges, 16
superior de clase, 15 de Tchevichev, 49
empı́rica, 50
Histograma, 24 Resumen de cinco números, 67
suavizado, 32
Tabla de frecuencias, 14
Individuo de una población, 8 acumuladas, 21
Intervalos de clase, ver clase agrupadas, 14
bivariadas, 21
Lı́mite no agrupadas, 14
de clase, 15 relativas, 21
inferior de clase, 15 relativas acumuladas, 21
real
inferior de clase, ver Frontera inferior Valor atı́pico, 70
de clase extremo, 70
superior de clase, ver Frontera supe- moderado, 70
rior de clase Varianza
real de clase, ver frontera de clase muestral, 46
superior de clase, 15 muestral ponderada, 48
poblacional, 45
Marca de clase, 15 poblacional ponderada, 48
Media
aritmética ponderada, 33
aritmética, 33, 61
armónica, 39
armónica ponderada, 39
geométrica, 37
geométrica ponderada, 37
Mediana, 34, 63
Medidas
de asimetrı́a, 55
de colocación o de posición relativa, 40
de curtosis o apuntamiento, 57
de forma, 53
de tendencia central, 33
Moda, 35, 63
cruda, 63
Muestra, 8
Observación, 8
Ojiva, 26
Parámetro, 8
Percentil, 41, 64
Pictógrafos, ver pictograma
Pictograma, 23
Población, 8
Polı́gono, 25
Rango, 16, 43
intercuartil, 44
medio, 36, 64
Recorrido, ver Rango