Está en la página 1de 71

HISTORIA

Introducción

Los primeros usos de la Estadística aparecieron en la recopilación de datos y


elaboración de gráficas para describir diversos aspectos de un estado o país.

Las representaciones gráficas y otros símbolos en pieles, rocas, palos de madera


y paredes de cuevas que usaba el hombre para contar el número de personas,
animales o cosas, eran formas sencillas de estadística de los primeros tiempos de
la civilización.

Los Babilonios (3000 a.C.) usaban


pequeñas tablillas de arcilla para
recopilar datos de la producción
agrícola y de los géneros vendidos o
cambiados mediante el trueque.

Los Egipcios, mucho antes de construir


las pirámides en el siglo XXXI a.C.
analizaban los datos de la población y
de la renta del país.

"Números" y "Crónicas", son libros bíblicos que incluyen, en algunas partes,


trabajos de Estadística, como censos de la población de Israel.
En China existían registros numéricos
similares con anterioridad al año 2000
a.C.

Los Griegos realizaban censos cuya


información se utilizaba hacia el año
594 a.C. para cobrar impuestos.

El primer gobierno que recopiló una


gran cantidad de datos sobre la
población, superficie y renta de todos
los territorios bajo su control fue el
Imperio Romano.

En Europa, durante la edad media, los reyes caloringios Pipino el Breve y


Carlomagno, ordenaron hacer estudios minuciosos de las propiedades de la
Iglesia en los años 758 y 762 respectivamente. Después de la conquista normanda
de Inglaterra en 1066, el rey Guillermo I de Inglaterra encargó un censo. La
información obtenida con este censo, llevado a cabo en 1086, se recoge en el
Domesday Book.

En 1662, John Graunt publicó el primer estudio estadístico notable de población,


titulado Observations on the London Bills of Mortality, que era el registro de
nacimientos y defunciones de Inglaterra. Un estudio similar sobre la tasa de
mortalidad en la ciudad de Breslau, en Alemania, realizado en 1691, fue utilizado
por el astrónomo inglés Edmund Halley como base para la primera tabla de
mortalidad.

En el siglo XIX, con la generalización del método científico para estudiar todos
los fenómenos de las ciencias naturales y sociales, los investigadores aceptaron
la necesidad de reducir la información a valores numéricos para evitar la
ambigüedad de las descripciones verbales.

En nuestros días, la estadística se ha convertido en un método efectivo para


describir con exactitud los valores de datos económicos, políticos, sociales,
psicológicos, biológicos y físicos, y sirve como herramienta para relacionar y
analizar dichos datos. El trabajo del experto estadístico no consiste ya solo en
reunir y tabular los datos, sino sobre todo en el proceso de interpretación de esa
información. El desarrollo de la teoría de la probabilidad ha aumentado el
alcance de las aplicaciones de la estadística.

Muchos conjuntos de datos se pueden aproximar, con gran exactitud, utilizando


determinadas distribuciones probabilísticas; los resultados de éstas, se pueden
utilizar para analizar datos estadísticos. La probabilidad es útil para comprobar
la fiabilidad de las inferencias estadísticas y para predecir el tipo y la cantidad
de datos necesarios en un determinado estudio estadístico.

Siguiente tema antecedentes

La Estadística y la Probabilidad forman parte de nuestra vida, ya que en todo


momento, consciente o inconscientemente, utilizamos sus conceptos y técnicas
para formular juicios y tomar decisiones.

Por ejemplo, decidimos a qué hora salir de casa,


considerando el medio de transporte y el tiempo promedio
necesario para trasladarnos al lugar que deseamos.

Para la toma de decisiones racionales es necesario disponer


de informaciones fieles, en cantidad suficiente y con la
oportunidad debida. Las decisiones erróneas se deben tanto
a la falta de información como a deficientes evaluaciones de ésta.

La estadística presenta métodos que facilitan el análisis de las variables


cualitativas y cuantitativas que aparecen en la información que se dispone para
la toma de decisiones

Pero, aunque el hombre moderno conoce los conceptos básicos de la


probabilidad y la estadística, es necesario el estudio sistemático de ellos para
disponer de las técnicas adecuadas, que le permitan resolver con mayor precisión
los problemas de la vida actual.

¿Cuál es la probabilidad de éxito de un proyecto de inversión?


¿Cómo comprender que vendo productos de calidad, si de 100 de ellos 6
son defectuosos?

Las respuestas a éstas y a muchas preguntas que llevan a una toma de decisiones,
se obtienen de manera más fácil usando las técnicas y métodos de la estadística
y la probabilidad.
1.1 Conceptos de estadística y su clasificación.
Influencia y Aplicaciones de la Estadística en la Sociedad Actual
En nuestros días, la estadística se ha convertido en un método efectivo para
describir con exactitud los valores de datos
económicos, políticos, sociales, psicológicos, biológicos o físicos en la
ingeniería y sirve como herramienta para relacionar y analizar dichos datos. El
trabajo del experto estadístico no consiste ya sólo en reunir y tabular los datos,
sino sobre todo en el proceso de “interpretación” de esa información.
Actualmente la estadística, es una rama de las matemáticas aplicadas, que
colecciona, clasifica, evalúa o analiza datos para inferir (sacar conclusiones),
poder tomar decisiones y resolver problemas.

Probabilidad: es el estudio de fenómenos puramente aleatorios, que nos permiten


diseñar estrategias para lograr un fin deseado y poder predecir la Estadística y la
Probabilidad, puede constituirse como una herramienta poderosa para ayudar a
los científicos e ingenieros a:

- Diseñar nuevos productos o perfeccionar los existentes.

- Desarrollar y mejorar los procesos de la producción.

- Aumentar la calidad en sus productos

Una mala calidad de un producto, ya sea por: defectos de fabricación o baja


confiabilidad en su rendimiento, se ve reflejado en la Productividad en el mercado,
posición competitiva, rentabilidad de la empresa.

Si se mejoran los aspectos de la calidad puede “eliminarse el desperdicio”

- Disminuir la cantidad de material de desecho y la necesidad d volver a


maquinar piezas.

- Disminuir la inspección y pruebas.

- Pérdida por garantía.

- Mejorar la satisfacción del consumidor.

- Permite que la empresa se convierta en un productor de alta calidad y bajo


costo en el mercado.
La estadística es un elemento decisivo en el incremento de la calidad en virtud de
que las técnicas estadísticas pueden emplearse para describir y comprender la
variabilidad.

Porque se presenta la variabilidad?

Variabilidad es el resultado de los cambios en las condiciones donde se hacen las


observaciones.

Para conocer la variabilidad es necesario seguir el método científico.

Observación y

Experimentación

Formulación

de Teorías

Deducción de

predicciones

Nuevos

Experimentos

Si

Concuerdan las predicciones

con el experimento

No
Ejemplos:

Proceso de manufactura:

- Propiedades de los materiales

- Forman en que trabajan los obreros

- Variables del proceso tales como temperatura, presión, tiempo,

Voltaje, amperaje.

- Sistemas de medición

-El muestreo puede ser la causa de la variabilidad

- Se lanzó una moneda tres veces; primero salió águila, luego sol y después
también sol.

- En un tubo de ensayo se mezcló agua con ácido sulfúrico, la mezcla se calentó y


hubo una disminución de un 10%.

- Durante 10 años consecutivos, en el mes de diciembre se registró una


precipitación pluvial entre 100 y 200 mm, en los años2003, 2004,2006 en el resto
no.

- Se midió la temperatura de un paciente durante 10 días consecutivos al


mediodía, registrándose las siguientes lecturas (en ºC)

38.7, 37.9, 40.0, 39.5, 38.2, 37.0, 36.8, 37.1, 36.9, 37.0

Definiciones de la Estadística

¿Qué es la Estadística?

Definir y comprender qué es la Estadística. Si bien, existen diversas definiciones


acerca de esta ciencia, considero preciso el comenzar por aclarar el origen
etimológico, hay que considerar que fue Godofredo Achenwall quien
en 1760, acuñó la palabra Estadística.
Sir John Sinclair (1754-1835) introdujo al término estadística el
significado de recolectar y clasificar datos

Así pues, Estadística proviene del término alemán Statistik que se traduce
como “La ciencia del Estado”, por lo que designaba originalmente el análisis
de datos del Estado. En el siglo XIX cuando el militar británico Sir John
Sinclair (1754-1835) introdujo al término estadística el significado de recolectar y
clasificar datos. También se sabe proviene del latín statisticum
collegium (“consejo de Estado”) y su derivado italiano statista (“hombre de
Estado o político”).

Ahora bien, después de haber dado a conocer el significado etimológico, es


preciso el saber cuál es la definición conceptual del término en cuestión. Para ello,
he decidido tomar la definición que el autor Ignacio M. Lizárraga Gaudry hace
respecto a esta ciencia, pues la considero una respuesta completa y concreta para
definirla de manera generalizada. Entonces, el señor Lizárraga considera la
Estadística como:
“La rama de las matemáticas que planea experimentos, recopila, datos
organiza, resume, presenta, analiza e interpreta los datos para obtener
conclusiones de un problema estadístico, para obtener conocimiento de
los hechos pasados, para prever situaciones futuras y tomar decisiones en
base a las experiencias”.

Para comprender la definición anterior analicemos el significado de cada término


relevante que interviene en ella.

..
Experimento:

Actividad planeada cuyos resultados producen un conjunto de


datos.
El experimento incluye las actividades para seleccionar los
elementos y obtener los valores de los datos

Datos:

Conjunto de valores recolectados para la variable de cada uno de


los elementos que pertenecen a la muestra

Organizar:

Establecer o reformar algo, sujetando a reglas el número,


orden, armonía y dependencia de sus partes.

Resumir:

Reducir a términos breves y precisos lo esencial de un asunto o


material.

Presentar:

Poner una cosa en la presencia de uno, mostrarla.


Analizar:

Distinguir y separar las partes de un todo hasta llegar a conocer


los principios o elementos de éste.

Interpretar:

Explicar el sentido de una cosa especialmente el de los textos


faltos de claridad. Atribuir una acción a determinado fin o
causa.

Concluir:

Decidir, formar juicios sobre lo que se ha tratado. Dar remate a


una cosa, acabar, dar fin.

“Clasificación de la Estadística según la etapa o función”


Generalmente se considera que la estadística tiene dos funciones (divisiones).
Hay una estadística descriptiva y una estadística inferencial. La primera
etapa se ocupa de describir la muestra, y la segunda etapa infiere
conclusiones a partir de los datos que describen la muestra (por ejemplo con
respecto a la población). A continuación, se dará paso a describir brevemente,
cada etapa.
Estadística Descriptiva o Deductiva
Se refiere a la recolección, presentación, descripción, análisis e
interpretación de una colección de datos, esencialmente consiste
en resumir éstos con uno o dos elementos de información (medidas descriptivas)
que caracterizan la totalidad de los mismos.
La Estadística Descriptiva recolecta, describe, analiza, interpreta y presenta los
datos de una población en forma de tablas y gráficas
Consiste sobre todo en la presentación de datos en forma de tablas y
gráficas; así que se emplea simplemente para resumir de forma numérica o
gráfica un conjunto de datos.
Estadística Inferencial o Inductiva

La Estadística Inferencial trabaja a base de muestras para inferir aspectos de la


población.
La estadística descriptiva trabaja con todos los individuos de la población. La
estadística inferencial, sin embargo trabaja con muestras, subconjuntos
formados por algunos individuos de la población. A partir del estudio de la
muestra se pretende inferir aspectos relevantes de toda la población. Cómo se
selecciona la muestra, cómo se realiza la inferencia, y qué grado de confianza se
puede tener en ella son aspectos fundamentales de la estadística inferencial, para
cuyo estudio se requiere un alto nivel de conocimientos de estadística,
probabilidad y matemáticas.
Para que éstas generalizaciones sean válidas la muestra deben
ser representativa de la población y la calidad de la información debe ser
controlada, además puesto que las conclusiones así extraídas están sujetas a
errores, se tendrá que especificar el riesgo o probabilidad que con que se
pueden cometer esos errores.

Por ejemplo, a partir de una muestra representativa tomada a los habitantes de


una ciudad, se podrá inferir la votación de todos los ciudadanos que cumplan los
requisitos con un error de aproximación.

En sus particularidades la Inferencia distingue la Estimación (cuando se usan


las características de la muestra para hacer inferencias sobre las características
de la población) y la Contrastación de Hipótesis (cuando se usa la información
de la muestra para responder a interrogantes sobre la población).
Elementos básicos de la Estadística
1.2 Recopilación de datos.
INTRODUCCIÓN A LOS TÉRMINOS BÁSICOS

POBLACIÓN

Es la colección, o conjunto, de individuos, objetos o eventos cuyas propiedades


serán analizadas.

La población es La colección completa de individuos u objetos de interés para el


recolector de la muestra. La idea más importante en. Estadística es el concepto de
población. La población de interés debe definirse cuidadosamente y se considera
que está completamente definida sólo cuando se especifica la lista de elementos
que pertenecen a ella. Un ejemplo de población bien definida es el conjunto de
“todos los estudiantes que han asistido alguna vez a una universidad de México”.

Por lo general, se piensa que una población es una colección de personas. No


obstante, en estadística la población puede ser una colección de animales, de
objetos manufacturados o de cualquier cosa. Por ejemplo, el conjunto de todos los
árboles de tamarindo en Chiapas puede ser una población.
Hay dos tipos de poblaciones: finitas e infinitas. Cuando es (o puede ser) posible
enumerar físicamente los elementos que pertenecen a una población, se dice
que la población es finita. Cuando los elementos de una población son
ilimitados, la población es infinita. Los libros de una biblioteca universitaria
constituyen una población finita; padrón electoral. Por otra parte, la población de
todas las personas que podrían tornar aspirina y la población de todos los focos de
40 watts que serán producidos por Sylvania son infinitas. Es difícil. Estudiar
grandes poblaciones; por tanto, se acostumbra seleccionar una muestra. y
estudiar los datos de ésta.

MUESTRA

Es un subconjunto de la población.

Una muestra consta de los individuos, objetos o medidas seleccionados de la


población por el recolector de la muestra.

VARIABLE (o variable respuesta)

Característica de interés sobre cada elemento individual de una población o


muestra.

La edad de un estudiante que ingresa a la universidad, el color de su cabello, su


estatura y su peso son cuatro variables.

COMO SE CLASIFICAN LAS VARIABLES

Básicamente, hay dos clases de variables: 1) variables que obtienen información


cualitativa y 2) variables que obtienen información cuantitativa

Cada uno de estos tipos de variables (cualitativas y cuantitativas) puede subdividirse aún
más.
VARIABLE CUALITATIVA, DE ATRIBUTOS O CATEGÓRICA

Variable que clasifica o describe un elemento de una población

Por ejemplo

Una muestra de cuatro clientes de un salón de belleza fue cuestionada en cuanto al “color
de su cabello”, “la ciudad en que habita” y “nivel, de satisfacción” respecto a los resultados
en él. Salón de belleza. Las tres variables son ejemplos de variables cualitativas (de
atributos), ya que describen alguna característica de la persona, y todas las personas con
el mismo atributo pertenecen a la misma categoría. Los datos recolectados fueron {rubio,
café, negro, café}, o bien se puede evaluar diciendo muy satisfecho, satisfecho, algo
satisfecho}.

LAS VARIABLES CUALITATIVAS SE CLASIFICAN EN:

VARIABLE NOMINAL

Variable cualitativa que categoriza (describe o identifica) un elemento de una población.

Para datos resultantes de una variable nominal, las operaciones aritméticas no sólo
carecen de sentido: tampoco es posible asignar un orden a las categorías

En la encuesta anterior de cuatro clientes de un salón de belleza, dos de las variables,


“color de su cabello” y “la ciudad en que habita” son ejemplos de variables nominales, ya
que ambas identifican alguna característica de la persona y carecerían de sentido para
encontrar el promedio muestral al sumar y dividir entre cuatro. Por ejemplo, (rubio + café
negro + café)/4 no está definido. Además, el color de cabello y la ciudad en que habita no
tienen un orden en sus categorías.

VARIABLE ORDINAL

Una variable cualitativa que presenta una posición, o clasificación, ordenada.

En la encuesta anterior de cuatro clientes de un salón de belleza, la variable “nivel de


satisfacción” es un ejemplo de variable ordinal, ya que presenta una clasificación ordena
da. “Muy satisfecho” está antes de “satisfecho”, que se encuentra antes que “algo
satisfecho”. Otro ejemplo de una variable ordinal sería la clasificación de cinco fotografías
del paisaje según la preferencia de alguien: primen elección, segunda elección, o…….
Las variables cuantitativas o numéricas también pueden subdividirse en dos categorías:
variables discretas y variables continuas.

VARIABLE CUANTITATIVA O NUMERICA

Variable que cuantifica un elemento de una población

El “costo total” de los libros de texto adquiridos por cada estudiante para las clases de
este semestre es un ejemplo de variable cuantitativa (numérica). Se obtuvo una muestra.

VARIABLE DISCRETA

Una variable cuantitativa que puede asumir un numero contable de valores Intuitiva mente
la variable discreta puede asumir los valores correspondientes a puntos aislados a lo largo
de un intervalo de recta Es decir entre dos valores cualesquiera hay un hueco

VARIABLE CONTINUA

Una variable cuantitativa que puede asumir una cantidad incontable de valores
Intuitivamente la variable continua puede asumir cualquier valor a lo largo de un intervalo
de recta incluyendo cualquier valor posible entre dos valores cualesquiera

DATO

Valor de la variable asociada a un elemento de una población o muestra Este valor


puede ser un numero una palabra o un símbolo.

Por ejemplo, Juan Pérez ingresó a la universidad a la edad de “23” años, su


cabello es “café”, mide “1.80 m” y pesa “83 kg”, Estas cuatro piezas de datos son
los valores de las cuatro variables aplicadas a Juan Pérez.

DATOS

Conjunto de valores recolectados para la variable de cada uno de los elementos


que pertenecen a la muestra

El conjunto de 25 estaturas recolectadas de 25 estudiantes es un ejemplo de un


conjunto de datos.

EXPERIMENTO

Actividad planeada cuyos resultados producen un conjunto de datos.


El experimento incluye las actividades para seleccionar los elementos y obtener
los valores de los datos.
PARÁMETRO

Valor numérico que resume todos los datos de una población completa

La edad “promedio” en el momento de admisión de todos los estudiantes que han


asistido alguna vez a una universidad o la “proporción” de estudiantes que tenían
más de 21 años de edad cuando ingresaron a la universidad son ejemplos de dos
parámetros poblacionales diferentes. Un parámetro es un valor que describe a
toda la población. A menudo se utiliza una letra griega (media µ, desviación
estándar σ) para simbolizar la denominación de un parámetro. Estos símbolos
serán asignados a medida que se estudien los parámetros individuales.

Para todo parámetro existe una estadística muestral correspondiente. La


estadística describe a la muestra de la misma manera en que el parámetro
describe a la población.

ESTADÍSTICA

Valor numérico que resume los datos de la muestra

La estatura “promedio” encontrada al utilizar el conjunto de 25 estaturas es un


ejemplo de una estadística muestral. Una estadística es un. Valor que describe
una muestra. Casi todas las estadísticas muéstrales se determinan con ayuda de
fórmulas y suele asignarse las denominaciones simbólicas usando letras del,
alfabeto español (por ejemplo, media x , desviación estándar s ).

Ejemplo

Un estudiante de estadística está interesado en determinar algo sobre el valor


promedio en pesos de los automóviles que pertenecen al cuerpo docente de
nuestro tecnológico. Cada uno de los ocho términos recientemente descritos
puede identificarse en esta situación.
1. La población es la colección de todos los automóviles que pertenecen a todos
los miembros del cuerpo docente del tecnológico.

2. Una nuestra es cualquier subconjunto de esa población. Por ejemplo, una


muestra serían los automóviles que pertenecen a los profesores del departamento
de ciencias Básicas.

3. La variable es el “valor en pesos” de cada automóvil individual.

4. Un dato podría ser el valor en pesos de un automóvil en. Particular. El


automóvil del señor Sánchez, por ejemplo, está valuado en 213 000 pesos.

5. Los datos serían el conjunto de valores que corresponden a la muestra


obtenida

(180 000; 253 000; 325 000;...).

6. El experimento serían los métodos aplicados para seleccionar los automóviles


que integren la muestra y determinar el valor de cada automóvil de la muestra.
Podría efectuarse preguntando a cada miembro del departamento de ciencias
Básicas, o de otras formas.

7. El parámetro sobre el que se está buscando información es el valor “promedio”


de todos los automóviles de la población.

8. La estadística que encontrará es el valor “promedio” de todos los automóviles


de la muestra.

1.3 Distribución de frecuencias.

Agrupación de datos

Clasificación

Los datos en bruto conocidos también son los datos recopilados que no han sido
clasificados u organizados numéricamente. Un ejemplo es la lista de estaturas de
100 alumnos obtenida de los registros alfabéticos de la universidad.
Un arreglo o datos agrupados es una lista ordenada, donde se ha efectuado un
acomodo de los datos numéricos en bruto tomando en cuenta algún orden
(ascendente o descendente) de sus magnitudes. La diferencia entre los números
mayor y menor se llama rango de los datos. Por ejemplo, si la mayor estatura de
100 alumnos es 174 centímetros y la menor es 160 centímetros, el rango es 174 -
160 = 14 centímetros.

Cuando se recopilan grandes cantidades de datos en bruto, con frecuencia


resulta útil distribuir los datos en clases o categorías y determinar el número de
individuos que pertenecen a cada clase, lo cual recibe el nombre de frecuencia
de clase. Una disposición tabular de los datos reunidos por clases, con las
correspondientes frecuencias para cada clase, se denomina tabla de frecuencia o
distribución de frecuencia. La siguiente tabla es una distribución de frecuencia
para las estaturas (redondeadas al centímetro más cercano) de 100 estudiantes
de la Universidad ABC.

Tabla 1

Estatura Número de
(centímetros) alumnos

160-162
5
163-165
18
166-168
42
169-171
27
172-174 8
Total 100

La primera clase (o categoría), por ejemplo, consiste de estaturas de 160 a 162


centímetros y está indicada por el símbolo de intervalo 160-162. Como cinco
estudiantes tienen estaturas que pertenecen a esta clase, la correspondiente
frecuencia de clase es 5. Los números 160 y 162 se llaman límites o extremos de
la clase; el número menor (160) es el límite inferior de la clase, y el número más
grande (162) es el límite superior de la clase. Frecuentemente, los términos
clase e intervalo de clase se usan indistintamente.

Un intervalo de clase que no tiene límite superior o límite inferior (al menos,
teóricamente) se denomina intervalo de clase abierto. Por ejemplo, al referirnos
a grupos de edad en personas, el intervalo de clase "65 años o más de edad" es un
intervalo de clase abierto.

El punto medio de un intervalo de clase (el promedio o media aritmética de los


límites inferior y superior) se denomina marca de clase. Para fines de análisis
matemático posterior, todas las observaciones o puntajes que pertenecen a un
intervalo de clase dado, se asume que coinciden con la marca de clase. Así, se
considera que todas las estaturas en el intervalo de clase 160-162 son de 161
centímetros.

Si las estaturas se registran hasta el centímetro más cercano, el intervalo de


clase 160 -162 teóricamente incluye todas las medidas entre 159.5 y 162.5
centímetros. Estos números se denominan fronteras de clase o límites de clase
verdaderos. En la práctica, las fronteras de clase se obtienen promediando el
límite superior de un intervalo de clase y el límite inferior del siguiente
intervalo. Algunas veces, las fronteras de clase se emplean para simbolizar las
clases. Por ejemplo, las diferentes clases en la primera columna de la Tabla 1 se
pueden indicar por 159.5-162.5, 162.5-165.5, etcétera.

Ejercicio 1

¿Cuál es la marca de clase del intervalo 64-66 de un conjunto de medidas de


peso, en kilogramos, de los alumnos de una universidad?

64

65

66

A los datos organizados y resumidos, como en la Tabla 1, se les conoce


comúnmente como datos agrupados. Aunque el proceso de agrupamiento
destruye, por lo general, mucho del detalle original de los datos, una ventaja
importante es que se gana en claridad y en que se hacen evidentes algunas
relaciones en ellos.

¿Cuántas clases?

Mientras en el caso de tratamiento individual la tabla queda perfectamente


determinada por los posibles valores de los datos, en el caso de tratamiento por
clases está claro que no sucede así, pues hay libertad para elegir el número de
clases y los límites de las mismas.

Para decidir el número de clases que se deben tomar conviene tener en cuenta
que si éste es excesivo con respecto al número de datos, pueden aparecer
irregularidades accidentales provenientes de pocas observaciones en algunas
clases. Sin embargo, si se toma el número de clases demasiado reducido se
producirá una pérdida importante de información.

Un criterio que ayuda a decidir cuántas clases se deben tomar lo proporciona la


siguiente fórmula empírica, debida a Sturges:
Donde E(x) representa la parte entera de x, n es el tamaño de la muestra y p es
el número de clases recomendable.

Algunas evaluaciones de la fórmula anterior se dan en la Tabla 2.

Tabla 2

Tamaño de muestra Número de clases

6 a 11 4

12 a 22 5

23 a 45 6

46 a 90 7

91 a 181 8

182 a 362 9

363 a 724 10

725 a 1448 11

1449 a 2896 12

2897 a 5792 13

5793 a 11585 14

En la elección de los límites de clase es conveniente que éstos no coincidan con


el valor de ningún dato; no obstante, si fuera necesaria tal coincidencia sería
preciso adoptar un criterio para decidir en qué clase se contabiliza el dato
coincidente.

Por otra parte, también sería deseable que las clases elegidas abarcaran los
datos sin que quedaran clases vacías (sin datos). Para ello, el límite inferior de la
primera clase no debe ser muy lejano del dato menor y el límite superior de la
última clase no muy lejano del dato mayor. En esta situación, lo correcto es
tomar clases que abarquen la muestra con un pequeño exceso y que tengan,
como límites, valores con pocas cifras significativas.
Es usual tomar todas las clases con igual amplitud por razones de facilidad
operativa. Sin embargo, puede ser preferible tomar amplitudes diferentes si ello
redunda en una mayor claridad de la representación de los datos (intervalos
pequeños donde las frecuencias sean mayores e intervalos más grandes donde las
frecuencias sean menores).

Ejercicio 2

¿Cuántas clases sería apropiado usar para agrupar un conjunto de 100 datos,
según la fórmula de Sturges?

25

10

Procedimiento para su construcción:

1.3.1 Polígonos de frecuencia, histogramas y ojivas.

Gráficos estadísticos

En estadística existen diferentes tipos de gráficas o representaciones gráficas,


utilizando cada una de ellos de acuerdo al tipo de información que se maneja y
los objetivos que se persiguen al presentar la información.

 Gráfico de barras
 Gráfico de barras horizontales
 Gráfico de líneas
 Gráfico circular
 Histograma y polígono de frecuencias
 Distribución acumulada

Gráfico de barras

Este tipo de gráfica se elabora con rectángulos, sus bases son del mismo ancho y
sus alturas equivalentes con las frecuencias. A diferencia del histograma, no es
necesario tener una escala horizontal continua, por lo que los rectángulos (o
barras) no tienen que aparecer juntas entre si. Además, se pueden representar
en la misma gráfica utilizando las mismas escalas horizontales y verticales, varios
datos correspondientes a las mismas variables producto de distintas
observaciones.

Como ejemplo, se presenta el comportamiento de tres calificaciones parciales de


cuatro alumnos de topografía. Las series (cada una de las calificaciones
parciales) están coloreadas de diferente color para mostrar el comportamiento
tanto individual, como de cada uno de los alumnos con respecto a los demás.
Observa que la escala horizontal no es continua (es nominal) y se refiere a cada
alumno.

También se construyen gráficos compuestos de una manera ""tridimensional", es


decir, con gráficos que poseen no solo dos ejes sino tres; y en los que los
rectángulos son sustituidos por prismas de base rectangular. Por ejemplo, si se
representa el porcentaje del PIB gastado en docencia e investigación por cinco
países en el lapso de 1988 a 1990.
Gráfico de barras horizontales:

Se utilizan para ilustrar propiedades de ciertos segmentos de una población


determinada, por ejemplo la población de una ciudad dividida por edades se
representa con el gráfico que se conoce como pirámide de edades.
Gráficas de líneas:

Estas gráficas se utilizan para datos relacionados, donde existe cierta


continuidad entre las observaciones, como por ejemplo, el crecimiento
poblacional, la evolución del peso o estatura de una persona a través del tiempo,
el desempeño académico de un estudiante a lo largo de su instrucción escolar,
las variaciones presentadas en la medición realizada en algún experimento cada
segundo o minuto; y consisten en una serie de puntos trazados en las
intersecciones de las marcas de clase y las frecuencias de cada una, uniéndose
consecutivamente con líneas:

Gráfico circular:

Cuando lo que se desea es resaltar las proporciones que representan algunos


subconjuntos con respecto al total, es decir, cuando se está usando una escala
categórica, conviene utilizar una gráfica llamada de pastel o circular.

Por ejemplo, para ilustrar la matrícula en licenciatura (en México) por áreas de
conocimiento en el año de 1992 se puede usar algo así como sigue
De hecho, si se desea resaltar una de las categorías que se presentan, es válido
tomar esa "rebanada" de la gráfica y separarla de las demás:
Histograma

La representación gráfica más común es histograma aplicado a las distribuciones


de frecuencias.
Por ejemplo, para representar el número de accesos a la página web del Instituto
Tecnológico de Tuxtla Gutiérrez, registrado en un día de la semana es:

En las abscisas se representan los intervalos de los datos, marcándose de manera


continua las fronteras entre cada uno de los intervalos. Así, el histograma está
compuesto por rectángulos, cuyo número coincide con la cantidad de intervalos
considerados, el ancho de la base de cada uno de esos rectángulos es la misma
siempre y coincide con las fronteras de los intervalos, y la altura corresponde a
la frecuencia de cada intervalo.

La representación de un histograma puede variar cuando varía la amplitud de los


intervalos. Por ejemplo: la gráfica que sigue, fue construida con los mismos datos
que la gráfica anterior.
Para construir tus propios histogramas y variar la amplitud, presiona aquí.

Polígono de frecuencias:

Es muy parecido a las gráficas de líneas pero, en el polígono de frecuencias se


añaden dos clases con frecuencia cero: una antes de la primera clase con datos
y otra después de la última.

Por ejemplo el polígono de la gráfica de arriba quedaría de la siguiente manera:


Distribución acumulada:

Este tipo de gráfica, también conocida como ojiva, es una gráfica similar al
polígono de frecuencias, que se obtiene de a partir de las frecuencias
acumuladas. y de igual manera existen las ojivas mayor que y las ojivas menor
que.

Las siguientes gráficas son ejemplos de ojivas, a la izquierda la mayor que, a la


derecha la menor que, utilizando los datos que se usaron para ejemplificar el
histograma.
La ojiva mayor que (lado izquierdo), se le denomina de esta manera, porque
viendo el punto que está sobre la frontera de clase "4:00" se ven las visitas que se
realizaron en una hora mayor que las 4:00 horas (en cuestiones temporales se
diría: después de las 4:00 horas).

De forma análoga, en la ojiva menor (lado derecho) que la frecuencia que, se


representa en cada frontera de clase, son el número de observaciones menores
que la frontera señalada, (en caso de tiempos sería el número de observaciones
antes de la hora que señala la frontera).

Si se utiliza una distribución porcentual acumulativa, entonces se obtiene una


ojiva (mayor que o menor que según sea el caso) cuyo eje vertical tiene una
escala que va del 0% al 100%. El siguiente ejemplo es la misma ojiva menor que,
que se acaba de usar, pero con una distribución porcentual:
1.4 Medidas de tendencia central para un conjunto de datos y datos
agrupados.
1.4.1 Media, Media ponderada.
1.4.2 Mediana.
1.4.3 Moda.
1.4.4 Relación entre media, mediana y moda.
1.5 Medidas de dispersión para un conjunto de datos y datos agrupados.
1.5.1 Rango.
1.5.2 Desviación media.
1.5.3 Varianza.
1.5.4 Desviación estándar

Tablas estadísticas

En Estadística, es necesario ordenar, agrupar, reducir o condensar los datos que


se obtienen de un conjunto de mediciones para que sean de utilidad, por lo que a
veces se requiere presentarlos en forma tabular, es decir, como tablas
estadísticas.

Para entender esto, se analizan algunos ejemplos de colecciones de datos:

1.- Se determinaron al azar las estaturas (en metros) de cincuenta estudiantes de


la carrera de gestión Empresarial y se obtuvieron los datos siguientes:

1.65 1.62 1.72 1.67 1.68 1.60 1.66 1.55 1.65 1.70
1.61 1.57 1.63 1.70 1.64 1.58 1.71 1.58 1.57 1.69
1.68 1.63 1.64 1.69 1.67 1.56 1.58 1.55 1.60 1.57
1.65 1.60 1.68 1.62 1.61 1.60 1.56 1.59 1.61 1.62
1.64 1.57 1.59 1.66 1.60 1.63 1.58 1.67 1.63 1.66

Sin embargo esta presentación no dice mucho de la colección de datos, por lo


que se construye una tabla de distribución de frecuencias ordenado los datos de
menor a mayor como se muestra a continuación:

No. de
Repeticiones o Frecuencia
Frecuencia Frecuencia
Estaturas Frecuencia Relativa
Relativa Acumulada
Marcas No. Acumulada

1.55 II 2 0.04 2 0.04


1.56 II 2 0.04 4 0.08

0.16
1.57 IIII 4 0.08 8
0.24
1.58 IIII 4 0.08 12
1.59 0.28
II 2 0.04 14
0.38
1.6 IIIII 5 0.1 19
0.44
1.61 III 3 0.06 22
0.50
1.62 III 3 0.06 25
0.58
1.63 IIII 4 0.08 29
0.64
1.64 III 3 0.06 32
0.70
1.65 III 3 0.06 35
0.76
1.66 III 3 0.06 38
0.82
1.67 III 3 0.06 41
0.88
1.68 III 3 0.06 44
0.92
1.69 II 2 0.04 46
0.96
1.7 II 2 0.04 48
49 0.98
1.71 I 1 0.02
1
1.72 I 1 0.02 50

50 1
Sumatorias

2.- En un estudio de dos semanas sobre la productividad de los trabajadores, se


obtuvieron los siguientes datos sobre el número total de piezas aceptables que
produjeron 100 trabajadores:
65 36 49 84 79 56 28 43 67 36

43 78 37 40 68 72 55 62 22 82

88 50 60 56 57 46 39 57 73 65

59 48 76 74 70 51 40 75 56 45

35 62 52 63 32 80 64 53 74 34

76 60 48 55 51 54 45 44 35 51

21 35 61 45 33 61 77 60 85 68

45 53 34 67 42 69 52 68 52 47

62 65 55 61 73 50 53 59 41 54

41 74 82 58 26 35 47 50 38 70

Se ordenan los datos de menor a mayor y se obtiene una tabla de distribución de


frecuencias

Tabla Estadística

No. de
No. de Repeticiones Frecuencia Frecuencia Frecuencia
Piezas o Frecuencia Relativa Acumulada Relativa
Acumulada
Marcas No.
0.01
21 I 1 0.01 1
0.02
22 I 1 0.01 2
0.03
26 I 1 0.01 3
0.04
28 I 1 0.01 4
0.05
32 I 1 0.01 5
0.06
33 I 1 0.01 6
34 0.08
II 2 0.02 8
0.12
35 IIII 4 0.04 12
0.14
36 II 2 0.02 14
0.15
37 I 1 0.01 15
0.16
38 I 1 0.01 16
0.17
39 I 1 0.01 17
0.19
40 II 2 0.02 19
41 0.21
II 2 0.02 21
0.22
42 I 1 0.01 22
0.24
43 II 2 0.02 24
0.25
44 I 1 0.01 25
0.29
45 IIII 4 0.04 29
0.30
46 I 1 0.01 30
0.32
47 II 2 0.02 32
0.34
48 II 2 0.02 34
0.35
49 I 1 0.01 35
0.38
50 III 3 0.03 38
0.41
51 III 3 0.03 41
0.44
52 III 3 0.03 44
0.47
53 III 3 0.03 47
0.49
54 II 2 0.02 49
0.52
55 III 3 0.03 52
0.55
56 III 3 0.03 55
0.57
57 II 2 0.02 57
0.58
58 I 1 0.01 58
0.60
59 II 2 0.02 60
0.63
60 III 3 0.03 63
0.66
61 III 3 0.03 66
0.69
62 III 3 0.03 69
0.70
63 I 1 0.01 70
0.71
64 I 1 0.01 71
0.74
65 III 3 0.03 74
0.76
67 II 2 0.02 76
0.79
68 III 3 0.03 79
0.80
69 I 1 0.01 80
0.82
70 II 2 0.02 82
0.83
72 I 1 0.01 83
0.85
73 II 2 0.02 85
0.88
74 III 3 0.03 88
0.89
75 I 1 0.01 89
0.91
76 II 2 0.02 91
0.92
77 I 1 0.01 92
0.93
78 I 1 0.01 93
0.94
79 I 1 0.01 94
0.95
80 I 1 0.01 95
82 0.97
II 2 0.02 97
0.98
84 I 1 0.01 98
0.99
85 I 1 0.01 99
1
88 I 1 0.01 100
Sumatorias
100 1
Distribución de frecuencias

La capacidad humana para comprender al mismo tiempo grandes cantidades de


datos es muy limitada; por otra parte, la mayoría de los análisis estadísticos
incluyen un gran número de datos, los cuales sería casi imposible utilizar si no se
les compactara mediante un sencillo procedimiento conocido como Tabla de
Distribución de Frecuencias.

Una distribución de frecuencias, es una tabla que presenta el número de


elementos que pertenecen a cada una de las clases o categorías, en las que se
haya dividido para su estudio un grupo de datos.

Las distribuciones de frecuencias son la forma más común de organizar un gran


número de datos, por ejemplo, las calificaciones de los alumnos de primer
semestre, y a partir de ellas lograr conclusiones que no eran visibles
originalmente, por ejemplo, la concentración de calificaciones en sus niveles
bajo, medio y alto; incluso permiten definir líneas de decisión, como los precios
al mayoreo de cierto artículo, las tarifas de agua potable para una ciudad o las
tablas del impuesto sobre la renta.

Procedimiento para su construcción:

1. Cálculo del rango


2. Designación del número de clases
3. Cálculo de la amplitud
4. Cálculo de los limites de clase
5. Cálculo de los límites reales de clase
6. Encontrar la marca de clase o punto medio
7. Conteo y frecuencia absoluta
8. Frecuencia relativa
9. Frecuencias absolutas y relativas acumuladas

Para describir el procedimiento de construcción de la tabla de distribución de


frecuencias, tomemos el siguiente ejemplo.

El conjunto de datos presentados en seguida, corresponden a las edades de 30


profesores del tecnológico

Construye la tabla de distribución de frecuencias con los datos siguientes.


32 38 26 29 32 41 28 31 45 36

45 35 40 30 31 40 37 33 28 30

30 41 39 38 33 35 31 36 37 32

1. Cálculo del rango.

Se ordenan los datos del menor al mayor.

26 28 28 28 29 30 30 30 31 31

31 32 32 32 33 33 35 35 36 36

37 37 38 39 40 40 41 41 45 45

Calculamos el rango

Del conjunto de datos en ordenados, se busca el de mayor magnitud (VM) y el de


menor magnitud (Vm). Con ellos se calcula el rango.

Rango = VM -Vm 45 - 26 = 19

2. Designación del número de clases.

Una vez calculado el rango, se procede a designar el número de clases, a través


de cualquiera de los dos métodos siguientes:

a) Primer método.

en donde:

K: es el número de clases

n: es el número de datos por agrupar.


b) Segundo método.

n k

n < 50 5a7

50 <= n < 100 6 a 10

100 <= n < 250 7 a 12

n >= 250 10 a 20

Usando el primer procedimiento tenemos que:

Para nuestro ejemplo, K = ln 30/ ln 2 = 4.907 que al redondear a enteros,


quedaría una K = 5.

Si usamos el segundo método, podremos observar que n = 30 es menor que 50 y


se nos recomienda, de acuerdo a la tabla, que tomemos de 5 a 7 clases, por lo
tanto K = 5 es una buena asignación.

3. Cálculo de la amplitud.

La amplitud se calcula redondeando el cociente del rango entre el número de


clases (R/K) a la unidad más pequeña (u) inmediata superior en que se
encuentran los datos brutos. Como los datos de nuestro ejemplo están en
enteros, la unidad más pequeña es un entero u = 1, de tal manera que la
amplitud será, R/K = 19/5 = 3.8 que al redondearlo al entero inmediato superior,
nos dará la amplitud.

Amplitud: A = 4.

4. Cálculo de los límites de clase.

Datos del problema.

26 28 28 28 29 30 30 30 31 31
31 32 32 32 33 33 35 35 36 36

37 37 38 39 40 40 41 41 45 45

Para construir los límites de clase, ( límite inferior Li y límite superior Ls) se
coloca como límite inferior de la primera clase al valor más pequeño de los datos
brutos, 26 para nuestro ejemplo, y cuatro enteros (la unidad más pequeña es un
entero) más adelante, incluyendo el 26, tendremos el límite superior de la
primera clase, 26 + 3 = 29 ( se suma solo tres enteros porque el 26 está
incluido).

Clases Li - Ls

1 26 - 29

Para calcular el límite inferior de la segunda clase, hay que agregarle un entero
al límite superior de la primera clase, esto es 29 + 1 = 30. El límite superior es 4
enteros adelante, incluyendo al 30, esto es 29 + 4 = 33. Este proceso se repite
iterativa mente hasta completar la clase número 5.

Clases Li - Ls

1 26 - 29

2 30 -33

3 34 - 37

4 38 - 41

5 42 - 45

5. Cálculo de los límites reales de clase.

En seguida se calculan los límites reales de clase, llamados también fronteras de


clase. Estos se calculan a partir de los límites de clase, restándole media unidad
(u/2) a los límites inferiores de clase y sumándole la misma cantidad a los límites
superiores. u/2 = 1/2 = 0.5

Clases Li - Ls Lri - Lrs

1 26 - 29 25.5 - 29.5

2 30 - 33 29.5 - 33.5

3 34 - 37 33.5 - 37.5

4 38 - 41 37.5 - 41.5

5 42 - 45 41.5 - 45.5

6. Encontrando la marca de clase o punto medio.


Para calcular la marca de clase o punto medio vamos a promediar, para cada
clase, el límite inferior y superior de clase o en su defecto los límites reales. Para
la clase uno, X1 = (26 + 29)/2 = (25.5 + 29.5)/2 = 27.5 Para las siguientes clases se
procede de la misma forma o simplemente se le suma la amplitud a la marca de
clase anterior, por ejemplo, X2 = X1 + 4 = 27.5 + 4 = 31.5, y así para el resto de
las clases.

Clases Li - Ls Lri - Lrs x

1 26 -29 25.5 - 29.5 27.5

2 30 -33 29.5 - 33.5 31.5

3 34 - 37 33.5 - 37.5 35.5

4 38 - 41 37.5 - 41.5 39.5

5 42 - 45 41.5 - 45.5 43.5

7. Conteo y Frecuencia Absoluta.

El conteo es la asignación de cada dato en la clase que le corresponde. La


frecuencia absoluta es el número de datos que se encuentran ubicados en cada
clase. Para nuestro ejemplo, tenemos:
Datos brutos

26 28 28 28 29 30 30 30 31 31

31 32 32 32 33 33 35 35 36 36

37 37 38 39 40 40 41 41 45 45

Tabla de frecuencias absolutas

Clases Li - Ls Lri - Lrs x f

1 26 -29 25.5 - 29.5 27.5 4

2 30 -33 29.5 - 33.5 31.5 11

3 34 - 37 33.5 - 37.5 35.5 6

4 38 - 41 37.5 - 41.5 39.5 7

5 42 - 45 41.5 - 45.5 43.5 2

8. Frecuencia Relativa.
La frecuencia relativa es la proporción de los datos que se encuentran en cada
clase. Se calcula dividiendo la frecuencia absoluta entre el total de los datos y se
puede expresar como una fracción o en forma de porcentaje.

Clases Li - Ls Lri - Lrs x f fr

1 26 -29 25.5 - 29.5 27.5 4 4/30, 13.33%

2 30 -33 29.5 - 33.5 31.5 11 11/30, 36.67%

3 34 - 37 33.5 - 37.5 35.5 6 6/30, 20.00%

4 38 - 41 37.5 - 41.5 39.5 7 7/30, 23.33%

5 42 - 45 41.5 - 45.5 43.5 2 2/30, 6.67%


9. Frecuencias Absolutas y Relativas Acumuladas.

Para agregar a la tabla de distribución de frecuencias las frecuencias


acumuladas, tanto absolutas como relativas, hay que generar la columna menor
que (<). Dicha columna está formada por todos los límites reales de clase y
quedaría de la siguiente manera:

<

Clases Li - Ls Lri - Lrs x f fr 25.5

1 26 -29 25.5 - 29.5 27.5 4 13.33% 29.5

2 30 -33 29.5 - 33.5 31.5 11 36.67% 33.5

3 34 - 37 33.5 - 37.5 35.5 6 20.00% 37.5

4 38 - 41 37.5 - 41.5 39.5 7 23.33% 41.5

5 42 - 45 41.5 - 45.5 43.5 2 6.67% 45.5

Para generar la frecuencia absoluta acumulada, nos debemos de preguntar


¿cuántos datos son menores que los limites reales?. Por ejemplo: ¿Cuántos datos
son menores que 25.5? La respuesta es ninguno, ya que todos son mayores que
esa cantidad. ¿Cuántos datos son menores que 29.5? La respuesta es 4. A la
pregunta, ¿cuántos datos son menores que 33.5? La respuesta es 4 + 11 = 15, y así
sucesivamente hasta terminar con la columna menor que.

< Fi

Clases Li - Ls Lri - Lrs x f fr 25.5 0

1 26 -29 25.5 - 29.5 27.5 4 13.33% 29.5 4

2 30 -33 29.5 - 33.5 31.5 11 36.67% 33.5 15

3 34 - 37 33.5 - 37.5 35.5 6 20.00% 37.5 21

4 38 - 41 37.5 - 41.5 39.5 7 23.33% 41.5 28


5 42 - 45 41.5 - 45.5 43.5 2 6.67% 45.5 30

Para generar la frecuencia relativa acumulada nos debemos de preguntar: ¿Qué


porcentaje de los datos son menores que los limites reales?. Por ejemplo: ¿Qué
porcentaje de los datos son menores que 25.5? La respuesta es ninguno, ya que
todos son mayores que esa cantidad. ¿Qué porcentaje de los datos son menores
que 29.5? La respuesta es 13.33%. A la pregunta: ¿Qué porcentaje de los datos
son menores que 33.5? La respuesta es 13.33 + 36.67 = 50%, y así sucesivamente
hasta terminar con la columna menor que.

< Fa Fra

Clases Li - Ls Lri - Lrs x f fr 25.5 0 0%

1 26 -29 25.5 - 29.5 27.5 4 13.33% 29.5 4 13.33%

2 30 -33 29.5 - 33.5 31.5 11 36.67% 33.5 15 50.00%

3 34 - 37 33.5 - 37.5 35.5 6 20.00% 37.5 21 70.00%

4 38 - 41 37.5 - 41.5 39.5 7 23.33% 41.5 28 93.33%

5 42 - 45 41.5 - 45.5 43.5 2 6.67% 45.5 30 100%

MEDIDAS DE TENDENCIA CENTRAL para datos individuales y agrupados

Un promedio es un valor típico o representativo de un conjunto de datos. Debido


a que esos valores típicos tienden a quedar en la posición central, dentro de un
conjunto de datos ordenados según su magnitud, los promedios también se
denominan medidas de tendencia central.

Se pueden definir varios tipos de promedios, los más comunes son la media
aritmética, la mediana y la moda. Cada tipo de promedio, dependiendo de los
datos y del propósito proyectado, presenta ventajas y desventajas (esto significa
que, para cada situación, puede ser más apropiado el uso de alguno de ellos). Sin
embargo, la media aritmética es la que se emplea con mayor frecuencia y, como
se verá más adelante, es fundamental en muchos otros cálculos estadísticos.
Media aritmética

La media aritmética, o más brevemente la media, de un conjunto de n números


x1,x2,...,xn se denota por (se lee "x barra" o "x testada") y se define como

Ejemplo 1

La media aritmética de los números 8, 3, 5, 12 y 10, es

Ver anexo: Propiedades de la media

Cuando se dan explícitamente cada uno de los números, como en el primer


ejemplo, se tiene una serie simple. También es posible calcular fácilmente la
media en series formadas por números que se repiten con frecuencia conocida.

Media aritmética en series con frecuencia asociada

Si los números ocurren veces, respectivamente (es decir,

ocurren con frecuencias ) la media aritmética es

en donde es la frecuencia total (es decir, el número total de casos).


Ejemplo 2

De un grupo de diez alumnos, tres obtuvieron calificación 5, cuatro obtuvieron


calificación 6, dos obtuvieron calificación 8 y uno obtuvo calificación 9. Esto se
representa en la siguiente tabla de frecuencias.

Tabla 1

calificación frecuencia

5 3

6 4

8 2

9 1

La calificación media (media aritmética de las calificaciones) del grupo será

Media aritmética ponderada

Algunas veces asociamos con los números ciertos factores de peso

, dependiendo de la importancia dada a los números. En este caso,

Se llama la media aritmética ponderada. Note la similitud de esta ecuación con


la correspondiente a la media de series con frecuencia asociada, que se puede

considerar una media aritmética ponderada con pesos .

Ejemplo 3

Suponga que para obtener la calificación de un alumno en la materia de


Estadística se aplica el siguiente criterio: "dadas las calificaciones de dos
exámenes parciales y la calificación del examen final, la calificación del curso se
obtendrá con una media aritmética dando a la calificación final un peso
equivalente a tres calificaciones parciales". Calcular la calificación del curso de
Estadística para Juan Pérez, que obtuvo 70 y 90 en los exámenes parciales y 85
en el examen final.

Tomando en cuenta los pesos correspondientes para la calificación de cada


examen, la calificación media es

Nota: Los pesos asignados para este cálculo fueron 1-1-3. Sin embargo, se podría
haber hecho cualquier otra asignación de pesos, a condición de que el último
fuera el triple de los dos primeros. Puede probarse que, por ejemplo, la
asignación de pesos 2-2-6 da el mismo resultado.

La media de varias medias

A veces se dispone de varias medias correspondientes a dos o más muestras y se


desea hallar la media de todos los valores como si se tratara de un solo grupo.
Esto se puede hacer calculando la media ponderada de las medias muestrales,
como se ilustra en el siguiente ejemplo.

Ejemplo 4

Supongamos que los resultados de una prueba, aplicada a tres grupos, son los
siguientes:

Tabla 2

Siendo y la media y el número de personas en los grupos 1, 2 y 3,


respectivamente. Se trata de hallar la media de los tres grupos como si fuera uno
solo, .
Por definición, la media es igual a la suma de todas las puntuaciones dividida por
el número total de ellas.

Para cada grupo, si se conoce la media y el número de puntuaciones, se puede


despejar la suma.

De esta forma, hallamos la suma de las puntuaciones de cada grupo, se suman


éstas y se divide el resultado obtenido por el número total de puntuaciones. Los
cálculos se disponen así:

Tabla 3

10 60 600

60 50 3000

30 40 1200

Debe notarse que esta media no se puede obtener promediando las medias de los
tres grupos (cuyo valor es 50). Sólo cuando el número de puntuaciones de cada
grupo es idéntico, pueden promediarse las medias de los grupos para obtener la
media general.

De hecho, la media general puede obtenerse usando la fórmula de media

aritmética ponderada, usando las cómo pesos.


Mediana y moda

Mediana

La mediana de un conjunto de puntajes es el valor que está ubicado en el centro,


cuando los puntajes se acomodan en orden de magnitud creciente (o
decreciente). La mediana suele denotarse con (se pronuncia "x con tilde").

Ejemplo 1

La mediana de los puntajes { 5, 3, 7, 5, 4, 6, 3 } es 5, debido a que el


correspondiente conjunto ordenado { 3, 3, 4, 5, 5, 6, 7 } tiene al 5 en el centro.

Si el número de puntajes es par, existen dos valores centrales (o más bien, no


existe valor central). En este caso, buscamos los dos puntajes del centro y luego
calculamos su media aritmética.

Ejemplo 2

La mediana del conjunto {500, 500, 600, 800, 1000, 5000} es 700. Este conjunto
ya está ordenado y tiene los puntajes centrales 600 y 800, por consiguiente, la
mediana es la media aritmética de 600 y 800, es decir, 700.

En distribuciones de frecuencia, la mediana se define como el puntaje o puntaje


potencial de la distribución que posee abajo y arriba de ella el mismo número de
frecuencias.

La mediana es un caso especial de rango percentil (el percentil 50). Por lo tanto,
para distribuciones de frecuencia agrupadas, puede utilizarse el procedimiento
descrito en el tema 1.6.2 (referente a percentiles) para calcular la mediana.

Una característica sobresaliente de la mediana es su insensibilidad hacia las


calificaciones extremas. Considere el siguiente conjunto de puntajes: 2, 5, 8, 11,
48. La mediana es 8.

Esto es verdad, aunque el conjunto tiene un puntaje extremo de 48. Si en


lugar de 48 tuviésemos un puntaje de 97, la mediana seguiría siendo la
misma. Esta característica de la mediana la hace muy útil para la
descripción de la tendencia central en algunos tipos de distribuciones en los
cuales la media es una medida inaceptable, debido a su sensibilidad a los
puntajes extremos.

Moda

De todas las medidas de tendencia central, la moda es la que se determina más


fácilmente, puesto que se obtiene por inspección y no por cómputo. La moda es
simplemente el puntaje que ocurre con mayor frecuencia. Para datos agrupados,
la moda se designa como el punto medio (marca de clase) del intervalo que
contiene la mayor frecuencia.

Ejemplo 3

La moda de los puntajes de la Tabla 1 es 8, ¿por qué?

Tabla 1

Puntaje Frecuencia

6 1

7 4

8 9

9 3

De las diferentes medidas de tendencia central que estamos


considerando, la moda es la única que se puede usar con datos que están
en una escala de medición nominal, como se ilustra en el siguiente
ejemplo.

Ejemplo 4

En un estudio de tiempo de reacción participaron 20 sujetos zurdos, 30 diestros y


10 ambidiestros. Aunque no podemos promediar numéricamente estas
características, podemos informar que la moda es diestros, porque ésa es la
característica que tiene la frecuencia más alta.

En algunas distribuciones pueden existir dos puntos máximos que produzcan la


apariencia de dos jorobas, similares a las de la espalda de un camello. Tales
distribuciones se llaman bimodales. Una distribución que contenga más de dos
jorobas se llama multimodal.
Comparación de las medidas de tendencia central

¿Cuál es la mejor medida de tendencia central? Desafortunadamente, esta


pregunta no tiene una sola respuesta óptima porque no existen criterios
objetivos para determinar cuál es la medida más representativa para todos los
conjuntos de datos. Las diferentes medidas de tendencia central tienen ventajas
y desventajas.

Una ventaja importante de la media es que toma en cuenta todos los puntajes,
pero una desventaja es que unos cuantos puntajes extremos pueden afectarla
drásticamente. Esta desventaja puede superarse usando una media recortada
(que ignora algún porcentaje de valores extremos, para disminuir la
sensibilidad). Por otra parte, la media es la base del sistema matemático
necesario para análisis estadísticos avanzados.

Por otra parte, hay algunas ocasiones en que se prefiere la mediana como
medida de tendencia central. Cuando la distribución es simétrica (alrededor de
la media), la media y la mediana son idénticas. Sin embargo, cuando la
distribución es asimétrica (sesgada) la media proporciona una estimación falsa de
la tendencia central.

La mediana es también la medida que se elige en las distribuciones en las cuales


hay valores indeterminados (desconocidos). Para ilustrar, cuando hacemos
caminar ratas en un laberinto, habrá ocasiones en que una o varias simplemente
no caminen. Sus tiempos son, por lo tanto, indeterminados. Sus "puntajes" no
pueden despreciarse simplemente ya que la característica de su no-caminata
será de una significación considerable al evaluar los efectos de la variable
independiente. En estas circunstancias, deberá ser empleada la mediana.

La moda es la medida apropiada siempre que se desee una estimación


aproximada rápida de la tendencia central, o cuando estamos interesados
únicamente en el caso típico. La moda rara vez se usa en ciencias del
comportamiento. Sin embargo, es la moda la única que se puede usar con datos
nominales.

Rango

Es una medida razonable de la dispersión, que se obtiene fácilmente restando el


valor más bajo de un conjunto de observaciones del valor más alto.
Sin embargo, el rango, por su misma facilidad de cálculo presenta los
inconvenientes siguientes:

No utiliza todas las observaciones (sólo dos de ellas);


Se puede ver muy afectada por alguna observación extrema;
El rango aumenta con el número de observaciones, o bien se queda igual. En
cualquier caso nunca disminuye.

Ejemplo:
A partir de los valores, determine el Rango:

13 14 15 9 5 9 2 14 10 6 10 11 13 14 14

Solución:
El rango se calcula utilizando la siguiente fórmula:

Rango = Valor Mayor - Valor Menor

Rango = 15 - 2 = 13

Desviación media

Se define la desviación media, como las diferencias en valor absoluto de los


valores de la variable a la media, es decir, si tenemos un conjunto de n
observaciones, ,..., , entonces:
Dicho de otra manera:

Si se suma el valor absoluto de las diferencias de cada valor respecto a la media,


y se divide entre el número de datos, se obtiene el promedio de las diferencias
de cada valor respecto a la media. A esta medida se le conoce como desviación
media.

La desviación media guarda las mismas dimensiones que las observaciones. La


suma de los valores absolutos es relativamente sencilla de calcular, pero esta
simplicidad tiene un inconveniente: Desde el punto de vista geométrico, la
distancia que induce la desviación media en el espacio de observaciones no es la
natural (no permite definir ángulos entre dos conjuntos de observaciones). Esto
hace que sea muy engorroso trabajar con ella a la hora de hacer inferencias a la
población.

Fórmula para datos agrupados:

Para datos agrupados, el valor de la desviación media se aproxima por:


Ejemplo:
A partir de los valores, determine la desviación media:

13 14 15 9 5 9 2 14 10 6 10 11 13 14 14

Solución:
La desviación media se obtiene de la siguiente forma:

Aunque primero es necesario calcular la media:

13 14 15 9 5 9 2 14 10 6 10 11 13 14 14
xi
10. 10. 10. 10. 10. 10. 10. 10. 10. 10. 10. 10. 10. 10. 10.
6 6 6 6 6 6 6 6 6 6 6 6 6 6 6

2.4 3.4 4.4 1.6 5.6 1.6 8.6 3.4 0.6 4.6 0.6 0.4 2.4 3.4 3.4 46.
4

Desviación estándar y varianza


Desviación estándar.
Varianza.
Como entender la desviación estándar.

Desviación estándar

La desviación estándar es la medida de dispersión más importante y útil en


estadística; ya que toma en cuenta todos los valores considerando que si las
desviaciones de las observaciones con respecto a la media se elevan al cuadrado,

, todos los sumandos tienen el mismo signo (positivo) y se obtiene una


forma de medir la dispersión de los datos que se presentan en la fórmula
siguiente:

Que se denomina desviación estándar de la muestra por lo que su definición es:

La desviación estándar de un conjunto de puntajes de muestra, es una medida de la


variación de los puntajes de la medida

Se sugiere aplicar el siguiente procedimiento para calcular la desviación


estándar:

Paso 1:
Calcular la media de los puntajes .
Paso 2: Restar la media de cada puntaje individual .

Elevar al cuadrado cada una de las diferencias obtenidas en el paso 2. Es


decir, multiplicar cada valor por sí mismo. (Esto genera números de la forma
Paso 3:
.

Paso 4:
Sumar todos los cuadros obtenidos en el paso 3 para obtener .

Paso 5: Dividir el total del paso 4 entre el número . La razón para dividir
entre , en lugar de entre n, es que solo hay desviaciones
independientes, es decir no hay dispersión en un solo dato.

Paso 6: Obtener la raíz cuadrada del resultado del paso anterior.

Ejemplo 1. Calcular la desviación estándar de los tiempos de espera de los


clientes del Banco del Oriente. Reproducimos esos tiempos en minutos:

6.5 6.6 6.7 6.8 7.1 7.3 7.4 7.7 7.7 7.7

Solución. A muchos estudiantes se les hará fácil usar la función de desviación


estándar incorporada a su calculadora, pero el concepto se entiende mejor si se
siguen los pasos detallados del cálculo, lo cual se observa en la tabla que se
presenta

Paso 1: Calcular la media de 7.15 sumando los puntajes y dividiendo el total


entre el número de puntajes:

min.

Paso 2: Restar la media de 7.15 a cada puntaje para obtener estos valores de
.

Paso 3: Elevar al cuadrado cada valor obtenido en el paso anterior para obtener
estos valores de .

Cálculo de la desviación estándar para los clientes del Banco


del Oriente

6.5 -0.65 0.4225


6.6 -0.55 0.3025
6.7 -0.45 0.2025
6.8 -0.35 0.1225
7.1 -0.05 0.0025
7.3 0.15 0.0225
7.4 0.25 0.0625
7.7 0.55 0.3025
7.7 0.55 0.3025
7.7 0.55 0.3025

Totales: 71.5 2.0450

min.
min.

Paso 4: Sumar todos los valores anteriores para obtener

Paso 5: Hay puntajes, así que dividimos entre uno menos que 10

Paso 6: Sacamos la raíz cuadrada de 0.2272. La desviación estándar es

min.

En nuestra definición de desviación estándar nos referimos a la desviación


estándar de los datos de muestra. Para calcular la desviación estándar de una
población, en vez de dividir entre , se divide entre el tamaño de la
población N, como lo muestra la siguiente expresión:

Desviación estándar de la población

Por ejemplo, si los 10 puntajes de la tabla anterior constituyen una población, la


desviación es

min.
Varianza

Si omitimos el paso 6 (obtener la raíz cuadrada) en el procedimiento para


calcular la desviación estándar, obtenemos la varianza, que se expresa:

Varianza de la muestra

De forma similar, podemos expresar la varianza de la población como:

Varianza de la población

Si se compara con la fórmula anterior, vemos que la varianza es el cuadrado de


la desviación estándar. Un problema importante de la varianza es que no está en
las mismas unidades de los datos originales. Por ejemplo, un conjunto de datos
podría tener una desviación estándar de 3.00 dólares y una varianza de 9.00
dólares cuadrados. Dado que un dólar cuadrado es un concepto abstracto que no
se puede visualizar directamente, se pueden tener problemas para entender la
varianza.

Fórmula rápida

Ahora presentaremos otras dos fórmulas para calcular la desviación estándar.


Estas fórmulas no implican un concepto distinto; sólo son versiones de la fórmula
de la desviación estándar. Se puede expresar en la siguiente forma equivalente:

Fórmula rápida para la desviación estándar

Las fórmulas son equivalentes en el sentido de que siempre producen los mismos
resultados. Se le llama fórmula rápida, porque suele ser más cómoda de usar con
números complicados o con conjuntos grandes de datos. Se usa a menudo en las
calculadoras y programas de computadora, porque sólo requiere tres registros de

memoria (para n, y ) en vez de un registro de memoria individual para


cada puntaje. Además, la fórmula rápida elimina los errores de redondeo
intermedios que se crean cuando no se usa el valor exacto de la media. No
obstante, muchos profesores prefieren usar sólo la fórmula original para calcular
desviaciones estándar. Hemos incluido la fórmula rápida para que la usen quienes
deseen usarla, ya presentamos un ejemplo para ilustrar el cálculo de una
desviación estándar con la fórmula original, y el siguiente ejemplo ilustra el uso
de la fórmula rápida

Ejemplo 2. Calcule la desviación estándar de los tiempos de espera de los


clientes del Banco del Oriente, usando la fórmula rápida.

6.6 6.7 6.8 7.1 7.3 7.4 7.7 7.7 7.7


6.5

Solución. Obtener los valores de , y . Puesto que hay 10 puntajes,

tenemos . La suma de los 10 puntajes es , así que . El


tercer componente requerido se calcula de la siguiente manera:

Ahora podemos usar la fórmula rápida para obtener el valor de la desviación


estándar

= 0.4766783 = 0.48 min. (redondeado).

Fórmula rápida para datos agrupados

Podemos deducir una fórmula para la desviación estándar cuando los datos están
resumidos en una tabla de frecuencia. La cual es:
Expresaremos esta fórmula como una expresión equivalente que por lo regular
simplifica los cálculos.

desviación estándar para tabla de frecuencia

donde marca de clase


frecuencia de clase

tamaño de la muestra o suma de frecuencias

Ejemplo 3. Estime la desviación estándar de las 175 cargas de latas de aluminio


empleando la fórmula anterior con la tabla de frecuencia.

Solución. La aplicación de la fórmula requiere la obtención de los valores de ,

y . Después de obtener esos valores de la tabla, aplicamos la


fórmula

Cálculo de la desviación estándar, a partir de una tabla de frecuencia


Marca de
Carga Frecuencia clase
200-209 9 204.5 1,840.5
376,382.25
210-219 3 214.5 643.5
138,030.75
220-229 5 224.5 1,122.5
252,001.25
230-239 4 234.5 938.0
219,961.00
240-249 4 244.5 978.0
239,121.00
250-259 14 254.5 3,563.0
906,783.50
260-269 32 264.5 8,464.0
2,238,728.00
270-279 52 274.5 14,274.0
3,075,729.50
280-289 38 284.5 10,811.0
1,214,223.50
290-299 14 294.5 4,123.0

Total
Aplicando la fórmula:

lb.

Las 175 cargas de latas tienen una desviación estándar estimada de 22.3 lb.

Como entender la desviación estándar:

Para un entendimiento intuitivo de la desviación estándar, primero debemos


entender claramente que la desviación estándar mide la variación entre los
puntajes. Si los puntajes están muy juntos, la desviación estándar será pequeña,
pero si están más separados producirán una desviación estándar mayor.
Analizando la figura siguiente se observa que a medida que los datos se dispersan
los valores de la desviación estándar aumentan.

Dado que la dispersión es un concepto tan importante y que la desviación


estándar es una herramienta muy útil para medir la variación, consideraremos
tres formas diferentes para lograr una apreciación intuitiva de los valores de la
desviación estándar. La primera es, la regla práctica de intervalo:

En un conjunto de datos representativos, el intervalo del conjunto tiene una


anchura aproximada de cuatro desviaciones estándar (4s), así que la desviación
estándar se puede aproximar de la siguiente manera:
Esta expresión proporciona una estimación burda de la desviación estándar, si
conocemos los puntajes máximo y mínimo. Si conocemos el valor de la desviación
estándar, podemos usarlo para entender mejor los datos obteniendo
estimaciones burdas de los puntajes máximo y mínimo como se indica.

Al calcular una desviación estándar, podemos usar la regla práctica de intervalo


como forma de comprobar nuestro resultado, pero hay que tener presente que si
bien la aproximación nos indica el orden aproximado de la respuesta, puede
tener un error considerable. En el caso de los tiempos esperados de los clientes
del banco Banamex

6.5 6.6 6.7 6.8 7.1 7.3 7.4 7.7 7.7 7.7

Usamos la fórmula 1 para calcular la desviación estándar, que es s = 0.48 min.


Estos valores tienen un intervalo de 7.7-6.5 = 1.2, así podríamos usar la regla
práctica de intervalo para tener una estimación burda de s como se indica:

Vimos que la desviación estándar s es en realidad 0.48, mientras que la regla


práctica de intervalo nos da una estimación de 0.3, que es un tanto baja. No
obstante, nuestro estimado confirma que no andamos lejos, y sabríamos que un
valor de, digamos, 7 para s probablemente no es correcto.

Otra regla útil para interpretar un valor de desviación estándar es la regla empírica, que
aplica sólo a un conjunto de datos cuya distribución tiene aproximadamente forma de
campana, como en la figura siguiente. Esta figura muestra cómo podemos relacionar la
media y la desviación estándar de los datos con la fracción de los datos que cae dentro
de ciertos límites. Por ejemplo, los conjuntos de datos con distribución en forma de
campana tienen cerca del 95% de sus valores a una distancia de menos de dos
desviaciones estándar de la media. La regla empírica a menudo se expresa en una forma
abreviada, a veces llamada regla 68-95-99.
Regla 68-95-99 para datos con distribución en forma de campana :

Cerca del 68% de todos los puntajes queda a menos de una desviación estándar
de la media.
Cerca del 95% de todos los puntajes queda a menos de dos desviaciones estándar
de la media.
Cerca del 99.7% de todos los puntajes queda a menos de tres desviaciones
estándar de la media.

Ejemplo
Los puntajes de coeficiente intelectual (CI) de adultos tiene una distribución en
forma de campana con una media de 100 y una desviación estándar de 15. Utilice
la regla empírica para estimar el porcentaje de adultos que tienen puntajes de CI
entre 55 y 145.
Solución
La clave para resolver este problema es reconocer que tanto 55 como 145 están
exactamente a tres desviaciones estándar de la media de 100.

Dado que la desviación estándar es s = 15, se sigue que 3s = 45,

así que tres desviaciones estándar por debajo de la media es

100 - 45 = 55,

y tres desviaciones por arriba de la media es

100 + 45 = 145

La regla empírica dice que el 99.7% de todos los puntajes está a menos de tres
desviaciones estándar de la media, así que el 99.7% de los adultos deberá tener
puntajes de CI entre 55 y 145. En vista de que los valores fuera de ese intervalo
son escasos, alguien que tiene un CI mayor que 145 o menor que 55 se considera
excepcional.

Un tercer concepto útil para entender o interpretar un valor de desviación


estándar es el teorema de Chebyshev. La regla empírica que acabamos de ver,
aplica sólo a conjuntos de datos cuya distribución tiene forma de campana. El
teorema de Chebyshev aplica a cualquier conjunto de datos, pero sus resultados
son muy aproximados.

Teorema de Chebyshev

La proporción (o fracción) de cualquier conjunto de datos que queda a menos de K

desviaciones estándar de la media siempre es al menos , donde K es cualquier


número positivo mayor que 1. Para K = 2 y K = 3, obtenemos los dos resultados
específicos siguientes:

Al menos 3/4 (o el 75%) de todos los puntajes quedan a menos de 2 desviaciones


estándar de la media
a .
Al menos 8/9 (o el 89%) de todos los puntajes quedan a menos de 3 desviaciones
estándar de la media
a .

Si usamos puntajes CI con una media de 100 y una desviación estándar de 15, el
teorema de Chebyshev nos dice que al menos el 75% de los puntajes de CI están
entre 70 y 130, y al menos el 89% de los puntajes de CI están entre 55 y 145.
Después de estudiar esta sección, el lector deberá entender que la desviación
estándar es una medida de variación entre los puntajes. Dada una muestra de
datos, el lector deberá poder calcular el valor de la desviación estándar,

e interpretar dicho valor. También deberá reconocer que, en el caso de


conjuntos de datos representativos, es raro que un puntaje difiera de la media
más de dos o tres desviaciones estándar.

Resuelve los siguientes ejercicios

Coeficiente de variabilidad

Esta es una medida sencilla que permite comparar el grado de dispersión en valor
relativo de dos o más conjuntos de datos.

Para cada grupo, el coeficiente de variabilidad se obtiene dividiendo la


desviación estándar entre la media. Por ejemplo, si la desviación estándar es 8.3
metros y la media es 68 metros, el coeficiente de variabilidad es (8.3 metros/68
metros) = 0.1222

Coeficiente de variabilidad = Desviación Estándar / Media

Si el coeficiente de variabilidad se multiplica por 100, se convierte en el


porcentaje de variabilidad. En el ejemplo anterior el porcentaje de variabilidad
es 12.2%.

Tanto el coeficiente como el porcentaje de variabilidad, expresan la relación


entre la desviación estándar y la media de un grupo de datos. Esta relación,
permite comparar diferentes grupos de datos en función de su grado de
dispersión relativa a sus mismos datos; de esta manera se descubren
proporciones no visibles a simple vista, como es el caso del ejemplo siguiente:

Ejemplo:
Calcular el coeficiente de variabilidad de los siguientes grupos de datos:
Grupo 1: 1.78 1.59 1.63 1.65 y 1.84 m
Grupo 2: 178 159 163 165 y 184 cm
Grupo 3: 70.08 62.59 64.17 64.96 y 72.44 pulg.

Solución:
El resultado se resume en la siguiente tabla
Grupo Media Desv. Est. C. Variabilidad

1 1.698 m. 0.106 m. 0.062

2 169.8 cm. 10.66 cm. 0.062

3 4.369 pulg. 4.369 pulg. 0.062

Observe que, aunque los valores media y desviación estándar de cada grupo son diferentes
entre sí, el coeficiente de variabilidad es el mismo, pues en este caso se refieren a la misma
medida pero en unidades diferentes, el coeficiente de variabilidad indica que cada grupo
tiene la misma variabilidad en sus datos.

Ejemplos

Competencia l

Ejemplo 1: los siguientes datos representan los pesos de una muestra


de 40 personas. Obtenga la media, mediana, moda, desviación media,
varianza, desviación estándar y coeficiente de variación de los
siguientes datos.

90 62 88 76 93
93 71 59 85 75
62 95 78 63 72
77 69 74 68 60
95 60 79 83 71
85 76 65 71 75
78 62 76 53 74
63 76 75 85 77

Se ordenan los datos:

53 59 60 60 62
62 62 63 63 65
68 69 71 71 71
72 74 74 75 75
75 76 76 76 76
77 77 78 78 79
83 85 85 85 88
90 93 93 95 95

Número de datos: 40

Rango: 95- 45 = 42

Número de clases: 1 + 3.3 log (40) = 6.2 ≈ 6

Amplitud (w) = (42) / 6 = 7


Se construye una tabla de distribución de frecuencia con los cálculos necesarios
para aplicar las formulas necesarias

FRECUENCIAS
Fronteras Absoluta Relativa
Intervalo Inf. Sup. X FS FR Simple Acum. FX lX-Xl F(X-X) F ( X - X )2
1 53 60 56.5 4 4 10 10 226 18.02 72.08 1298.88
2 60 67 63.5 6 10 15 25 381 11.02 66.12 728.64
3 67 74 70.5 8 18 20 45 564 4.02 32.16 129.28
4 74 81 77.5 12 30 30 75 930 2.98 35.76 106.56
5 81 88 84.5 5 35 12.5 87.5 422.5 9.98 49.9 498
6 88 95 91.5 5 40 12.5 100 457.5 16.98 84.9 1441.6
Σ= 2981 Σ= 340.92 Σ= 4202.96

Calculamos la media

∑ 𝑓𝑋𝑖 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑝𝑜𝑟 𝑙𝑎 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎


X=𝜇 = =
𝑛 𝑁𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠

x = (2981)/40 = 74.52

Calculamos la desviación media


𝐟( 𝐗 − 𝐗 )
𝐷𝑀 = ∑ 𝒏

D.M. = (340.92)/40 = 8.52

Calculamos le mediana
Mediana = límite inferior exacto + (N/2 – frecuencia acumulada antes de la clase mediana) por ancho del intervalos de clase
Frecuencia de la clase mediana

𝑁⁄ − ∑(𝑓)𝑎
Mediana = Li + ( 𝑓𝑚𝑒𝑑𝑖𝑎𝑛𝑎
2
)∗𝐶

Md = [[41)/2-19] /12] 7 + 74 = 74.87

Calculamos la moda
𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑀𝑎 − 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑛𝑡𝑒𝑠 𝑑𝑒 𝑀𝑎
𝑚𝑜𝑑𝑎 = 𝑙𝑖𝑀𝑎 + ( ) 𝐴 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑀𝑎
𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑀𝑎 − 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒𝑠𝑝𝑢𝑒𝑠 𝑑𝑒 𝑀𝑎

Mo = 74 + [(4/11)(7)] = 74 + 2.54 = 76.54

Calculamos la varianza

2 (𝑋𝑖−𝑚𝑒𝑑𝑖𝑎)2 𝑓
Varianza =𝑠 =∑
𝑁

S2 = Desviación estándar =√𝑠2= s


Calculamos la desviación estándar

S = √ (4202.96)/40 = 10.25

Calculamos el coeficiente de variación


𝑠
CV= 𝑥 100
𝑥

C.V = [(10.25)/74.52] (100) = 13.75 %

Ejemplo 2: los siguientes datos representan una muestra de las


edades de 40 personas obtenga la media, mediana, moda, desviación
media, varianza, desviación estándar y coeficiente de variación de los
siguientes datos.

68 84 75 82 68
73 79 88 73 60
61 65 75 87 74
66 78 82 75 94
96 78 89 61 75
79 62 67 97 78
65 80 73 57 88
86 67 73 81 72
Se ordenan los datos:

57 60 61 61 62
65 65 66 67 67
68 68 72 73 73
73 73 74 75 75
75 75 78 78 78
79 79 80 81 82
82 84 86 87 88
88 89 94 96 97

Número de datos: 40

Rango: 97- 57 = 40

Número de clases: 1 + 3.3 log (40) = 6.2 ≈ 5

Amplitud (w) = (40) / 5 = 8


Se construye una tabla de distribución de frecuencia con los cálculos necesarios
para aplicar las formulas necesarias

FRECUENCIAS
Fronteras Absoluta Relativa
Intervalo Inf. Sup. X FS FR Simple Acum. FX lX-Xl F(X-X) F ( X - X )2
1 57 65 61 7 7 17.5 17.5 427 14 98 1372
2 65 73 69 10 17 25 42.5 690 6 60 360
3 73 81 77 12 29 30 72.5 924 2 24 48
4 81 89 85 8 37 20 92.5 680 10 80 800
5 89 97 93 3 40 7.5 12.5 279 18 54 972
Σ= 3000 Σ= 316 Σ= 3552

Calculamos la media

∑ 𝑓𝑋𝑖 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑝𝑜𝑟 𝑙𝑎 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎


X=𝜇 = =
𝑛 𝑁𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠

x = (3000)/40 = 75

Calculamos la desviación media


𝐟( 𝐗 − 𝐗 )
𝐷𝑀 = ∑ 𝒏

D.M. = (316)/40 = 7.9

Calculamos le mediana
Mediana = límite inferior exacto + (N/2 – frecuencia acumulada antes de la clase mediana) por ancho del intervalos de clase
Frecuencia de la clase mediana

𝑁⁄ − ∑(𝑓)𝑎
Mediana = Li + ( 𝑓𝑚𝑒𝑑𝑖𝑎𝑛𝑎
2
)∗𝐶

Md = [[41)/2-18] /12] 8 + 73 = 74.66

Calculamos la moda

𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑀𝑎 − 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑛𝑡𝑒𝑠 𝑑𝑒 𝑀𝑎


𝑚𝑜𝑑𝑎 = 𝑙𝑖𝑀𝑎 + ( ) 𝐴 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑀𝑎
𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑀𝑎 − 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒𝑠𝑝𝑢𝑒𝑠 𝑑𝑒 𝑀𝑎
Mo = 73 + [(2/6)(8)] = 73 + 2.66 = 75.66

Calculamos la varianza

2 (𝑋𝑖−𝑚𝑒𝑑𝑖𝑎)2 𝑓
Varianza =𝑠 =∑
𝑁

S2 = Desviación estándar =√𝑠2= s


Calculamos la desviación estándar

S = √ (3552)/40 = 9.42

Calculamos el coeficiente de variación


𝑠
CV= 𝑥 100
𝑥

C.V = [(9.42)/75] (100) = 12.56 %

Ejemplo 3: los siguientes datos representan una muestra de 50


tornillos que se les midió su diámetro obtenga la media, mediana,
moda, desviación media, varianza, desviación estándar y coeficiente
de variación de los siguientes datos.
0.098 0.105 0.096 0.098 0.105 0.108 0.101 0.094
0.103 0.101 0.107 0.103 0.092 0.097 0.094 0.102
0.104 0.11 0.101 0.103 0.104 0.109 0.104 0.112
0.100 0.095 0.115 0.095 0.106 0.110 0.100 0.103
0.108 0.106 0.100 0.107 0.102 0.096 0.101 0.099
0.099 0.105 0.103 0.099 0.111 0.102 0.104 0.107

Se ordenan los datos:

0.092 0.096 0.098 0.100 0.101 0.103 0.104 0.105 0.107 0.110
0.094 0.096 0.099 0.100 0.102 0.103 0.104 0.106 0.108 0.110
0.094 0.097 0.099 0.101 0.102 0.103 0.104 0.106 0.108 0.112
0.095 0.097 0.099 0.101 0.102 0.103 0.105 0.107 0.108 0.112
0.095 0.098 0.100 0.101 0.103 0.104 0.105 0.107 0.109 0.115
Número de datos: 50

Rango: 0.115- 0.092 = 0.023

Número de clases: 1 + 3.3 log (50) = 6.60 ≈ 7

Amplitud (w) = (0.115-0.092)/7 = 0.00328

Se construye una tabla de distribución de frecuencia con los cálculos necesarios


para aplicar las formulas necesarias

FRECUENCIAS
Fronteras Absoluta Relativa
Intervalo Inf. Sup. X FS FR Simple Acum. FX lX-Xl F(X-X) F ( X - X )2
1 0.092 0.09528 0.0964 5 5 10 10 0.4682 0.00890 0.0445 0.000396
2 0.09528 0.09856 0.09692 6 11 12 22 0.58152 0.00558 0.3348 0.000186
3 0.09856 0.10185 0.10025 10 21 20 42 1.0025 0.00225 0.0225 0.000050
4 0.10185 0.10514 0.10348 15 36 30 72 1.5522 0.00097 0.01455 0.000014
5 0.10514 0.10842 0.10676 8 44 16 88 0.85408 0.00425 0.034 0,000144
6 0.10842 0.11171 0.11004 4 48 8 96 0.44016 0.00753 0.0312 0.000226
7 0.11171 0.115 0.11332 2 50 4 100 0.22664 0.01081 0.02162 0.000233
50 Σ= 5.1253 Σ= 0.20077 Σ= 0.000233

Calculamos la media

∑ 𝑓𝑋𝑖 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑝𝑜𝑟 𝑙𝑎 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎


X=𝜇 = =
𝑛 𝑁𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠

x = (5.1253)/50 = 0.10250

Calculamos la desviación media


𝐟( 𝐗 − 𝐗 )
𝐷𝑀 = ∑ 𝒏

D.M. = (0.20077)/50 = 0.00401

Calculamos le mediana
Mediana = límite inferior exacto + (N/2 – frecuencia acumulada antes de la clase mediana) por ancho del intervalos de clase
Frecuencia de la clase mediana
𝑁⁄ − ∑(𝑓)𝑎
Mediana = Li + ( 𝑓𝑚𝑒𝑑𝑖𝑎𝑛𝑎
2
)∗𝐶

Md = [[51)/2-22] /15] 0.00328 + 0.10185 = 0.10261

Calculamos la moda

𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑀𝑎 − 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑛𝑡𝑒𝑠 𝑑𝑒 𝑀𝑎


𝑚𝑜𝑑𝑎 = 𝑙𝑖𝑀𝑎 + ( ) 𝐴 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑀𝑎
𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑀𝑎 − 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒𝑠𝑝𝑢𝑒𝑠 𝑑𝑒 𝑀𝑎

Mo = 0.10185 + [(5/7)(0.00328)] = 0.10185 + 0.002342 = 0.10419

Calculamos la varianza

2 (𝑋𝑖−𝑚𝑒𝑑𝑖𝑎)2 𝑓
Varianza =𝑠 =∑
𝑁

S2 = Desviación estándar =√𝑠2= s


Calculamos la desviación estándar

S = √ (0.000233)/50 = 0.002158

Calculamos el coeficiente de variación


𝑠
CV= 𝑥 100
𝑥

C.V = [(0.002158)/0.10250] (100) = 2.10 %

También podría gustarte