Está en la página 1de 28

UNIVERSIDAD POPULAR DEL CESAR

FACULTAD DE CIENCIAS BÁSICAS Y EDUCACIÓN


DEPARTAMENTO DE MATEMÁTICAS Y ESTADÍSTICA

Notas de clase
Probabilidad y Estadı́stica

Trabajo que presentaré a la Universidad Popu-


lar del Cesar con el propósito de ascender a la
categorı́a de Profesor Titular.

HUMBERTO BARRIOS E.
Docente Asociado
Magister en Ciencias Estadı́stica
Candidato Doctor en Estadı́stica

Un Compromiso Nuevo Para Construir Academia

Valledupar, Colombia
Índice general

1. ESTADÍSTICA DESCRIPTIVA 3
1.1. INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. DESCRIPCIONES DE UN CONJUNTO DE MEDICIONES . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1. DISTRIBUCIONES DE FRECUENCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2. MÉTODO GRÁFICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3. MEDIDAS NUMÉRICAS DESCRIPTIVAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.1. MEDIDAS DE TENDENCIA CENTRAL . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.2. MEDIDAS DE DISPERSIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.3. OTRAS MEDIDAS DESCRIPTIVAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4. EJERCICIOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3. VARIABLES ALEATORIAS 56
3.1. VARIABLES ALEATORIAS DISCRETAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2. VARIABLES ALEATORIAS CONTINUAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.3. VALOR ESPERADO Y VARIANZA DE UNA VARIABLE ALEATORIA . . . . . . . . . . . . . . 64
3.4. FUNCIONES GENERADORAS DE MOMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.5. EJERCICIOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4. DISTRIBUCIONES DISCRETAS 83
4.1. Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.2. Distribución Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.3. Distribución Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.4. Distribución Binomial Negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.5. DISTRIBUCIÓN HIPERGEOMÉTRICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.6. EJERCICIOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

5. DISTRIBUCIONES CONTINUAS 105


5.1. Distribución Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

III
IV

5.2. Distribución Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107


5.3. Función Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.4. Distribución Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
5.5. Distribución Chi Cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.6. EJERCICIOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

6. VECTORES ALEATORIOS Y DENSIDADES CONJUNTAS 114


6.1. INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
6.2. Distribuciones de probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
6.3. Variables aleatorias independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
6.4. Variables aleatorias independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
6.5. Valor esperado y momentos para distribuciones conjuntas . . . . . . . . . . . . . . . . . . . . . . . . 126
6.6. La distribución multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
6.7. Distribución normal bidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
6.8. EJERCICIOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

7. DISTRIBUCIONES MUESTRALES Y TEOREMA DEL LIMITE CENTRAL 144


7.1. INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
7.2. DISTRIBUCIONES MUESTRALES DE ESTADÍSTICAS . . . . . . . . . . . . . . . . . . . . . . . 145
7.3. Teorema Central del Limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
7.4. Distribución muestral de S2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
Capı́tulo 1

ESTADÍSTICA DESCRIPTIVA

1.1. INTRODUCCIÓN
Estamos en una época en la que nos agobian acontecimientos y números, las llamadas, “estadı́sticas”, acerca
de cualquier tema comprensible. Se escuchan o se leen indagaciones de los medios de comunicaciones del número
de personas desplazadas por la violencia a las que ayuda el gobierno, el número de hectáreas sembradas de coca
radicadas diariamente por el actual gobierno y crónicas deportivas sobre el número promedios de goles en los partidos
de fútbol en una semana determinada. En este sentido para mucha gente, el término estadı́stica significa descripción
numérica. En un sentido más amplio, se puede establecer que el objetivo de la estadı́stica es hacer inferencias con
respecto a una población a partir de la información contenida en una muestra y proporcionar una medida (probabilidad)
correspondiente para la bondad de la inferencia. Es decir, la estadı́stica trata del diseño de experimento o encuestas
(investigación) mediante muestras para obtener una cantidad determinada de información a un costo mı́nimo y del uso
óptimo de esta información para sacar conclusiones (inferencias inductivas) con respecto a una población.

En estadı́stica la inferencia es inductiva porque se proyecta de lo especifico (la muestra) hacia lo general (población).
En un procedimiento de esta naturaleza siempre existe la posibilidad de error. Nunca se tendrı́a el cien por ciento de
seguridad sobre una proporción en la que se basa la inferencia estadı́stica. Sin embargo, lo que hace de la estadı́stica
una ciencia (separándola del arte de adivinar la suerte) es que, unida a cualquiera proposición o afirmación, existe una
medida de la confiabilidad de ésta. En estadı́stica se mide la confiabilidad en términos de probabilidad (un tema que
se estudiara más adelante). En otras palabras, para cada inferencia estadı́stica se identifica la probabilidad de que la
inferencia sea correcta. En estadı́stica la inferencia es inductiva porque se proyecta de lo especifico (la muestra) hacia
lo general (población). En un procedimiento de esta naturaleza siempre existe la posibilidad de error. De ningún modo
se tendrı́a el 100 % de seguridad sobre una proporción en la que se basa la inferencia estadı́stica. Sin embargo, lo que
hace de la estadı́stica una ciencia (separándola del arte de adivinar la suerte) es que, unida a cualquiera proposición
o afirmación, existe una medida de la confiabilidad de ésta. En estadı́stica se mide la confiabilidad en términos de
probabilidad (un tema que se estudiara más adelante). En otras palabras, para cada inferencia estadı́stica se identifica

3
Universidad Popular del Cesar Humberto Barrios 4

la probabilidad de que la inferencia sea correcta. Los problemas estadı́sticos se caracterizan por los siguientes cuatro
elementos:

a. La población de interés y el procedimiento cientı́fico que se emplea para seleccionar la muestra.

b. La muestra y el análisis matemático de la información.

c. Las inferencias estadı́sticas que resulten del análisis de la muestra.

d. La probabilidad o confiabilidad de que las inferencias sean correctas.

Para comprender la naturaleza de la estadı́stica inferencial, es necesario precisar algunos conceptos.

Definición 1.1. Una población es el conjunto de todas las mediciones de interés para determinado
problema. En estadı́stica, población es un concepto mucho más general del que tiene el concepto común
de esta palabra.

En este sentido, una población es cualquier colección ya sea de un número finito de mediciones o una colección gran-
de, virtualmente infinita, de datos acerca de algo de interés.

Definición 1.2. Una muestra es un subconjunto de la población que contiene las mediciones obtenidas
mediante un experimento. De esta forma, una buena muestra es aquella que refleja las caracterı́sticas
esenciales de la población de la cual se obtuvo.

En estadı́stica, el objetivo de las técnicas de muestreo es asegurar que cada observación en la población tiene una
oportunidad igual e independiente de ser incluida en la muestra. Tales procesos de muestreo conducen a una muestra
aleatoria. Las observaciones de la muestra aleatoria se usan para calcular ciertas caracterı́sticas de la muestra llamadas
estadı́sticas. Las estadı́sticas se usan como base para hacer inferencias de ciertas caracterı́sticas de la población, que
reciben el nombre de parámetros.

En cada uno de los siguientes casos se describe la población correspondiente, el objetivo inferencial y qué es lo que se
harı́a para obtener una buena muestra.

Ejemplo 1.1. Un ingeniero desea estimar el consumo semanal promedio de agua por familias en Valledupar.

Población: Todas las familias que viven en Valledupar.

Objetivo inferencial: Estimar el consumo semanal promedio de agua por familias.

Muestra: Tomar un subconjunto de todas las familias de Valledupar, de tal manera que estas familias sean “represen-
tativas”.
Universidad Popular del Cesar Humberto Barrios 5

Ejemplo 1.2. Un ingeniero electrónico desea determinar si la duración promedio de cierto tipo de transistores supera
las 500 horas.

Población: En este caso, la población puede estar constituida por todos los transistores producidos por una fábrica
durante una semana o también se puede considerar los que se pueden fabricar en el futuro. En este caso, la población
es virtualmente infinita.

Objetivo inferencial: Estimar si la duración promedio de cierto tipo de transistores supera las 500 horas.

Muestra: Seleccionar una muestra aleatoria de la producción de un lote de varios dı́as.

1.2. DESCRIPCIONES DE UN CONJUNTO DE MEDICIONES

1.2.1. DISTRIBUCIONES DE FRECUENCIAS

En el sentido más amplio, hacer inferencias implica la descripción parcial o total de un fenómeno u objeto fı́sico.
Por consiguiente, un preludio necesario a la explicación de como hacer inferencias, es la elaboración de un método
para describir un conjunto de números. La descripción debe ser tal, que el conocimiento de las medidas descriptivas
nos permita tener una apreciación clara del conjunto de datos. Además es de esperarse que la descripción posea un
sentido pragmática, para que el conocimiento de las medidas descriptivas de una población nos ayude a resolver un
problema práctico no estadı́stico, por ejemplo, en la toma de decisiones.

Ejemplo 1.3. Si se seleccionaron aleatoriamente en un proceso de fabricación de una semana, 100 baterı́as para
hallar algún tipo de regularidad en el proceso de fabricación. En el cuadro 1.1 se dan los datos que representan el
tiempo de duración en dı́as de las 100 baterı́as:

Cuadro 1.1: Tiempo de duración de 100 baterı́as


177.85 221.42 156.52 153.29 107.28 188.38 219.60 156.98 184.17 173.29
221.20 152.72 176.78 172.92 181.74 185.40 110.83 150.69 177.74 167.26
163.74 233.66 151.08 169.24 173.91 229.03 191.72 108.62 117.67 134.61
204.76 180.61 154.85 175.69 146.21 186.92 167.82 187.72 221.80 155.55
200.15 133.95 174.49 199.55 191.00 164.76 186.64 174.97 168.69 162.42
205.69 138.77 176.49 160.16 226.12 188.06 154.82 185.05 187.47 184.20
198.75 173.74 164.96 168.49 124.12 148.58 202.68 158.85 164.15 166.37
226.07 191.27 195.24 181.66 160.44 193.03 139.64 167.37 217.61 183.10
122.49 224.46 186.87 104.40 173.38 194.10 180.98 151.22 197.55 171.63
218.23 236.11 175.62 149.76 157.99 199.16 143.73 202.34 208.33 178.06
Universidad Popular del Cesar Humberto Barrios 6

Si quisiéramos buscar algún tipo de regularidad en este conjunto de datos serı́a imposible encontrarla a simple vista.
Para identificar los patrones en un conjunto de datos es necesario agrupar las observaciones en un número relativamente
pequeño de clases que no se intercepten entre sı́, de tal manera que no exista ninguna ambigüedad con respecto a
la clase que pertenece una observación en particular. El número de observaciones que caen en una clase recibe el
nombre de frecuencia de clase ( fi ), mientras que el cociente de una frecuencia de clase con respecto al número de
observaciones (n) en la muestra se conoce como frecuencia relativa ( fi /n) de la clase. Los lı́mites de las clases se
denominan fronteras de clases, y el promedio aritmético entre los lı́mites superior (Li ) e inferior (Ls ) recibe el
nombre de marca de clase o punto medio de clase (xi ).

El número de clase que se emplean para clasificar a un conjunto de datos depende del número total de observaciones.
Si el número de observaciones es relativamente pequeño, el número a emplear serı́a cinco o más. Si existe un número
sustancial de datos, el número de clases debe ser de quince clases o menos. Es decir, el número de clases que se deben
tomar no debe ser mayor a quince ni menor de cinco. Un número muy pequeño de clases puede ocultar la distribución
real del conjunto de datos, mientras que una muy numerosa puede dejar sin observaciones a algunas clases, limitando
de esta forma su uso.

Una buena práctica es la creación de clases que tengan longitudes iguales. Esto puede lograrse tomando la diferencia
entre los valores extremos del conjunto de los datos, lo que se conoce como rango (R), y dividiéndolo sobre el número
de clases, el resultado será aproximadamente la longitud para cada clase. Sin embargo, existen casos donde esta regla
no se puede aplicar o no debe aplicarse. Como ilustración, tomemos los datos de la tabla 1, para establecer un esquema
de agrupamiento para este conjunto de datos y determinar las frecuencias de clases, frecuencias relativas de clases,
marcas de clases y fronteras de clases. Agrupar los datos en clases de igual longitud.

El rango = valor mayor - valor menor = 236.11 − 104.40 = 131.71

Supóngase que se decide tomar diez clases = 10

Longitud de clase = 13.171 = 13.

Para establecer las fronteras de cada clase, es necesario considerar la unidad más cercana con respecto a la cual se
mide las observaciones. Ası́, las diez clases a considerar son:

104-117 118-131 132-145 146-159 160-173 174-187 188-201 202-215 216-229 230-243

Por lo tanto, una manera de representar a un conjunto de datos es como se muestra en la cuadro 1.2, distribución
de frecuencias correspondiente a la duración de 100 baterı́as, seleccionadas de manera aleatoria, de la producción de
una fábrica en una semana.
Universidad Popular del Cesar Humberto Barrios 7

Cuadro 1.2: Distribución de frecuencias del tiempo de duración de 100 baterı́as


fi Fi
Li Ls LI LS xi fi n Fi n

104 117 103.5 117.5 110.5 4 0.04 4 0.04


118 131 117.5 131.5 124.5 3 0.03 7 0.07
132 145 131.5 145.5 138.5 5 0.05 12 0.12
146 159 145.5 159.5 152.5 15 0.15 27 0.27
160 173 159.5 173.5 166.5 16 0.16 43 0.43
174 187 173.5 187.5 180.5 25 0.25 68 0.68
188 201 187.5 201.5 194.5 15 0.15 83 0.83
202 215 201.5 215.5 208.5 5 0.05 88 0.88
216 229 215.5 229.5 222.5 9 0.90 97 0.97
230 243 229.5 243.5 236.5 3 0.03 100 1

Donde

Li limite inferior de la clase i-ésima.

Ls limite superior de la clase i-ésima.

xi marca de clase de la clase i-ésima.

LI limite inferior real de la clase i-ésima.

LS limite superior real de la clase i-ésima.

fi frecuencia absoluta de la clase i-ésima.

fi
n frecuencia relativa de la clase i-ésima.

Fi frecuencia acumulada absoluta de la clase i-ésima.

Fi
n frecuencia acumulada relativa de la clase i-ésima.

El cuadro 1.2 de frecuencias proporciona mucha más información a simple vista que los datos originales, cuadro
1.1. En un estudio de la vida de las baterı́as, hay muchas preguntas que pueden ahora responderse. ¿Qué fracción o
porcentaje de las baterı́as puede esperarse de la población en estudio tengan una duración entre 174 a 187 dı́as?

Es claro, que si la muestra es el reflejo de la población, o como dicen mis compañeros de la UPC es “representativa”,
entonces la respuesta es 0.25, es decir, el 25 %. Muchas preguntas más se pueden responder con la tabla anterior,
como por ejemplo, ¿Cuántas baterı́as falları́an antes de 187 horas? La respuesta a esta pregunta serı́a sumar todas las
frecuencias que ocurren antes de 187, esto es, sumar las frecuencias: 4 %, 3 %, 5 %, 15 %, 16 %, y 25 % lo que suma
Universidad Popular del Cesar Humberto Barrios 8

68 %. La suma de las frecuencias ( fi ) de las observaciones cuyos valores son menores o iguales al lı́mite superior de
una clase dada se denomina frecuencia acumulada (Fi ). De la misma manera se definen la frecuencia acumulada
relativa (Fi /n).

1.2.2. MÉTODO GRÁFICO

Otra manera útil de representar los datos de una muestra es a través de gráficos. El principal objetivo de la re-
presentación gráfica de las frecuencias de clases como las frecuencias acumuladas es mostrar el perfil de distribución
de los datos. El conocimiento de este perfil es útil en varias formas, para los análisis apropiados para las inferencias
estadı́sticas o con el fin de comparar los perfiles de dos o más conjunto de datos.

Histograma de frecuencias. El histograma de frecuencias se construye levantando rectángulos con centros en las
marca de clases, con base de longitud igual a la longitud real del intervalo de clase (L = LS − LI ) y altura igual a
la frecuencia de la respectiva clase, en un eje de coordenadas. Para la distribución de frecuencias del cuadro 1.2, el
histograma de frecuencias es:

Pológono de frecuencias. Los pológonos de frecuencias son otra forma de representar gráficamente distribuciones
de clases (o distribuciones relativas de clases). Para construir un polı́gono de frecuencias señalamos en el eje hori-
zontal las marcas de clases, en el eje vertical las frecuencias correspondientes y en los extremos se añaden dos clases
con frecuencia cero, en un sistema de coordenadas, y conectamos con segmentos los puntos sobre el plano. Para la
distribución de frecuencias del cuadro 1.2, el polı́gono de frecuencias es:
Universidad Popular del Cesar Humberto Barrios 9

Los histogramas y los polı́gonos de frecuencias son parecidos. Como se puede observar en los gráficos anteriores. Pero
se pueden señalar las ventajas de los histogramas, las que se pueden resumir ası́: los rectángulos muestran cada clase
de la distribución por separado y el área de cada rectángulo, en relación con el resto, muestra la proporción del número
total de observaciones que se encuentra en cada clase.

Los polı́gonos, sin embargo, también poseen ciertas ventajas, de las cuales se pueden resaltar: el polı́gono de frecuen-
cias es más sencillo que el histograma, traza con más claridad el perfil de patrón de los datos y por último, el polı́gono
se vuelve más liso y parecido a una curva conforme aumenta el número de clases y el número de observaciones. Un
polı́gono como el que acabamos de describir, alisado mediante el aumento de clases y de puntos de datos, se conoce
como curva de frecuencias.

Ojiva. Para graficar la distribución de frecuencias acumulada (o relativa acumulada), sobre un eje de coordenadas, se
ubican los limites reales de las clases sobre el eje horizontal contra las frecuencias acumuladas (o relativas acumuladas)
en el eje vertical y se unen todos los puntos consecutivos. Para la distribución de frecuencias acumulada del cuadro
1.2 , la ojiva de las frecuencias acumuladas (o relativas acumuladas) es:
Universidad Popular del Cesar Humberto Barrios 10

En este contexto el principal uso de la distribución acumulada (o acumulada relativa) es lo que comúnmente se de-
nomina como cuantiles. Con respecto a una distribución relativa acumulada, se define un cuantil como el valor bajo
el cual se encuentra una determinada proporción de los valores de la distribución. En la próxima sección se dará una
fórmula para calcular los cuantiles correspondiente a una distribución de frecuencia acumulada.

1.3. MEDIDAS NUMÉRICAS DESCRIPTIVAS


Las descripciones gráficas de los datos presentadas en la sección anterior proporcionan una información útil res-
pecto al conjunto de mediciones, pero no es adecuado para hacer inferencias, sobre todo porque ninguna de las repre-
sentaciones (tablas y gráficas) no están bien definidas. Por ejemplo, se podrı́an elaborar muchos histogramas similares
a partir del mismo conjunto de mediciones. Para poder hacer inferencias con respecto a una población, basada en la
información contenida en una muestra y medir la confiabilidad de la inferencia, en términos de probabilidades, se
requieren cantidades obtenidas de expresiones rigurosamente definidas para analizar la información de la muestra. Es
posible obtener, mediante las matemáticas, ciertas propiedades de esas cantidades muestrales y establecer conclusiones
probabilı́sticas con respecto a la validez de las inferencias.

Las cantidades que se pretenden definir son medidas numéricas descriptivas de un conjunto de datos. Se buscan núme-
ros que describan la distribución de frecuencias para cualquier conjunto de mediciones.

Existen dos medidas de interés para cualquier conjunto de datos: la localización de su centro y su variabilidad.

1.3.1. MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central de un conjunto de datos es la disposición de éstos para agruparse ya sea alrededor
del centro o de ciertos valores numéricos. Existen principalmente tres medidas de tendencia central: la media, la
Universidad Popular del Cesar Humberto Barrios 11

mediana y la moda.

Definición 1.3. Sean x1 , x2 , x3 , . . ., xk marcas de clases con frecuencias de clases f1 , f2 , f3 , . . . fk ,


respectivamente, en una distribución de frecuencias. Entonces la media es

1 k
x̄ = ∑ xi fi (1.1)
n i=1
Donde n = f1 + f2 + f3 + . . . + fk . En el caso, f1 = f2 = f3 = . . . = fk = 1 entonces los datos se dicen
no agrupados. Ası́, la fórmula para la media se convierte en

1 n
x̄ = ∑ xi (1.2)
n i=1

La media es una medida apropiada de tendencia central para muchos conjuntos de datos. Sin embargo, dado que todas
las mediciones se emplean para su cálculo, el valor de la media puede afectarse por la existencia de algunos valores
extremos.

Definición 1.4. La mediana en un conjunto de datos no agrupados, ordenados de menor a mayor, es el


valor medio si el número de datos es impar o el promedio de los dos valores centrales cuando el número
de datos es par. Se notara la mediana por x̃.

Para el caso de datos agrupados o para una distribución de frecuencias, se procede como sigue:

a. Se identifica la clase mediana, la cual será la que contiene el elemento para el cual la mitad de todas
las observaciones es menor y la otra mitad es mayor.

b. Lm = limite real inferior de la clase mediana

c. fm = frecuencia de la clase mediana

d. Fm−1 = frecuencia acumulada anterior a la clase mediana

e. c = ancho real de la clase mediana

f. n = número de observaciones en la muestra o tamaño de muestra.

Por consiguiente, la ecuación para la mediana con datos agrupados serı́a:

n
2 − Fm−1
x̃ = Lm + c (1.3)
fm

Puesto que la mediana es un valor que se basa en la secuencia ordenada de las n mediciones, es necesario saber que la
existencia de valores extremos y agregado muy alto de observaciones, no afecta su valor, en este sentido la mediana es
Universidad Popular del Cesar Humberto Barrios 12

mejor que la media. Generalmente los conjuntos de datos que describen información de ingresos caen en esta categorı́a.

Definición 1.5. La moda para un conjunto de datos no agrupados es el valor de las observaciones que
ocurre con mayor frecuencia. La cual notaremos por: Mo .

Cuando los datos se encuentran agrupados en una distribución de frecuencias, se puede suponer que la
moda está localizada en la clase de mayor frecuencia. Para determinar un solo valor para la moda a
partir de esta clase modal, identifica:

a. LMo = limite real inferior de la clase modal

b. ∆1 = frecuencia de la clase modal menos la frecuencia que se encuentra inmediatamente por encima
de ella

c. ∆2 = frecuencia de la clase modal menos la frecuencia que se encuentra inmediatamente por debajo
de ella

d. c = ancho real de la clase modal

Entonces se utiliza la siguiente ecuación:

 
∆1
Mo = LMo + c (1.4)
∆1 + ∆2

En muchas ocasiones en una serie de datos, puede ocurrir más de una observación con la misma frecuencia. En este
caso, se dice que la distribución de frecuencias es multimodal. Como en todos los aspectos de la vida, el azar puede
desempeñar un papel importante en la organización en un conjunto de mediciones. En ocasiones, el azar hace que un
solo elemento no representativo se repita lo suficiente para ser el valor más frecuente del conjunto de mediciones. Es
por esta razón que rara vez se utilice la moda de un conjunto de datos no agrupados como medida de tendencia central.

Se explicarán el cúlculo de la media, mediana y moda con los ejemplos siguientes:

Ejemplo 1.4. (Para datos no agrupados). El tiempo de reparación, medido en horas, de un instrumento electrónico
tiene un comportamiento aleatorio. Los tiempos de reparación de 16 de tales instrumentos, elegidos a través de un
mecanismo aleatorio, son los siguientes:

5, 6, 3, 6, 11, 7, 9, 10, 2, 4, 10, 6, 2, 8, 1, 5,

Calcular la media, mediana y moda de este conjunto de datos.


Universidad Popular del Cesar Humberto Barrios 13

Para calcular la media se utiliza la fórmula (1.2), es decir,

1 n 1
x̄ = ∑ xi = (5 + 6 + 3 + 6 + 11 + 7 + 9 + 10 + 2 + 4 + 10 + 6 + 2 + 8 + 1 + 5) = 5.94
n i=1 16
Para el caso de la mediana se ordenan los datos de menor a mayor, como en este caso el número de elementos es
par, la mediana será el promedio de los dos valores centrales.

1, 2, 2, 3, 4, 5, 5, 6, 6, 6, 7, 8, 9, 10, 10, 11

Es decir,

6+6
x̃ = =6
2

La moda en una serie de datos es el valor con mayor frecuencia, en este caso el valor con mayor frecuencia es el 6.
Entonces

Mo = 6

Ejemplo 1.5. (Para datos agrupados). Con la distribución de frecuencias de la tabla 2. Calcular la media, mediana
y moda.

Solución

De la distribución de frecuencias correspondiente a la duración de 100 baterı́as, para calcular la media multiplicamos
las marcas de clases por las respectivas frecuencias de clase y dividimos por las suma de las frecuencias. Es decir,

1 L
x̄ = ∑ xi fi
n i=1
1
= [110.50(4) + 124.50(3) + 138.50(5) + 152.50(15) + 166.50(16)
100
+ 180.50(25) + 194.50(15) + 208.50(5) + 222.50(9) + 236.50(3)] = 176.44

Otra manera para calcular la media es utilizando la tabla 2, en este caso multiplicamos las marcas de clases por sus
respectivas frecuencias. Ası́:
Universidad Popular del Cesar Humberto Barrios 14

Cuadro 1.3: Cálculo de la media en una distribución de frecuencias


xi Li Ls fi xi fi
110.5 103.5 117.5 4 442.00
124.5 117.5 131.5 3 373.50
138.5 131.5 145.5 5 692.50
152.5 145.5 159.5 15 2287.50
166.5 159.5 173.5 16 2664.00
180.5 173.5 187.5 25 4512.50
194.5 187.5 201.5 15 2917.00
208.5 201.5 215.5 5 1042.50
222.5 215.5 229.5 9 2002.00
236.5 229.5 243.5 3 709.50
total 100 17644.00

1 L 1
x̄ = ∑ xi f i = (17644.00) = 176.44
n i=1 100

Para calcular la mediana de la distribución de frecuencias de la Tabla 3.

a. Se identifica la clase mediana, la cual será la que contiene el elemento para el cual la mitad de todas las observa-
ciones es menor y la otra mitad es mayor. Por lo tanto la clase mediana es: 173.5-187.5.

b. Lm = limite real inferior de la clase mediana = 173.5

c. fm = frecuencia de la clase mediana = 23

d. Fm−1 = frecuencia acumulada anterior a la clase mediana = 45

e. c = ancho real de la clase mediana = 14

f. n = número de observaciones en la muestra o tamaño de muestra = 100.

Por consiguiente, la ecuación para la mediana con datos agrupados serı́a:

n
− Fm−1
  
2 50 − 45
x̃ = Lm + c = 173.5 + 14 = 176.54
fm 23

Para determinar el valor para la moda, identificamos la clase modal es: 173.5-187.5.

a. LMo = lı́mite real inferior de la clase modal= 173.5


Universidad Popular del Cesar Humberto Barrios 15

b. ∆1 = frecuencia de la clase modal menos la frecuencia que se encuentra inmediatamente por encima de ella = 25-16
=9

c. ∆2 = frecuencia de la clase modal menos la frecuencia que se encuentra inmediatamente por debajo de ella = 25
-15 = 10

d. c = ancho real de la clase modal = 14

Entonces se utiliza la siguiente ecuación:

   
∆1 9
Mo = LMo + c = 173.5 + 14 = 180.13
∆1 + ∆2 9 + 10

Cuando se trabaja un problema en estadı́stica, se debe decidir cual de las medidas de tendencia central se va ha utilizar.
Por ejemplo, si la distribución es simétrica, es claro que en este caso solo tienen una moda. Por lo tanto el mismo valor
para la media, la mediana y la moda. En tales casos, no es necesario escoger la medida de tendencia central, pues ya
esta hecha la selección, cualquiera de ellas es una buena opción.

En una distribución sesgada positiva. Es decir, sesgada hacia la derecha, la moda se encuentra en el punto más alto de
la distribución, la mediana está a la derecha de la moda y la media se encuentra todavı́a más a la derecha de la moda y
la mediana. Es decir, se tiene la siguiente relación:

Mo < x̃ < x̄

En una distribución sesgada negativa. Es decir, sesgada hacia la izquierda, la moda se encuentra en el punto más
alto de la distribución, la mediana está hacia la izquierda de la moda y la media se encuentra todavı́a más a la izquierda
de la moda y la mediana. Es decir, se tiene la siguiente relación:

Mo > x̃ > x̄

Cuando la población está sesgada negativamente o positivamente, con frecuencia la mediana resulta ser la mejor
medida de posición, debido a que siempre está entre la moda y la media. La mediana no se ve influida por la frecuencia
de aparición de un solo valor como es el caso de la moda, ni se distorsión con la presencia de valores extremos como
la media.

En cualquier otro caso, no existen reglas universales para la aplicación de la media, la mediana o la moda como
medidas de tendencia central para diferentes poblaciones. Cada caso deberá considerarse de manera independiente, de
acuerdo con las lı́neas generales que se ha analizado.
Universidad Popular del Cesar Humberto Barrios 16

1.3.2. MEDIDAS DE DISPERSIÓN

Las medidas de tendencia central de un conjunto de mediciones solamente localizan el centro de la distribución de
los datos. Por si mismo, no ofrecen una descripción adecuada de los datos. Por ejemplo, dos conjuntos de mediciones
podrı́an tener sus distribuciones de frecuencias muy diferentes pero con la misma media. La diferencias entre dos
distribuciones, puede estar en variación o dispersión a ambos lados de la media. Una descripción adecuada de los
datos requiere de la definición de una medida de variabilidad de los datos. La medida más común de variabilidad
usada en la estadı́stica es la varianza, que es una función de las desviaciones (o distancia) de las mediciones con
respecto a su media.

Definición 1.6. Sean x1 , x2 , x3 , . . ., xk marcas de clases con frecuencias de clases f1 , f2 , f3 , . . . fk ,


respectivamente, en una distribución de frecuencias. Entonces la varianza es

1 k
s2 = ∑ (xi − x̄)2 fi (1.5)
n − 1 i=1

Donde n = f1 + f2 + f3 + . . . + fk . En el caso, f1 = f2 = f3 = . . . = fk = 1 entonces los datos se dicen


no agrupados. Ası́, la fórmula para la varianza se convierte en

1 n
s2 = ∑ (xi − x̄)2 (1.6)
n − 1 i=1

La varianza es útil en la comparación de la variación relativa de dos conjuntos de mediciones, pero sólo aporta infor-
mación con respecto a la variación en un solo conjunto cuando se interpreta en términos de la desviación estándar. La
desviación estándar de un conjunto de medidas es la raı́z cuadrada positiva de la varianza, es decir,


s= s2 (1.7)

La varianza y la desviación estándar no son medidas de variabilidad distintas, debido a que la última no puede deter-
minarse a menos que se conozca la primera. A menudo se prefiere la desviación estándar en relación con la varianza,
porque se expresa en las mismas unidades fı́sicas de las observaciones.

Otra medida útil de la variabilidad tiene base en el valor absoluto de las diferencias entres el conjunto de mediciones
y la media o la mediana, dependiendo de cual de las dos se emplee como medida de tendencia central.
Universidad Popular del Cesar Humberto Barrios 17

Definición 1.7. Sean x1 , x2 , x3 , . . ., xk marcas de clases con frecuencias de clases f1 , f2 , f3 , . . . fk ,


respectivamente, en una distribución de frecuencias. Entonces la desviación media está dada por

1 k
DM = ∑ |xi − x̄| fi
n i=1
(1.8)

Donde n = f1 + f2 + f3 + . . . + fk . En el caso, f1 = f2 = f3 = . . . = fk = 1 entonces los datos se dicen


no agrupados. Ası́, la fórmula para la desviación media está se convierte en

1 n
DM = ∑ |xi − x̄|
n i=1
(1.9)

Cuando se sustituye la media por la mediana en (1.8) y (1.9) se obtiene la desviación mediana, la que se notara por
DMd.

La desviación media es una medida de la variación de un conjunto de mediciones, especialmente en el contexto de la


evidencia empı́rica, debido a que en muchas ocasiones el interés se centra en las desviaciones y no en los signos de
éstas. Sin embargo, desde un punto de vista teórico, el empleo de desviación media como medida de dispersión está en
desventaja dado que, matemáticamente, es difı́cil de obtener. De cualquiera manera, la desviación media es menos
sensible a los efectos inducidos por las observaciones extremas del conjunto de datos que la varianza o la desviación
estándar. Sin importar la presencia de pocos valores extremos, la desviación media puede proporcionar una medida de
dispersión mucho más real que la obtenida por la desviación estándar.

Cuando la mediana se utiliza como medida de tendencia central con el propósito de amortiguar los efectos de la
existencia de algunos valores extremos en el conjunto de mediciones, debe preferirse a la desviación mediana como
una medida de dispersión por la misma razón, es decir, con la intención amortiguar los efectos de la existencia de
valores extremos en el conjunto de mediciones.

A continuación se ilustran los pasos que se deben seguir para los cálculos de la varianza, desviación estándar, desvia-
ción media y desviación mediana, para los datos no agrupados del ejemplo 1 y para los datos agrupados de la tabla
2.

Ejemplo 1.6. El tiempo de reparación, medio en horas, de un instrumento electrónico tiene un comportamiento
aleatorio. Los tiempos de reparación de 16 de tales instrumentos, elegidos a través de un mecanismo aleatorio, son
los siguientes:

5, 6, 3, 6, 11, 7, 9, 10, 2, 4, 10, 6, 2, 8, 1, 5

Calcular la varianza, desviación estándar, desviación media y desviación mediana de este conjunto de datos.
Universidad Popular del Cesar Humberto Barrios 18

Solución

Para la varianza se tiene

1 n
s2 = ∑ (xi − x̄)2
n − 1 i=1
1
= [(5 − 5.94)2 + (6 − 5.94)2
16 − 1
+ (3 − 5.94)2 + (6 − 5.94)2 + (2 − 5.94)2

+ (4 − 5.94)2 + (11 − 5.94)2 + (7 − 5.94)2

+ (9 − 5.94)2 + (10 − 5.94)2 + (10 − 5.94)2

+ (6 − 5.94)2 + (2 − 5.94)2 + (8 − 5.94)2

+ (1 − 5.94)2 + (5 − 5.94)2 ] = 9.5333

La desviación estándar es


s= 9.5333 = 3.0876

Para la desviación media se tiene

1 n
DM = ∑ |xi − x̄|
n i=1
1
= [|5 − 5.94| + |6 − 5.94| + |3 − 5.94| + |6 − 5.94|
16
+ |2 − 5.94| + |4 − 5.94| + |11 − 5.94| + |7 − 5.94|

+ |9 − 5.94| + |10 − 5.94| + |10 − 5.94| + |6 − 5.94|

+ |2 − 5.94| + |8 − 5.94| + |1 − 5.94| + |5 − 5.94|

= 2.445

Para la desviación mediana se tiene

1 n
DMd = ∑ |xi − x̃|
n i=1
1
= [|5 − 6| + |6 − 6| + |3 − 6| + |6 − 6|
16
+ |2 − 6| + |4 − 6| + |11 − 6| + |7 − 6| + |9 − 6|

+ |10 − 5.94| + |10 − 6| + |6 − 6| + |2 − 6|

+ |8 − 6| + |1 − 6| + |5 − 6| = 2.4375
Universidad Popular del Cesar Humberto Barrios 19

Ejemplo 1.7. Con la distribución de frecuencias de la tabla 2. Calcular la varianza, desviación estándar, desviación
media y desviación mediana.

Solución.

Utilicemos la tabla 4, para la varianza, desviación estándar, desviación media y desviación mediana.

Tabla 4.

xi fi (xi − x̄)2 fi |xi − x̄| fi |xi − x̃| fi


110.5 4 442 263.7600 267.6800
124.5 3 17392 155.8200 158.7600
138.5 5 8093 189.7000 194.6000
152.5 15 7197 359.1000 373.8000
166.5 16 8597 159.0400 174.7200
180.5 25 1581 101.5000 77.0000
194.5 15 0412 270.9000 256.2000
208.5 5 4892 160.3000 155.4000
222.5 9 5139 414.5400 405.7200
236.5 3 19094 180.1800 177.2400
total 100 83220 2254.8000 2241.1000

Por lo tanto la

varianza es: s2 = 840.60

Desviación estándar es: s = 28.99

Desviación media es: D.M. = 22.55

Desviación mediana es: D.Md. = 22.45

1.3.3. OTRAS MEDIDAS DESCRIPTIVAS

El principal uso de la distribución acumulada es lo que comúnmente se conoce como cuantiles. Con respecto a
una distribución de frecuencias relativa acumulada, se define un cuantil como el valor bajo el cual se encuentra una
determinada proporción de los valores de la distribución. Para identifica la clase cuantil, la cual será la que contiene el
elemento para el cual la proporción 100q % de todas las observaciones es menor y la otra proporción 100(1 − q) % es
mayor en una distribución de frecuencias.
Universidad Popular del Cesar Humberto Barrios 20

Definición 1.8. Para calcular el cuantil q se utiliza la siguiente fórmula

nq − Fq−1
x̃q = Lq + c (1.10)
fq

(a) Se identifica la clase cuatil, la cual será la que contiene el elemento para el cual la q % de todas las observaciones
es menor y la otra (100 − q) % es mayor.

(b) Lq = limite real inferior de la clase cuatil

(c) fq = frecuencia de la clase cuatil

(d) Fq−1 = frecuencia acumulada anterior a la clase cuatil

(e) c = ancho real de la clase cuatil

(f) n = número de observaciones en la muestra o tamaño de muestra.

Definición 1.9. Una medida que compara la dispersión relativa de dos distribuciones de frecuencias es
el coeficiente de variación, que está definido por:

s
cv = 100 % (1.11)

Los cuantiles comúnmente más utilizados son los percentiles, deciles y cuartiles. Los percentiles son los puntos que
dividen a la distribución de frecuencias en 100 pares iguales, cada uno con una frecuencia relativa q = 0.01; los deciles
y cuartiles son los puntos que dividen a la distribución de frecuencias en 10 y 4 partes iguales, cada uno con frecuencia
relativa q = 0.1 y q = 0.01, respectivamente. Nótese que la mediana es el cincuentavo percentil, el quinto decil y el
segundo cuartil.

Definición 1.10. La diferencia entre los percentiles 90 avo y 10 avo recibe el nombre de recorrido
interdecil.

Definición 1.11. La diferencia entre los percentiles 75avo y 25avo recibe el nombre de recorrido inter-
cuartil.

En este contexto el recorrido interdecil es una medida de la dispersión del 80 % de la distribución de frecuencia,
en tanto que el recorrido intercuartil refleja la variación del 50 % de la distribución de frecuencia. En ambos casos,
al excluir los efectos de los valores extremos de la distribución de frecuencia, se tiene la capacidad de medir la
variabilidad del conjunto de mediciones de la mitad de una distribución de frecuencia.
Universidad Popular del Cesar Humberto Barrios 21

Los recorridos interdecil e intercuartil, son dos medidas de dispersión que se emplean en disciplinas como educación,
economı́a, finazas e ingenierı́a. El recorrido interdecil se emplea muchas veces en pruebas educacionales para medir la
variabilidad en el desempeño sin importar los valores por arriba o por debajo de un 10 % de un valor predeterminado.
El recorrido intercuartil se emplea en muchas ocasiones, en economı́a y finazas, para medir la variabilidad de un
conjunto de mediciones de una proporción de su distribución de frecuencia.

El coeficiente de variación expresa la magnitud de la dispersión de un conjunto de mediciones con respecto a la


media, es una medida estandarizada de la variación con respecto a la media, especialmente útil para comparar dos
distribuciones de frecuencias cuando la escala de medición difiere de manera apreciable entre estas. Es decir, como
el coeficiente de variaciones la razón de dos promedios, es independiente de las unidades de medidas usadas, por
ejemplo, da igual que se usen libras o gramos para medir el peso.

Ejemplo 1.8. . Para la distribución de frecuencia de la Tabla 2. Calcular los recorrido interdecil, recorrido inter-
cuartil y el coeficiente de variación.

Solución.

Las clases percentiles 10ava y 90ava son respectivamente (132-145) y (216-229), entonces para calcular a x0.1 se tiene:

(a) Se identifica la clase cuatil, la cual será la que contiene el elemento para el cual la q % de todas las observaciones
es menor y la otra (100 − q) % es mayor.

(b) Lq = limite real inferior de la clase 10ava = 131.5

(c) fq = frecuencia de la clase 10ava = 5

(d) Fq−1 = frecuencia acumulada anterior a la clase cuatil =7

(e) c = ancho real de la clase cuatil =14

(f) n = número de observaciones en la muestra o tamaño de muestra =100.

Se utiliza la siguiente fórmula:

nq − Fq−1 0.1 ∗ 100


x̃q = Lq + c = 131.5 + ∗ 14 = 139.9
fq 5
De la misma manera se calcula x0.9 ,

nq − Fq−1 0.9 ∗ 100


x̃q = Lq + c = 215.5 + ∗ 14 = 218.16
fq 9

Ası́, el recorrido interdecil es = 218.61-139.9 = 78.71.


Universidad Popular del Cesar Humberto Barrios 22

De igual forma se realizan los cálculos para el recorrido intercuartil.

El coeficiente de variación es:

s 28.99
cv = 100 = ∗ 100 = 16.43
x̄ 176.44

En la siguiente tabla se resumen las medidas numéricas descriptivas para la distribución de frecuencia de la Tabla 2.

Medidas descriptivas
Media 176.44
Mediana 177.42
Moda 180.13
Varianza 840.60
Desviación estándar 28.99
Desviación media 22.55
Desviación mediana 22.45
Recorrido 140.00
Recorrido intercuantil 34.89
Recorrido interdecil 78.71

Obsérvese (tabla 5) que los valores de las medidas de tendencias central se encuentran muy cerca entre si, también se
puede afirmar lo mismo de las desviaciones estándar, media y mediana. Sin embargo, no es de esperar que todas las
distribuciones de frecuencia tengan este comportamiento.

Estas comparaciones aclaran lo que las medidas numéricas y las distribuciones de frecuencia pueden hacer para des-
cubrir la naturaleza inherente de un conjunto de mediciones. En consecuencias, el usuario debe tener cuidado tanto en
la elección como en la interpretación de estas medidas. A pesar que la media y la desviación estándar se han empleado
de manera extensa como medidas de tendencia central y dispersión respectivamente, aunque tiene propiedades ma-
temáticas muy interesantes existen problemas para los cuales no puede ser las medidas más deseables. Para conjuntos
de mediciones fı́sicas como lecturas de instrumentos, especificaciones de partes, pesos, etc., la media y la desviación
estándar o desviación media, son medidas anheladas. Para conjunto de mediciones afines con ingresos y otras infor-
maciones de tipo económico y financieros, la mejor elección para la medida de tendencia central y dispersión son la
media y la desviación de la mediana respectivamente.

En muchas investigaciones de tipo económico y social proporcionan información en tablas de frecuencia que no
solo contienen clases de diferentes amplitudes sino también clases abiertas como ”mayores que.o ”menor queçon
el propósito de tener mayor cobertura de los datos. Estas clases se presentan en los extremos de la distribución de
Universidad Popular del Cesar Humberto Barrios 23

frecuencia y no se especifica los lı́mites de las clases. Como resultado, no se encuentra definido el punto medio de la
clase abierta y en consecuencias no se puede calcular la media, varianza, desviación estándar y desviación media, a
menos que se conozca un valor particular de la clase o que sea conocido su promedio aritmético.

1.4. EJERCICIOS
1. Los siguientes datos son los tiempos, en minutos, correspondiente a una muestra aleatoria de 50 personas que
estuvieron cobrando un cheque, un fin de mes en un banco de la cuidad

17 16 39 30 23 38 32 20 43 32

44 41 23 17 29 26 21 34 44 24

21 27 36 21 17 28 29 34 24 28

25 29 45 23 16 34 20 30 23 35

35 27 19 31 45 40 14 29 23 19

a) Construir una distribución de frecuencias, de clases, relativa, acumulada y relativa acumulada.

b) Construir histograma, polı́gono y ojiva con los resultados obtenidos en a.

c) Con los datos agrupados calcula: la media, mediana, moda, desviación estándar, desviación media, desviación
mediana, y los recorridos intercuantil e interdecil.

2. Con los siguiente tres conjuntos de datos:

1 2 3 4 5 6

1 1 1 6 6 6

−13 2 3 4 5 20

Calcular la media y la varianza para cada conjunto de datos. ¿Qué se puede concluir?

3. Con los datos del ejercicio 1, sea xi el tiempo que gasta el i-ésimo cliente en cobrar un cheque para i =
1, 2, . . . , 50. Transformar los datos por medio de la relación

zi = (xi − 28.2)/8.928

Con los datos transformados


Universidad Popular del Cesar Humberto Barrios 24

a) Construir una distribución de frecuencias, de clases, relativa, acumulada y relativa acumulada.

b) Construir histograma, polı́gono y ojiva con los resultados obtenidos en a.

c) Con los datos agrupados calcula: la media, mediana, moda, desviación estándar, desviación media, desviación
mediana, y los recorridos intercuantil e interdecil.

d) ¿Ha ocurrido algún cambio en la naturaleza de la distribución de frecuencia cuando ésta se compara con los
del ejercicio 1?

4. Los datos que tienen una distribución acampanada tienen caracterı́sticas bien definidas con respecto a la varia-
ción, que se puede expresar en el siguiente enunciado:

Regla empı́rica. Para una distribución de mediciones que es aproximadamente acampanada (forma normal), el
intervalo

(µ − σ , µ + σ ) Contiene aproximadamente el 68 % de las mediciones

(µ − 2σ , µ + 2σ ) Contiene aproximadamente el 95 % de las mediciones

(µ − 3σ , µ + 3σ ) Contiene casi todas las mediciones

Donde µ y σ son la media poblacional y desviación estándar poblacional respectivamente.

Calcular el intervalo (x̄ − kσ , x̄ + kσ ) para k =1, 2, y 3, del ejercicio 1, cuenta el número de mediciones que se
ubican dentro de cada intervalo y compara estos resultados con el número que podrı́a esperarse de acuerdo a la
regla empı́rica.

5. Los siguientes datos agrupados representan los pagos ($10.000.◦◦ ) para 50 vehı́culos en un parqueadero en el
centro de Valledupar, durante un semana.

Clases Frecuencias
1.10-1.86 4
1.87-2.63 14
2.64-3.40 11
3.41-4.17 9
4.18-4.94 7
4.95-5.71 1
5.72-6.48 2
6.49-7.27 2
Universidad Popular del Cesar Humberto Barrios 25

a) Construir una distribución de frecuencia acumulada y relativa acumulada.

b) Construir histograma, polı́gono y ojiva con los resultados obtenidos en a.

c) Calcular la media, mediana, moda, desviación estándar, desviación media, desviación mediana, y los recorri-
dos intercuartil e interdecil.

La regla empı́rica señala que se puede aproximar la desviación estándar de un conjunto de mediciones por una
cuarta parte del rango. Calcule esta aproximación para la desviación estándar en los conjunto de datos de la tabla
1 y del ejercicio 1.

6. Las siguiente tres propiedades son importante cuando se emplea el sı́mbolo de la sumatoria.
n
a) ∑ c = nc
i=1
n n
b) ∑ cxi = c ∑ xi
i=1 i=1
n n n
c) ∑ (xi + yi ) = ∑ xi + ∑ yi
i=1 i=1 i=1

1. Demostrar las siguientes identidades algebraicas:


n
a) ∑ (xi − x̄) = 0
i=1
 
k
2 1 2 2
b) s = n−1 ∑ xi fi − nx̄
i=1

2. Demuestre que la función

n
h(y) = ∑ (xi − y)2
i=1

Tiene un mı́nimo en x̄ . Utilice sus conocimientos de Calculo Diferencial.

7. Sea k ≥ 1. Demuestre que para cualquier conjunto de n mediciones, la fracción que queda incluida en el intervalo
(x̄ − ks, x̄ + ks) es por lo menos (1 − k12 ). Este resultado se conoce con el nombre de teorema de Tchbysheff.

8. Supóngase que tenemos las siguientes medias: x̄1 = 37, x̄2 = 41 y x̄3 = 28, basadas en 50, 20 y 10 observaciones
respectivamente. Si hay que escoger una sola media, ¿Cuál serı́a su elección? ¿Por qué? ¿Cuáles son los totales
de las muestras originales? ¿Cómo se usarı́a estos totales para hallar la media de las 80 observaciones?
Universidad Popular del Cesar Humberto Barrios 26

9. Sea x1 , x2 , . . . , xn una muestra aleatoria de una población. Demuestre que

(n − 1)s
máx |xi − x̄| < √
1≤i≤n n

a menos que todas las n observaciones sean iguales o exactamente n − 1 de las xi son iguales.

10. Sean x1 , x2 , . . . , xk marcas de clases diferentes con frecuencias f1 , f2 , . . . , fk respectivamente. Si yi = axi + c, son
las marcas de clases de una nueva variable aleatoria yi . Demuestre que:

a) ȳ = ax̄ + c

b) s2y = a2 s2 .

11. Los siguientes datos corresponden a una muestra aleatoria simple de tamaño n = 100 seleccionadas de los
N = 365 dı́as de las ventas (en millones) de un supermercado de la ciudad, los datos se muestra en la tabla
siguiente:

Cuadro 1.4: Datos


78 113 94 101 87 88 75 87 110 92
100 116 102 105 89 104 111 93 114 95
107 117 109 117 100 104 127 112 120 117
108 121 126 127 124 106 127 120 121 118
108 124 128 135 131 114 128 122 129 119
126 131 129 138 139 121 129 128 129 126
129 136 130 140 140 124 130 141 130 135
137 143 132 141 143 133 137 143 138 140
139 144 146 153 146 135 142 151 142 147
142 146 149 175 155 135 167 151 147 152

a) Encuentre las clases para el conjunto de datos anteriores, si se sabe que la primera clase tiene como limite
inferir 75 y la longitud de cada clase es c = 10.

b) Hallar las frecuencias absolutas y acumuladas para cada clase.

c) Qué interpretación se le da a las frecuencias absolutas y acumuladas en cada clase.

d) Hallar los limites reales para cada clase y sus marcas de clases e interprete.

e) Qué porcentajes de dı́as al año tienen ventas superiores a $140.000.000 (ciento cuarenta millones de pesos).

f ) Qué porcentajes dı́as tiene ventas superiores o iguales a $173.000.000 y superiores o iguales $108.000.000.

g) Construir el histograma de frecuencias, póligono de frecuencias y ojiva e indicar cuál debe ser el perfil de
la población.
Universidad Popular del Cesar Humberto Barrios 27

h) Calcular la media, mediana y moda e interprete su significados en términos poblacionales.

i) Calcular el rango, varianza, desviación estándar, desviación media y desviación mediana e interprete su
significados.

j) Calcular todos los deciles y cuartiles de la distribución de frecuencias.

k) Calcular el recorrido interdecil y el recorrido intercuartil e interprete.

También podría gustarte