Análisis Estadístico de Datos

Apuntes
de Estadística y Probabilidades. Ingeniería Industrial. UCAB. Marzo 2016 1
Rafael A. Díaz Chacón

ESTADÍSTICA Y PROBABILIDADES

Capítulo 1: ANÁLISIS ESTADÍSTICO DE DATOS.

Contenido: Análisis de Datos. Clasificación de los Datos. Distribución en Frecuencias. Histogramas.
Medidas de Localización de la Muestra. Medidas de Dispersión de la Muestra.

§§§§§§§§§§§§§§§

El análisis de los fenómenos que nos rodean nos lleva a clasificarlos en función de las posibilidades
de predicción de su comportamiento en dos grandes grupos: aquellos en los cuales podemos
predecir su comportamiento (fenómenos deterministas) y los fenómenos en los que no se pueden
predecir el comportamiento (fenómenos aleatorios).

La atención de este curso es sobre los fenómenos aleatorios, aquellos donde no se puede predecir
su comportamiento. En este tipo de situación, cada vez que observamos los valores de algunas
variables de interés y pretendemos inferir cuál debe ser el siguiente valor encontramos que ese
siguiente valor es impredecible. Por tanto, debemos realizar un conjunto grande de observaciones
que nos ayuden a entender estos fenómenos.

Dependiendo de la naturaleza de estas observaciones, a las que llamaremos datos,
estableceremos la siguiente clasificación.

‐ Hablamos de Datos Cualitativos cuando los valores de las variables son alfabéticos.
‐ Hablamos de Datos Cuantitativos cuando los valores de las variables son números.
‐ Hablamos de Datos Discretos Finitos cuando los posibles valores numéricos pertenecen a
un conjunto finito de puntos aislados dentro de los números reales.
‐ Hablamos de Datos Discretos Infinito Numerables cuando los posibles valores numéricos
pertenecen a un conjunto infinito de puntos aislados dentro de los números reales.
‐ Hablamos de Datos Continuos cuando los posibles valores numéricos pertenecen a un
conjunto continuo dentro de los números reales.

Apuntes de Estadística y Probabilidades. Ingeniería Industrial. UCAB. Marzo 2016 2

Ejemplo 1.1) Para las siguientes variables observadas indique cuáles son sus posibles valores y,
en consecuencia, de qué tipo de dato se está hablando.

Variable Observada Conjunto de Posibles Valores Tipo de Dato
Género de una persona {Hombre, Mujer} Cualitativo
Continente de procedencia del
{Americano, Europeo, Asiático} Cualitativo
carro que conduce
Resultado de lanzar una moneda {Cara, Sello} Cualitativo
Altura de un estudiante
{X / X Є R, 1,5 m < X < 2,15 m} Cuantitativo Continuo
universitario
Número de personas en cada Cuantitativo Discreto
{N / N Є Z, N = 1, 2, 3, 4, 5}
carro que entra a la universidad Finito
Cuantitativo Discreto
Resultado de lanzar un dado {N / N Є Z, N = 1, 2, 3, 4, 5, 6}
Finito
Duración de una llamada
{t / t Є R, t > 0} Cuantitativo Continuo
telefónica
Número de usuarios conectados Cuantitativo Discreto
{N / N Є Z, N > 0}
a Internet en un instante dado Infinito Numerable
Ю Ю

Al conjunto de datos disponibles para nuestro análisis lo llamaremos Muestra mientras que al
número de datos disponibles para el análisis lo llamaremos Tamaño de la Muestra. La muestra se
puede representar como un vector de tamaño n.

Sea una variable X que deseamos analizar. Al vector siguiente, de tamaño n, lo conoceremos como
la Muestra para análisis (cada valor xi es un dato). En general, cada xi es distinto de otro por lo que
a la muestra la llamamos Muestra Aleatoria.

, ,….,

Cuando los datos son de tipo cualitativo solo vamos a realizar una representación gráfica de la
muestra. Para ello, definiremos dos vectores, el primero de ellos, C, contiene todos los posibles
valores (m) que toma la variable mientras que el segundo, f, contiene cuántas veces se repite en la
muestra cada uno de los posibles valores de la variable. Es decir,

, ,….,

, ,….,

Al vector C se le conocerá como Vector de Clases mientras que el vector f se conocerá como
Vector de Frecuencias Absolutas. El valor m es el número de valores muestrales distintos.

La representación gráfica de los vectores C y f se llama en la literatura Histograma de Frecuencias.
Es importante observar que los elementos del vector C no tienen ningún orden entre sí por lo que
un tipo de Histograma en el cual se ordenan los valores en el vector C dependiendo del orden, de
mayor a menor, en el vector f, se llama en la literatura Diagrama de Pareto.

Ejemplo 1.2) Al analizar la información suministrada por 200 personas que disponen de un
computador personal en su casa, se obtuvo la siguiente tabla de respuestas. Represente esta
muestra mediante un Histograma y un Diagrama de Pareto.

Marca de Computador Número de Personas
IBM 32
Compaq 70
HP 26
Dell 21
Sony 51
TOTAL 200

La tabla anterior muestra directamente los vectores C y f,

, , , ,

32,70,26,21,51

El Histograma de Frecuencias será

80
60
40
20
IBM Compaq HP Dell Sony

Mientras que el Diagrama de Pareto será con los vectores ordenados según los valores de f
siguientes:

, , , ,

70,51,32,26,21


80
60
40
20
Compaq Sony IBM HP Dell

Ю Ю

Para comenzar a obtener información de la Muestra, en el caso cuantitativo, iniciaremos por
ordenar la muestra y obtener el vector Muestra Aleatoria Ordenada. El ordenamiento se realiza
de menor a mayor. Evidentemente, para ordenar el vector tenemos que estar hablando que los
datos son números.

, ,….,

Particularmente,

‐ es el menor valor en la muestra. Es decir, MIN = .
‐ es el mayor valor en la muestra. Es decir, MAX = .
‐ El intervalo de valores en la muestra será, .

La estructura del Vector Ordenado será típica en los dos casos posibles de datos cuantitativos. En
el caso de datos discretos observaremos que muchos valores se repiten varias veces mientras que
en el caso de datos continuos es posible que ningún valor se repita. Esto influye decisivamente en
la definición del vector de clases y del vector de frecuencias.

Datos de tipo Discreto Finito: El número de clases será igual al número de valores posibles que
toma la variable bajo estudio. En este caso, el vector de frecuencias responde a la pregunta de
¿Cuántos datos son iguales a cada ci?

Datos de tipo Discreto Infinito Numerable: Si siguiéramos el criterio del párrafo anterior, el
número de clases sería infinito. Lo que se hace es agrupar todos los valores de un cierto punto en
adelante en una última clase. En este caso, el vector de frecuencias responde a la pregunta de
¿Cuántos datos son iguales a cada ci?, excepto por una última clase que respondería a la pregunta
¿Cuántos datos pertenecen a la clase ci?


Datos de tipo Continuo: En vista de que en un intervalo una variable continua puede tomar
cualquiera de los infinitos posibles valores en ese intervalo, el criterio de tener tantas clases como
valores que se repiten, no funciona. En este caso, se recurre a dividir el conjunto de los números
reales en un número finito de intervalos; cada intervalo será una clase. El criterio usado para
escoger estas clases no es único en la literatura pero ellos se resumen en dos grandes grupos:
clases de igual ancho y clases de ancho variable. En este curso utilizaremos criterios de clases de
igual ancho, que explicaremos a continuación.

Cualquiera de los criterios de igual ancho incluye dos clases extremas de ancho infinito y m clases
de igual ancho. Esto resulta de dividir el eje real en estos intervalos. En cada caso, existirá una
“clase cero” cuyo Límite Inferior (LI0) es igual a ‐∞ y cuyo Límite Superior (LS0) será, comúnmente,
anterior al primer valor significativo de la muestra ordenada. A partir de este valor comenzamos a
definir las m clases de igual ancho de tal manera que deben coincidir LIi = LSi+1, para cada i,
finalmente, se define la “clase m+1” tal que LIm+1 = LSm y LSm+1 = ∞. Evidentemente, las clases cero
y (m+1) son de ancho infinito y el criterio usado debe ser tal que debemos garantizar que todos los
datos de la muestra estén en las clases de la uno a la m. Como valores representativos de cada
clase se considerará el punto medio de la clase y lo llamaremos centro de clase.

2

Ejemplo 1.3) La tabla siguiente muestra los 200 datos de los que se dispone de la variable “número
de ocupantes en cada carro que entra a la universidad”. Defina los vectores de clases y de
frecuencias. Dibuje el Histograma de Frecuencias.
Número de Ocupantes Número de Automóviles
1 38
2 80
3 42
4 25
5 15
TOTAL AUTOMÓVILES 200
Al presentar la data de esta forma se facilita la definición de los vectores C y f. Evidentemente, la
variable bajo estudio es de tipo discreto finito por lo que cada clase coincide con cada valor
discreto. De todas maneras, si se definen como centros de clases a los valores 1, 2, 3, 4 y 5, las
clases tendrán los límites que se muestran en la siguiente tabla.

Clase Límite Inferior Límite Superior Centro de la Clase Datos en la Clase
0 ‐∞ 0,5 ‐ 0
1 0,5 1,5 1 38
2 1,5 2,5 2 80
3 2,5 3,5 3 42
4 3,5 4,5 4 25
5 4,5 5,5 5 15
6 5,5 ∞ ‐ 0


1,2,3,4,5

38,80,42,25,15


80
60
40
20
1 2 3 4 5

Ю Ю

Ejemplo 1.4) La tabla siguiente muestra los 40 datos de los que se dispone de la variable “vida útil
de una lámpara”, medida en horas. Defina los vectores de clases y de frecuencias. Dibuje el
Histograma de Frecuencias.

1a5 854 1284 911 1168 905
6 a 10 1357 1090 1494 778 518
11 a 15 1355 1502 1666 937 1508
16 a 20 1550 628 1073 683 705
21 a 25 1608 1367 1393 1623 919
25 a 30 1199 1155 1448 1339 1599
31 a 35 1058 1930 1291 1273 1215
35 a 40 811 1137 892 945 1265

Al ordenar la muestra se obtiene la tabla siguiente. Allí se observa que la variable bajo estudio es
de tipo continuo.


1a5 518 628 683 705 778
6 a 10 811 854 892 905 911
11 a 15 919 937 945 1058 1073
16 a 20 1090 1137 1155 1168 1199
21 a 25 1215 1265 1273 1284 1291
25 a 30 1339 1355 1357 1367 1393
31 a 35 1448 1494 1502 1508 1550
35 a 40 1599 1608 1623 1666 1930
De aquí podemos decir que

‐ MIN = 518.
‐ MAX = 1930.
‐ 1930 518 1412.

Si se definen seis clases de ancho 250 a partir de 500, se obtiene la siguiente distribución de clase
y frecuencias por clase.

Clase Límite Inferior Límite Superior Centro de la Clase Datos en la clase
0 ‐∞ 500 ‐ 0
1 500 750 625 4
2 750 1000 875 9
3 1000 1250 1125 8
4 1250 1500 1375 11
5 1500 1750 1625 7
6 1750 2000 1875 1
7 2000 ∞ ‐ 0


625,875,1125,1375,1625,1875

4,9,8,11,7,1


12
9
6
3
625 875 1125 1375 1625 1875

Ю Ю

Además de conocer los vectores C y f, se pueden deducir otros vectores que nos proporcionan
información de interés, los vectores F, h y H. Se define el vector F como el vector de frecuencias
acumuladas y responde a la pregunta de ¿Cuántos datos hay hasta la clase i?. Los vectores h y H
responden a las preguntas, respectivamente, ¿Qué fracción de datos pertenece a la clase i? y ¿Qué
fracción de datos se acumula hasta la clase i?; por esto se les conoce como vector de frecuencias
relativas y vector de frecuencias relativas acumuladas, respectivamente.

Las siguientes relaciones permiten deducir cada uno de estos vectores a partir de conocer solo uno
de ellos. Para todos ellos el vector C es el mismo.

Dado el vector f, el número de clases m y el número de datos n:

; 1 ; 1
1
; 1 1
; 1
;
1;

Dado el vector F, el número de clases m y el número de datos n:

; 1 ; 1

; 1
; 1


Dado el vector h, el número de clases m y el número de datos n:

; 1 ; 1
; 1 ; 1
; 1;

Dado el vector H, el número de clases m y el número de datos n:

; 1 ; 1

; 1
; 1

El lector debe considerar que los elementos de los vectores f y F son números enteros mientras que
los elementos en los vectores h y H son números reales en el intervalo [0, 1].

MEDIDAS DE LOCALIZACIÓN DE LA MUESTRA

Los datos cuantitativos son números reales pero es posible localizar en forma bastante específica
la ubicación de ellos a los largo del eje real. Esto se logra con algunas mediciones que son función
de los elementos de los vectores X, C y f. Veamos

Media Muestral: Se define como la media muestral al promedio aritmético de los elementos del
vector de datos X.

1 1

Observaciones:

‐ La barra sobre la letra X indica que estamos hablando del promedio.
‐ También se conoce como Promedio Muestral.
‐ La media muestral se puede calcular también a partir de los elementos del vector Xord.
‐ La media muestral NO tiene que coincidir con ninguno de los elementos del vector X.

Ejemplo 1.5) Considere un conjunto de n datos tales que . Calcular la media de la muestra.

La media muestral será.

1 1 1 1 1

2 2
Ю Ю


Si separamos la muestra en varios subgrupos de datos, digamos k grupos cada uno de ellos con nj
datos, j = 1, 2,…, k, donde es la media muestral del grupo j; la media muestral de todos los datos
se puede expresar como el promedio ponderado de las medias de cada subgrupo, es decir,

1

Ejemplo 1.6) Considere un conjunto de 200 datos para el cual se conocen el promedio M1 de 120
datos y el promedio M2 de los otros 80 datos. Calcular la media de la muestra total.

La media muestral de todos los datos será el promedio ponderado de las medias muestrales de
cada grupo de datos.

1 120 80 120 80

120 80 200
Ю Ю

Cuando se agrupan los datos en clases el cálculo de la media muestral se dificulta ya que se debe
tener clara la respuesta a esta pregunta

¿Al agrupar los datos, todavía se dispone de ellos o se perdieron los datos?

En el caso de clases de datos discretos la repuesta es SÍ, todavía se dispone de ellos y, en
consecuencia, se puede calcular la media muestral. Para ello se usa la expresión anterior para k
grupos de datos donde k = m, el promedio de cada grupo es el valor cj, centro de la clase j y el
valor nj es fj. Es decir, ( el término es el promedio de clases discretas)

1

En el caso de clases de datos continuos la respuesta es NO, si solo se dispone de los vectores C y f
ya no se dispone de los datos y, en consecuencia, no se puede calcular la media muestral. Bajo
estas condiciones solo es posible calcular el promedio de clases continuas que se define a
continuación.

1

Este promedio de clases continuas es un valor bastante aproximado a la media muestral. Incluso
coincide con la media muestral en el caso en el cual se conocen características de simetría de los
datos dentro de todas las clases.

Ejemplo 1.7) Para los 200 datos del ejemplo 1.3 se conocieron los vectores 1,2,3,4,5
y 38,80,42,25,15 . Calcular la media de la muestra.

Dado que la naturaleza de los datos es de tipo discreto se tiene que

1 1 38 2 80 3 42 4 25 5 15 499
2,495
200 200
Ю Ю

Ejemplo 1.8) Para los 40 datos del ejemplo 1.4 se conocieron los vectores 4,9,8,11,7,1
y 625,875,1125,1375,1625,1875 . Calcular la media de la muestra a partir de esta
información.

Dado que la naturaleza de los datos es de tipo continuo no se puede calcular la media muestral a
partir de esta información, solo se puede calcular el promedio de clases continuas

1 625 4 875 9 1125 8 1375 11 1625 7 1875 1 47750
1193,75
40 40

Ya que en el ejemplo 1.4 se disponía de los 40 datos, el valor de la media muestral resulta ser

1
1185,825
40
Ю Ю

Mediana Muestral: Se define como la mediana muestral al valor intermedio del vector de datos
ordenado Xord.

1
;
2
;
2 2

Observaciones:

‐ El sombrerito sobre la letra X indica que estamos hablando de la mediana.
‐ La mediana muestral solo se puede calcular a partir de los elementos del vector Xord.
‐ La mediana muestral coincide con el elemento central del vector Xord , solo en el caso de
que el número de datos es impar.
‐ En el caso en que el número de datos es par, la mediana es el promedio de los dos datos
centrales del vector Xord.


Ejemplo 1.9) Considere el conjunto de n datos tales que . Calcular la mediana de la muestra.

Dada la estructura de la muestra tenemos que los vectores original y ordenado son iguales.
Entonces,

1 1
; ;
2 2

1 1
; 2 2 ;
2 2 2 2
Ю Ю

y 38,80,42,25,15 . Calcular la mediana de la muestra.

Dado que la naturaleza de los datos es de tipo discreto es posible reproducir el vector ordenado.
Ya que n = 200 es par, se tiene que

2 2
2
2 2
Ю Ю

y 625,875,1125,1375,1625,1875 . Calcular la mediana de la muestra a partir de esta
información.

Dado que la naturaleza de los datos es de tipo continuo no se puede calcular la mediana muestral
a partir de esta información.

Es posible obtener un valor aproximado de la mediana muestral para datos de tipo continuo que
están agrupados en clases.

Veamos este procedimiento,

Al conocer el vector f, también conocemos los vectores F, h y H, es decir,

4 9 8 11 7 1 4 13 21 32 39
4,13,21,32,39,40 ; , , , , , ; , , , , ,1
40 40 40 40 40 40 40 40 40 40 40

Analizando el vector H, vemos que la ecuación se cumple para j = 3. Esto nos
indica, para el ejemplo, que la mediana muestral está dentro de la clase tres.

Para escoger el valor que representa a la mediana muestral hacemos una interpolación lineal en el
intervalo que define a la clase tres. Esta interpolación lineal obedece a la suposición de que los
datos dentro de esa clase están igualmente espaciados. Mientras menor sea el ancho de la clase
mejor es esta aproximación.


La fórmula usada se resume a continuación,

40
13
2 1000 2 250 1218,75
8

Donde:
‐ es el valor de la mediana muestral para datos continuos agrupados en clases.
‐ es el límite inferior de la clase que incluye a la mediana muestral.
‐ es el número acumulado de datos hasta la clase anterior.
‐ es el número de datos en la clase que incluye a la mediana muestral.
‐ es el ancho de la clase que incluye a la mediana muestral.
‐ es el número total de datos considerados.

Ya que en el ejemplo 1.4 se disponía de los 40 datos, el valor de la mediana muestral resulta ser

1199 1215
1207
2 2
Ю Ю

El procedimiento descrito en el ejemplo 1.11 puede ser usado en otros problemas sin pérdida de
generalidad.

Moda Muestral: Se define como moda muestral a aquel valor que ocurre con mayor frecuencia en
la muestra.

,

Observaciones:

‐ El cucurucho sobre la letra X indica que estamos hablando de la moda.
‐ La moda muestral solo se puede calcular a partir de los elementos de los vectores C y f.
‐ Es posible que exista más de un máximo en el vector f; en estos casos se habla de una
muestral multimodal.
‐ En el caso de datos discretos, la moda coincide con un valor de la muestra.
‐ En el caso de datos continuos, se escoge como la moda al centro de la clase modal, a
pesar de que puede ser posible que ese valor no esté en la muestra.

y 38,80,42,25,15 . Calcular la moda de la muestra.

Dado que la naturaleza de los datos es de tipo discreto la moda muestral coincide con un dato. Ya
que el mayor valor en el vector f es f2 = 80, se tiene que

2
Ю Ю

y 625,875,1125,1375,1625,1875 . Calcular la moda de la muestra a partir de esta
información.

Dado que la naturaleza de los datos es de tipo continuo la moda muestral corresponde al centro
de la clase cuyo valor de f es el mayor. El máximo del vector f es 11 y se corresponde con la clase 4
cuyo centro es 1375, entonces,
1375
Ю Ю

Percentiles Muestrales: Se define como percentil α de la muestra a aquel valor real que deja a su
izquierda el 100α% de los datos del vector ordenado.

;

;
2

Observaciones:

‐ El valor de α está en el intervalo [0, 1].
‐ La operación [.] es la operación “parte entera de”.
‐ Para conocer los percentiles hay que conocer el vector ordenado de datos.
‐ El percentil 0,5 coincide con la mediana de la muestra.
‐ A los percentiles P0,1i se les conoce como el i‐ésimo Decil. Es decir, Di = P0,1i; i = 1, 2, .., 10.
‐ A los percentiles P0,25i se les conoce como el i‐ésimo Cuartil. Es decir, Qi = P0,25i; i = 1,2,3,4.
‐ El segundo Cuartil también coincide con la mediana de la muestra.

Cuando los datos están agrupados en clases se define el percentil como una función de la clase
que lo contiene. Esta función es una interpolación lineal dentro de esa clase k,

Ejemplo 1.14) La tabla siguiente muestra los 200 datos de los que se dispone de la variable
“número de ocupantes en cada carro que entra a la universidad” distribuidos en cinco clases.
Calcular los percentiles P0,10, P0,25, P0,5, P0,8 y P0,925.

Clase i LIi LSi ci fi Fi hi Hi
0 ‐∞ 0,5 ‐ ‐ ‐ ‐ ‐
1 0,5 1,5 1 38 38 0,19 0,19
2 1,5 2,5 2 80 118 0,4 0,59
3 2,5 3,5 3 42 160 0,21 0,80
4 3,5 4,5 4 25 185 0,125 0,925
5 4,5 5,5 5 15 200 0,075 1
6 5,5 ∞ ‐ ‐ ‐ ‐ ‐


Dado que estamos hablando de datos de tipo discreto, el comportamiento del vector ordenado es
bastante típico, pero del análisis del vector H se puede decir,

, 1; , 2; , 3; , 4

Asimismo, podemos decir,

, 1; , , 2
Ю Ю

Ejemplo 1.15) La tabla siguiente muestra los 40 datos de los que se dispone de la variable “vida
útil de una lámpara”, medida en horas, distribuidos en seis clases. Calcular los percentiles P0,10,
P0,25, P0,5, P0,8 y P0,925.

Clase i LIi LSi ci fi Fi hi Hi
0 ‐∞ 500 ‐ ‐ ‐ ‐ ‐
1 500 750 625 4 4 4/40 4/40
2 750 1000 875 9 13 9/40 13/40
3 1000 1250 1125 8 21 8/40 21/40
4 1250 1500 1375 11 32 11/40 32/40
5 1500 1750 1625 7 39 7/40 39/40
6 1750 2000 1875 1 40 1/40 40/40 = 1
7 2000 ∞ ‐ ‐ ‐ ‐ ‐

En vista de que los datos son de tipo continuo la tabla anterior no permite reproducir el vector
ordenado pero ella muestra directamente algunos percentiles de interés en la columna a la
derecha (vector H). Así tenemos que,

, 750; , 1000; , 1250

, 1500; , 1750

Aquí ya están incluidos algunos de los percentiles solicitados. Para conocer el resto sí tenemos que
usar la fórmula de interpolación, para ello debemos conocer la clase donde está el percentil de
interés, en cada caso. Esto es, para hallar el Pα se escoge j de tal manera que ,

Para α = 0,25 se tiene que la ecuación 0,25 se satisface para j = 2. Por tanto,

0,25 10 4
, 750 250 916,67
9



0,50 20 13
, 1000 250 1218,75
8


0,925 37 32
, 1500 250 1678,57
7
Ю Ю

Intervalo entre Cuartiles: Se define como intervalo entre cuartiles o intervalo intercuartílico a la
diferencia entre el tercer y el primer cuartiles.

Ejemplo 1.16) En el ejemplo 1.14 se obtuvo que P0,25 = 2. Calcule Q3 y el IQ.

Dado que estamos hablando de datos de tipo discreto, el comportamiento del vector ordenado es
bastante típico, por lo que, del análisis del vector H se puede decir,

, 3

Entonces,
1
Ю Ю

Ejemplo 1.17) En el ejemplo 1.15 se obtuvo que P0,25 = 916,67. Calcular Q3 y el IQ.


0,75 30 21
, 1250 250 1454,55
11

Entonces,
1454,55 916,67 537,88
Ю Ю

Ejemplo 1.18) Para un grupo de 20 datos muestrales se obtuvo la siguiente información:
Q1 = 9.586, Q2 = 10.1825, Q3 = 10.448 y I Q = 0.862 . Realizar un diagrama de caja y bigotes para
esta muestra.

Para realizar el diagrama deben ubicarse en el eje horizontal los cuartiles y resaltar la distancia IQ
entre Q1 y Q3 y la distancia 1.5IQ medida tanto por debajo de Q1 como por encima de Q3.

Esto define los puntos a = 8.293, b = 9.586, c = 10.448 y d = 11.741, sobre el eje horizontal tal y
como lo muestra la primera parte de la Figura. Adicionalmente se muestra el valor de la mediana.

Entre b y c se dibuja la ‘caja’ mientras que las distancias desde a hasta b y desde c hasta d son los
‘bigotes’ izquierdo y derecho, respectivamente. Para finalizar, se destacan aquellos valores de la
muestra que se encuentren a la izquierda del bigote izquierdo y a la derecha del bigote derecho.
Estos valores se conocerán como valores atípicos de la muestra. La Figura muestra en etapas, el
proceso de construcción del diagrama de caja y bigotes.

10.1825
8 8.293 9 9.586 10 10.448 11 11.741 12
x x x x
a b c d

10.1825
8.293 9.586 10.448 11.741
x x x x

10.1825
8.293 9.586 10.448 11.741
x x x x

Ю Ю

Media Recortada: Se define como media recortada al 100α% al promedio de los datos que
quedan después de eliminar el 100α% inferior y superior de la muestra ordenada.

1

1

Ejemplo 1.19) Para los datos de los ejemplos 1.3 y 1.4 que han sido analizados a lo largo de estas
notas calcule las medias recortadas al 5% y al 10%. ¿Qué ocurre si se busca hacer este cálculo a
partir de las distribuciones en clases, en cada caso?

Se deja como trabajo para el estudiante.
Ю Ю


MEDIDAS DE DISPERSIÓN DE LA MUESTRA

La medida por excelencia de la dispersión de una muestra es una medida relativa a la posición que
ocupa aquel valor que se considere el centro de la muestra. Ese centro es la media muestral.

Varianza Muestral: Se define como varianza de una muestra al promedio de los valores que tome
la siguiente función de la muestra: , es decir,

1

Observaciones:

‐ La varianza muestral es una medida relativa a la posición que ocupa la media de la muestra.
‐ Mientras mayor es la varianza, mayor es la dispersión de la variable alrededor de su media
muestral.
‐ La varianza muestral nunca es negativa; es mayor o igual a cero.
‐ La varianza muestral se mide en unidades de medida de la variable bajo estudio elevadas al
cuadrado.

Ejemplo 1.20) Demuestre que la varianza muestral puede expresarse como .

Desarrollando el cuadrado en la definición de varianza muestral,

1 1
2 2

Analizando cada sumatoria se tiene

; 2 2 ;

Sustituyendo y simplificando,

OJO: Recuerde que la barra superior indica la operación promedio.
Ю Ю

Cuasi‐Varianza Muestral: Se define como Cuasi‐Varianza muestral a la siguiente función de la
muestra.

1

1

Observaciones:

‐ La Cuasi‐Varianza muestral es otra medida relativa a la posición que ocupa la media de la
muestra.
‐ Mientras mayor es la Cuasi‐Varianza, mayor es la dispersión de la variable alrededor de su
media muestral.
‐ La Cuasi‐Varianza muestral nunca es negativa; es mayor o igual a cero.
‐ La Cuasi‐Varianza muestral se mide en unidades de medida de la variable bajo estudio elevadas
al cuadrado.
‐ La Cuasi‐Varianza está relacionada con la varianza muestral, como sigue

1

‐ Para valores grandes de n se tiene que la Cuasi‐Varianza tiende a la varianza muestral.

Desviación Típica Muestral: Se define como Desviación Típica de la muestra a la raíz cuadrada
positiva de la varianza muestral.

Cuasi‐Desviación Típica Muestral: Se define como Cuasi‐Desviación Típica de la muestra a la raíz
cuadrada positiva de la Cuasi‐Varianza muestral.

Observaciones:

‐ Tanto la desviación típica muestral como la Cuasi‐Desviación típica muestral buscan medir la
concentración o dispersión de la variable alrededor de su media muestral.
‐ La Desviación Típica muestral y la Cuasi‐Desviación Típica muestral se miden en las mismas
unidades de medida de la variable bajo estudio.

Ejemplo 1.21) Considere una muestra de tamaño n de la cual se conocen la media y la varianza de
dos sub‐muestras de tamaños n1 y n2, respectivamente. Calcular la media y la varianza de la
muestra total.

Del ejemplo 1.6 se puede realizar la siguiente generalización,

Donde es la media muestral de la sub‐muestra i; i = 1, 2.


2
Sean S , S12 y S 22 la varianza de la muestra y las varianzas de las dos sub‐muestras,
respectivamente, entonces,

OJO: Verificar esta última expresión.
Ю Ю

Ejemplo 1.22) Generalice el resultado del ejemplo 1.21 para k sub‐muestras.

Si separamos la muestra en varios subgrupos de datos, digamos k grupos cada uno de ellos con nj
datos, j = 1, 2,…, k, donde es la media muestral del grupo j; la media muestral de todos los datos
se puede expresar como el promedio ponderado de las medias de cada subgrupo, es decir,

1

Sea S la varianza de la muestra y sean S j , j = 1,2,..., k , las varianzas de cada sub‐muestra,
2 2
entonces,

,
1 1

,

OJO: Verificar esta última expresión.
Ю Ю

Cuando se agrupan los datos en clases el cálculo de la varianza muestral se dificulta ya que
nuevamente se debe tener clara la respuesta a esta pregunta

¿Al agrupar los datos, todavía se dispone de ellos o se perdieron los datos?

Y la respuesta sigue siendo la misma: para clases discretas Sí y para clases continuas No.

En el caso de clases discretas, la varianza muestral será

1 1

Pero en el caso de clases continuas, la varianza muestral será aproximadamente,

1 1

notas, calcule las Varianzas Muestrales.

Ya que se conocen los datos, las varianzas muestrales serán, en cada caso,

1,33 1.3

103727,24 1.4

Si realizamos este cálculo a partir de las distribuciones en clases, las varianzas muestrales serán
respectivamente,

1 1
7,555 2,495 1,33 1.3
200 200

1 1
1534375 1193,75 109335,94 1.4
Ю Ю

Coeficiente de Variación: Se define como Coeficiente de Variación a la relación porcentual entre la
desviación típica y la media muestral.

100%

notas, calcule los Coeficientes de Variación.

Para el ejemplo 1.3,

1,153
2,495; 1,33; 1,153 100% 46,22%
2,495

Para el ejemplo 1.4,

322,07
1185,825; 103727,24; 322,07 100% 27,16%
1185,825
Ю Ю


Sesgo: Busca medir la asimetría de los datos y se define como el promedio de la siguiente función
de la muestra:

0;
1
0;
0;

En forma simplificada se usa el coeficiente de Pearson,

0; í
3 0; í
0; í

Curtosis: Busca medir la forma de la distribución de los datos con respecto a la forma de una curva
normal y se define como la siguiente función de la muestra

1 3; ú
3; ú
3; ú


Ejemplo 1.25) En un torneo de fútbol se conoce que el 15% de los jugadores ha anotado más de 5
goles. Hay dos jugadores que se disputan el liderato del torneo con 8 goles y los sigue un jugador
con siete goles. El 30% de los jugadores ha anotado 4 ó 5 goles (con igual porcentaje). La cuarta
parte de los jugadores anotó un gol y el número de jugadores que anotó 2 goles es el doble del
número que anotó 3 goles. El 10% de los jugadores anotó tres goles. Por supuesto, estos datos son
relativos a aquellos jugadores que anotaron al menos un gol que son el 60% del total de 100
jugadores en el torneo. Determinar la distribución de frecuencias de los datos de los jugadores
que anotaron al menos un gol en el torneo. ¿Cuántos jugadores están entre la media de los datos
de los jugadores que anotaron al menos un gol y la media que se consigue al tomar en cuenta a
todos los jugadores del torneo?

Los datos muestrales son Goles, es decir, los datos son de tipo discreto. Por tanto, cada clase i
contiene a aquellos jugadores que han marcado i goles, con i = 1, …, 8. La tabla siguiente muestra
los valores conocidos y los que desconocemos de la distribución en frecuencias.

Clase Centro f i Fi hi Hi
1 1 15 15 15/60 15/60
2 2 f2 F2 h2 H2
3 3 6 F3 6/60 H3
4 4 f4 F4 h4 H4
5 5 f5 F5 h5 H5
6 6 f6 F6 h6 H6
7 7 1 F7 1/60 H7
8 8 2 60 2/60 1

De la información general del ejemplo se pueden escribir las ecuaciones siguientes

f6 + f7 + f8 = 0.15n = 0.15x60 = 9; f4 + f5 = 0.3n = 0.3x60 = 18; f4 = f5; f2 = 2f3

Con esta información se puede deducir toda la tabla, es decir, (nótese que en las dos columnas a la
derecha se colocan los términos en fracciones para no desperdiciar decimales)

Clase Centro f i Fi hi Hi
1 1 15 15 15/60 15/60
2 2 12 27 12/60 27/60
3 3 6 33 6/60 33/60
4 4 9 42 9/60 42/60
5 5 9 51 9/60 51/60
6 6 6 57 6/60 57/60
7 7 1 58 1/60 58/60
8 8 2 60 2/60 1

Bajo estas condiciones, la media muestral será


1
3,283
60

Al incorporar una clase cero con 40 jugadores (c0 = 0), se tiene que el nuevo promedio
será

1 3,283 60
1,97
100 100

Entre estos dos valores están las clases dos y tres originales con un total de 18 jugadores.
Ю Ю

Ejemplo 1.26) Una muestra de 200 datos de tipo continuo se encuentra distribuida en forma
simétrica en 5 clases de igual amplitud. De esta distribución se tiene la información siguiente: a) El
intervalo o rango de la muestra es igual a 50, b) La mediana es 75, c) la cantidad de datos o
frecuencia absoluta de la 3ra clase es el doble de la 2da y ésta, a su vez, el doble de la 1ra. Se desea
conocer la distribución en frecuencias de esta muestra y, a partir de ella, el porcentaje de datos
que caen en un entorno de centro la media muestral y radio S.

La distribución de frecuencias para los 200 datos de la muestra en 5 clases de igual amplitud tiene
una estructura general dada por la Tabla siguiente. Por supuesto, se deben calcular los valores
desconocidos de la tabla.

Clase Inicio Fin Centro fi Fi hi Hi
1 a a+d a + d/2 f1 F1 h1 H1
2 a+d a + 2d a + d + d/2 f2 F2 h2 H2
3 a + 2d a + 3d a + 2d + d/2 f3 F3 h3 H3
4 a + 3d a + 4d a + 3d + d/2 f4 F4 h4 H4
5 a + 4d a + 5d a + 4d + d/2 f5 200 h5 1
Con base en la característica de simetría de la distribución se puede inferir que

f1 = f5 y que f2 = f4

Además, del enunciado del ejemplo se conoce que

f3 = 2 f2 y que f2 = 2f1

Con las informaciones dadas se pueden deducir varias de las incógnitas de la tabla, y falta conocer
los valores de a y d para tener toda la información de la distribución en frecuencias de los 200
datos de la muestra. Ya que el intervalo de la muestra es 50 se puede escribir

I = MAX − MIN = (a + 5d ) − a = 50 ⇒ 5d = 50 ⇒ d = 10


Ya que la mediana es igual a 75 y, con base en la propiedad de simetría, se puede decir que la
mediana coincide con el punto medio de la clase central (clase 3) luego se puede escribir

a + 2d + d / 2 = 75 ⇒ a + 20 + 5 = 75 ⇒ a = 50

Ahora sí se está en condiciones de escribir la tabla final de frecuencias solicitada.

1 50 60 55 20 20 0.1 0.1
2 60 70 65 40 60 0.2 0.3
3 70 80 75 80 140 0.4 0.7
4 80 90 85 40 180 0.2 0.9
5 90 100 95 20 200 0.1 1

Por último, para conocer el porcentaje de datos que caen en un entorno de centro y radio S, se
deben conocer primero los valores de y S. Dadas las condiciones de simetría de los datos se
puede deducir que 75.

Pero el valor de S no se puede conocer exactamente ya que no se dispone de los datos sino de su
distribución en frecuencias. La desviación estándar que se puede conocer es la correspondiente a
las clases continuas
f i (ci − X ) ⇒ S cc2 = 120 ⇒ S cc ≈ 10.9545

1 c
∑
2
S cc2 =
n i =1
En definitiva, se solicita el porcentaje de datos en el intervalo
{75 − 10.9545, 75 + 10.9545} = {64.0455, 85.9545}
Ahora bien, se sabe que en el intervalo {70, 80} caen 80 datos por lo que se necesita conocer
cuántos datos caen en el intervalo {64.0455, 70} y en {80, 85.0545}. Estos intervalos están en las
clases 2 y 4, respectivamente, por lo que se debe realizar una interpolación lineal en cada clase
bajo el supuesto de que los datos están igualmente espaciados dentro de cada clase. Como
resultado de esta interpolación se tiene que en cada uno de estos sub intervalos hay 23 datos. En
definitiva, el porcentaje de datos solicitado será
80 + 23x 2
%= = 63%
200
Ю Ю


Ejemplo 1.27) Se desea distribuir en 7 clases de igual amplitud la data de vida útil, medida en
meses, de 5000 baterías para automóviles. Para ello se dispone de la siguiente información acerca
de esa distribución:
i) La mediana de la vida útil de las baterías de de 20 meses.
ii) El 20 % de los datos se concentra en las tres primeras clases.
iii) El 22% de los datos se concentra en la quinta clase.
iv) La mitad de los datos está en las tres últimas clases.
v) El número total de datos en las clases dos y tres es igual al número
de datos en la clase seis.
vi) En la clase siete hay 600 datos.
vii) f7 = 2f2
viii) El primer cuartil es 15 meses y 25 días.
Nota: Considere que un mes tiene 30 días.

Primeramente, se desea conseguir la distribución de frecuencias de la vida útil de las 5000
baterías. Por otro lado, se desea otorgar una garantía de un año para las baterías, de tal forma que
si la batería falla durante ese periodo, se le sustituye la batería al vehículo sin costo alguno. Ahora
bien, si la falla ocurre entre el primer año de uso y los primeros 30 meses, se le sustituye la batería
a un costo del 25% del precio de venta. En otra circunstancia, no se otorga ningún beneficio. Con
base en la distribución de frecuencias obtenida, ¿qué porcentaje de baterías se sustituirá al 25%
del costo? Finalmente, se desea hacer un Diagrama de Caja y Bigotes.

La variable bajo análisis es de tipo continuo (vida útil de una batería) por lo que los datos serán
tratados como datos de tipo continuo. La distribución de frecuencias para los 5000 datos de la
muestra en 7 clases de igual amplitud tiene una estructura general dada por la Tabla siguiente. Por
supuesto, se deben calcular los valores desconocidos de la tabla.

1 a a+d a + d/2 f1 F1 h1 H1
2 a+d a + 2d a + d + d/2 f2 F2 h2 H2
3 a + 2d a + 3d a + 2d + d/2 f3 F3 h3 H3
4 a + 3d a + 4d a + 3d + d/2 f4 F4 h4 H4
5 a + 4d a + 5d a + 4d + d/2 f5 F5 h5 H5
6 a + 5d a + 6d a + 5d + d/2 f6 F6 h6 H6
7 a + 6d a + 7d a + 6d + d/2 f7 5000 h7 1
De la información suministrada se puede escribir lo siguiente

0,2 0,22 2500 600 2

Por tanto, la tabla de frecuencias se puede reescribir como sigue, faltando determinar las clases.


1 a a+d a + d/2 200 200 0,04 0,04
2 a+d a + 2d a + d + d/2 300 500 0,06 0,10
3 a + 2d a + 3d a + 2d + d/2 500 1000 0,10 0,20
4 a + 3d a + 4d a + 3d + d/2 1500 2500 0,30 0,50
5 a + 4d a + 5d a + 4d + d/2 1100 3600 0,22 0,72
6 a + 5d a + 6d a + 5d + d/2 800 4400 0,16 0,88
7 a + 6d a + 7d a + 6d + d/2 600 5000 0,12 1
Para determinar las clases se tomaran en cuenta las dos informaciones siguientes

95
20 15 25 í 15,83
6

Con esto se escribe el siguiente sistema de ecuaciones (note que Q1 está en la clase 4)

4 20
95 95 0

5
30 6

Por tanto, la distribución de frecuencias será

1 0 5 2,5 200 200 0,04 0,04
2 5 10 7,5 300 500 0,06 0,10
3 10 15 12,5 500 1000 0,10 0,20
4 15 20 17,5 1500 2500 0,30 0,50
5 20 25 22,5 1100 3600 0,22 0,72
6 25 30 27,5 800 4400 0,16 0,88
7 30 35 32,5 600 5000 0,12 1
Las baterías que tienen derecho a la garantía pagando solo el 25% del precio son aquellas con vida
útil entre 12 y 30 meses, es decir, todas las que están en las clases 4, 5 y 6, más una parte de las
que están en la clase 3, esto es

3 3
% % 100 0,3 0,22 0,16 0,1 100 74%
5 5

Para definir el Diagrama de caja y Bigotes, se debe conocer los 3 cuartiles, ya conocemos Q1 y Q2,
para determinar Q3 hay que tomar en cuenta que está en la clase 6,

0,75 3750 3600
, 25 5 26,25
600


Por tanto, el intervalo entre cuartiles será

26,25 15,83 10,42 1,5 15,63

Los límites de los bigotes serán

1,5 15,83 15,63 0,2

1,5 26,25 15,63 41,88 35

15,83 26,25
0 5 10 15 20 25 30 35

Ю Ю

Análisis Estadístico de Datos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Análisis Estadístico de Datos

Cargado por

Copyright:

Formatos disponibles

Apuntes

IBM Compaq HP Dell Sony

Compaq Sony IBM HP Dell

625 875 1125 1375 1625 1875

; 1 ; 1

; 1 ; 1

f i (ci − X ) ⇒ S cc2 = 120 ⇒ S cc ≈ 10.9545

{75 − 10.9545, 75 + 10.9545} = {64.0455, 85.9545}

0,2 0,22 2500 600 2

También podría gustarte