Está en la página 1de 11

ESTADÍSTICA DESCRIPTIVA

Sumario: 1. Introducción. 2. Tratamiento de datos individuales. Media, varianza, desvío


estándar y coeficiente de variación. 2.1. Definiciones. 2.2. Propiedades de la media
aritmética. 2.3. Propiedades de la varianza, del desvío estándar y del coeficiente de
variación. 3. Agrupamiento de datos. El histograma. 4. Uso de la planilla EXCEL 2000. 5.
Cálculo de probabilidades y fractiles.

1. Introducción
En los Capítulos 4 y 6 hemos tratado con cierto detalle el concepto de variable aleatoria,
definida como una variable cuyos valores son resultados de un fenómeno aleatorio. Hemos hablado de
algunos modelos fundamentales, como la distribución Normal la Exponencial, y discutido algunas
aplicaciones de interés. Ello no obstante, en la práctica de nuestra Ciencia, por lo general no tenemos
la información completa sobre el modelo apropiado, es decir, no nos dicen por ejemplo “Esta variable
tiene distribución Normal”, sino que nos entregan una masa de datos que debemos analizar y
encontrar dicho modelo.
En los Capítulos 8 y 10 estudiaremos un importante conjunto de modelos especiales que se
ajustan a diversas variables aleatorias que aparecen en la naturaleza, pero nuestro interés actual es
mostrar los procedimientos fundamentales para el tratamiento de masas de datos, como paso previo a
la especificación del modelo apropiado. Por supuesto, hay situaciones en que, por nuestra experiencia,
tenemos una idea o, incluso, sabemos bien cuál es el modelo apropiado, pero el análisis de los datos
es, en general, un paso inexcusable.
Nuestra información consiste, pues, en un conjunto de n observaciones

X1, X2, ..., Xn

Estos n valores han sido observados sobre n individuos, que pueden ser objetos, animales,
personas, ciudades, etc.

Def. 1. Llamamos unidad experimental al ente material o inmaterial, animado o inanimado


sobre el cual se registra un dato (valor de una variable aleatoria).

Def1. 2. Llamamos población al conjunto de unidades experimentales en estudio.

Hay casos en que la población tiene existencia física material y real, como por ejemplo un
lote de piezas ya producidas por una máquina o un lote de novillos en un establecimiento
agropecuario. En otros casos, los individuos tienen existencia física pero no real, como las piezas que
producirá una máquina. Finalmente, si la población consiste en días u otras unidades temporales, o
hablamos de los resultados de una ruleta, la existencia no es física ni real. De todos modos, aunque la
población no tenga existencia física ni real, podremos admitir que las observaciones provienen de una
población estadística hipotética, la que en esos casos será infinita y supondremos que las unidades
experimentales se extraen al azar de la misma. La introducción de esta población hipotética resulta útil
en los casos en que las observaciones son independientes entre sí, es decir cuando el resultado de una
observación no aporta información alguna sobre el posible resultado de la o las siguientes. Si no fuera
así, o sea, si las observaciones sucesivas no pueden considerarse independientes entre sí, como en el
caso de la cotización diaria del dólar o de una acción, no hablaremos de población sino de proceso,
concepto más complejo que no trataremos en este curso.

Si la población tiene existencia física y real, como un lote de novillos, la cantidad de


unidades experimentales que la constituyen será finita aunque, si es muy grande, podrá tratarse como
si fuera infinita. Una población finita puede relevarse en su totalidad, no así una infinita. Pero aunque
podamos relevar a toda la población, muchas veces no es conveniente ni razonable por una cuestión

1
El lector observará que, por razones didácticas, repetiremos algunos conceptos y definiciones del Capítulo 1.
2
económica. Así, por ejemplo, en una encuesta electoral, nunca interrogamos a todos los votantes sino
a un subconjunto de los mismos.

Def 3. Llamamos muestra a cualquier subconjunto de la población.

Una muestra puede ser probabilística o no probabilística. En el primer caso, cada unidad
experimental tiene una probabilidad conocida de ser seleccionada; en general, dicha probabilidad es la
misma para todas las unidades. En el segundo caso, la muestra se extrae con algún criterio no
probabilístico, por ejemplo, un auditor debe revisar una gran cantidad de facturas de compra de una
empresa y, en vez de elegir una muestra aleatoria en la cual puede haber muchas facturas de montos
pequeños, sin importancia, decide revisar todas aquellas facturas de montos superiores a un valor
dado, de modo de auditar un porcentaje importante del monto total, pero un porcentaje pequeño de
facturas, optimizando así su trabajo. En esta obra estudiaremos primordialmente el caso de muestras
probabilísticas.

En general, nuestros datos serán muestrales, es decir que el tamaño n de la muestra será
inferior al de la población, aunque en algún caso podremos tener la información completa, si nuestra
población es finita, o sea que tendremos n=N datos.

2. Tratamiento de datos individuales. Media, varianza, desvío estándar y


coeficiente de variación.

2.1. Definiciones
A partir de nuestro conjunto de observaciones X1, X2, ..., Xn, calculamos dos medidas
fundamentales:
1 n
(7.1) La media aritmética: X   X i
n i 1

2 1 n 2
(7.2) La varianza: S  (Xi  X )
n i 1

La media artimética es una medida de posición que nos informa sobre el verdadero valor
medio de la variable; se dice que es una estimación, es decir una medida aproximada, de dicho
valor (desconocido, denominado µ) de la población. En el Capítulo... estudiaremos detalladamente el
concepto de estimación estadística.

La varianza es una medida de dispersión y nos informa sobre la variabilidad, o sea sobre la
aleatoriedad de nuestra variable. Es una estimación de la varianza verdadera (denominada 2). La raíz
cuadrada de la varianza se denomina desvío estándar de la muestra.

1 n 2
(7.3) S (Xi  X )
n i 1

Si se trabaja con calculadora de bolsillo, puede utilizarse el modo estadístico para el cálculo
de estas cantidades, o bien, utilizar la siguiente fórmula de trabajo (equivalente), más cómoda:

1n 2 1 n 2

 X i  X    X i    X i  
2 1 n 2 2
(7.2’) S 
n i 1 n i 1 n  i 1  
3

Si se trabaja con planilla EXCEL, la media se calcula con la función =PROMEDIO(rango), el


desvío estándar con =DESVEST(rango) y la varianza con =VAR(rango). En esta expresiones,
designamos rango a las celdas donde se encuentran los datos [p. ej. (A1:A100)].

En el capítulo sobre estimación de parámetros veremos que el divisor más correcto de las
expresiones (7.2) y (7.3), o sea que nos da una mejor estimación, es (n1) y no n, es decir que la
expresión más apropiada es:

 n X 2  nX 2   1  n X 2  1  n X  
2
1
(7.2”) S2 =
n  1  i 1
i
 n  1 i 1 i n  i 1 i  

Existe una creencia bastante generalizada, y errónea, de que el desvío estándar, que se mide
en las mismas unidades que la variable, debe ser mucho menor que la media. Esto es así,
efectivamente, en muchas variables, como las que provienen de procesos tecnológicos controlados (p.
ej. el diámetro de un eje, el rendimiento de un cultivo en un experimento diseñado, la resistencia a la
rotura de una pieza, etc.), o sea variables que, en general, tienen distribución Normal. Hay otras
variables, cuya procedencia no está bajo control, como los ingresos de los habitantes de una ciudad o
la lluvia caída mensualmente en una región; en estos casos, el desvío estándar puede ser comparable y
aún mayor que la media. Por ejemplo, el ingreso medio de la población laboralmente activa de
Argentina es $550 (año 2004) y el desvío estándar es aproximadamente del mismo valor.

Advertimos entonces que, para medir la variabilidad, el parámetro verdaderamente


importante es el cociente entre el desvío estándar y la media, esto es:

σ
(7.4) γ

denominado coeficiente de variación. Su estimación será:

S
(7.5) c
X

Según el valor que tome el parámetro , o su estimación, si no es conocido, sabremos si


nuestra variable tiene dispersión baja, media o alta. A título orientativo para el lector novel
indiquemos los valores de referencia:

 < 0,1: Dispersión baja


0,1 < < 0,2: Dispersión moderada
0,2 <  < 0,3: Dispersión moderadamente alta
 > 0,3: Dispersión alta

Las estimaciones (7.1), de la media, (7.2), de la varianza, (7.3), del desvío estándar, y (7.5)
del coeficiente de variación, cometen, con respecto al verdadero valor del parámetro (µ, 2, , ), un
error que más adelante cuantificaremos, pero resulta intuitivamente claro que el mismo será menor
cuanto mayor sea el tamaño n de la muestra.

Ejemplo 1. Consideremos los siguientes datos de duraciones de un neumático (en miles de


Km):

52,1 - 48,4 - 57,2 - 39,9 - 46,3 - 54,1 - 43,2 - 47,3

Calcular la media, la varianza y el coeficiente de variación de estos datos.


Solución: Aplicando (7.1), (7.2’) y (7.5), tenemos:
4
1
X  (52,1  48,4  57,2  39,9  46,3  54,1  43,2  47,3)  48,5625 semanas.
8

2 1 2 2 2 2 2 2 2 2 2
S  (52,1  48,4  57,2  39,9  46,3  54,1  43,2  47,3 )  48,5625 =
8

= 28,5398 (miles de Km)2.

S = 5,3423 miles de Km

S 5,3423
c  =0,11 = 11%
X 48,5625

Así, pues, este es un caso de dispersión moderada. Esto se da frecuentemente en fenómenos


de duración, cuando la muerte del elemento se produce por desgaste o envejecimiento, no así en los
casos en que la falla se produce por causas totalmente aleatorias, en que la distribución es Exponencial
y el coeficiente de variación es el 100%, o sea una dispersión alta.

2.2. Propiedades de la media aritmética


La media aritmética tiene las siguientes propiedades fundamentales:

1) Para las n observaciones (X1, X2, ..., Xn) de la muestra, la suma de desviaciones (Xi X )
es cero (la demostración es inmediata):

n
 (Xi  X )  0
i 1

2) La media aritmética X minimiza la suma de los cuadrados de las desviaciones o sea la


suma de (Xi X )2:

n 2
 ( X i  X )  Mínimo
i 1

En efecto, sea y una incógnita y calculemos y para que sea un mínimo la suma:

n 2
W   ( X i  y)
i 1

La condición de mínimo es:

W n
 2  ( X i  y )  0
y i 1

Cancelamos el (2) y desarrollamos la suma:


5
n
 X i  ny  0
i 1

de donde y= X y se reconfirma la propiedad 1).

3) Si a todas las observaciones Xi se les aplica una misma transformación lineal (aXi+b), la
media queda afectada del mismo modo, es decir que toma el valor (a X +b).

Observación. Si la transformación no es lineal, la media aritmética no sigue a la


transformación. Por ejemplo, si se toma el cuadrado de todas las observaciones, la media de
esos cuadrados no es igual al cuadrado de la media original.

2.3. Propiedades de la varianza, del desvío estándar y del coeficiente de


variación.
1) Un corrimiento no afecta la varianza, pero un cambio de escala sí. O sea, si se aplica a
todos los datos la misma transformación lineal (u=aXi+b), la varianza de u es Su2=a2Sx2. El
desvío estándar de y es Su=aSx.

2) Con un cambio de escala, sin corrimiento, es decir u=aX , el coeficiente de variación no


se altera.

Advierta que estas propiedades también se cumplen para los parámetros de la población ( , 
y ).

3. Agrupamiento de datos. El histograma

Si disponemos de una muestra razonablemente grande, de 50 o más datos, podemos calcular


la media aritmética y el desvío estándar, como vimos en la sección anterior. También podemos buscar
el valor máximo y el mínimo, pero no será posible obtener más información ni sacar muchas
conclusiones. Nos podría interesar obtener los valores de más alta frecuencia o más representativos, o
valores superados por determinado porcentaje de la muestra, por ejemplo, el valor superado por el
10% de los individuos; si se tratara de consumos, estos serían grandes clientes. También podría ser de
nuestro interés ver si hay asimetría en la distribución, esto es, si hay muchos individuos con valores
bajos de la variable y unos pocos con valores altos (p. ej. ingresos de una ciudad); o sea que nuestro
interés podría ser una aproximación de la función de densidad de probabilidad f(x). Ello no obstante,
esta información está contenida en la muestra y su obtención se logra con el agrupamiento de los datos
y el dibujo del histograma, como se describe a continuación.

Dada una muestra aleatoria de n observaciones de una variable aleatoria continua, o discreta
que se aproximará a una continua, X1, X2, X3, ..., Xn, dividiremos el recorrido total2, diferencia entre el
valor máximo y el mínimo, en k intervalos (a1,b1), (a2,b2), ..., (ak,bk); luego contamos cuántos valores
de la muestra hay dentro de cada intervalo y llamamos fi, frecuencias absolutas, a dichas cantidades de
valores. Estas frecuencias fi, graficadas convenientemente, constituirán el histograma. Para fijar ideas,
consideremos el siguiente ejemplo.

2
Algunos textos traducidos, de origen anglosajón, llaman “rango” al recorrido (Xmáx Xmín), lo cual es un error
que proviene de una errónea traducción del término “range”. Rango significa orden o jerarquía y el término
inglés correcto es rank.
6

Ejemplo 2. Dibujar el histograma para los siguientes n=300 datos de duración, en semanas
de uso, de un tipo de batería de automóvil:

40 44 54 41 53 46 38 45 30 41 40 54 22 33 50 48 46 38 39 46
41 33 30 36 19 33 29 16 33 54 46 39 47 28 18 50 37 52 29 37
31 41 37 38 45 23 45 48 36 33 41 59 46 36 43 47 49 47 53 31
48 62 45 47 30 33 29 38 37 44 32 42 41 35 31 50 48 14 31 50
23 51 23 35 50 26 52 50 52 42 32 39 57 22 44 55 59 23 34 40
31 31 24 32 53 29 41 22 31 47 42 52 38 48 36 49 52 51 26 36
53 42 53 43 38 42 42 54 25 51 33 37 52 53 36 48 52 22 49 27
64 42 29 42 25 31 32 25 40 66 39 47 18 38 39 23 60 39 34 50
41 31 46 31 39 34 43 28 44 47 29 35 33 47 31 26 29 23 28 33
50 34 47 38 46 37 45 12 32 51 41 47 33 40 45 31 32 58 14 49
48 46 34 42 45 56 37 29 53 51 28 54 27 29 37 33 40 30 35 30
29 43 36 50 49 38 41 35 34 22 33 58 50 49 34 45 43 41 37 37
29 55 44 25 37 40 34 46 50 35 43 36 23 35 49 39 44 45 33 39
39 38 51 40 36 31 34 47 23 44 25 12 54 38 39 34 41 33 31 30
25 39 38 39 43 28 28 49 33 46 36 37 41 53 34 56 51 43 44 23

Solución: El mínimo de la muestra es Xmín=12 y el máximo Xmáx=66; en función de esto,


armamos la siguiente tabla de frecuencias:

X (Kwh) Unidades P. medio


fiXi fiXi2
ai bi fi Xi
12 20 8 16,0 128,0 2.048,00
20 25 21 22,5 472,5 10.631,25
25 30 28 27,5 770,0 21.175,00
30 35 53 32,5 1.722,5 55.981,25
35 40 55 37,5 2062,5 77.343,75
40 45 47 42,5 1.997,5 84.893,75
45 50 47 47,5 2.232,5 106.043,75
50 55 30 52,5 1.575,0 82.687,50
55 60 8 57,5 460,0 26.450,00
60 66 3 63,0 189,0 11.907,00
Totales 300 11.609,5 479.161,25

Ahora vamos a representar en un gráfico las frecuencias fi y obtendremos el histograma, que


ha de tener una forma similar a la curva representativa de la función de densidad f(x) teórica. En la
Fig. 7.1 hemos realizado la representación, a la que se podría ajustar una curva a mano alzada o
utilizando métodos matemáticos de ajuste.

Fig. 7.1
7

10

10 20 30 40 50 60

Debemos hacer una aclaración adicional. Si queremos que el histograma refleje lo más
fielmente posible a la función de densidad teórica, necesitamos que las áreas bajo el histograma se
interpreten como probabilidades, para lo cual, los valores que deben llevarse en las ordenadas deben
ser las cantidades fi/nhi, siendo hi la amplitud de cada intervalo; si las amplitudes hi son todas iguales,
esto únicamente produce un cambio de escala pero no deforma el histograma, es decir que en ese caso
da lo mismo llevar las fi absolutas o los cocientes fi/nhi. Sin embargo si, como en este ejemplo, no
todas las amplitudes coinciden, el histograma correcto es el relativo, llevando en ordenadas dichos
cocientes. De ese modo se logra que las áreas bajo el histograma realmente sean probabilidades; en
efecto, el área bajo una banda cualquiera sería

fi fi
base  altura  hi  
nhi n
y precisamente fi/n es la estimación de la probabilidad de que la variable caiga en el intervalo cuya
frecuencia es fi.
En general, es conveniente, aunque no obligatorio, que las amplitudes sean iguales; sin
embargo puede ocurrir, si la variable es muy asimétrica, que los valores de algún extremo, por
ejemplo los mayores, estén muy espaciados y entonces se termina el histograma con un intervalo final
de amplitud mayor que los otros para tomar los últimos dos valores de la variable, que son mucho
mayores que el resto de la muestra.

A partir de los datos agrupados es posible también obtener estimaciones de la media y la


varianza de la distribución, mediante las siguientes expresiones:

1 k
(7.6) X   fi X i
n i 1

2 1 k 2 1 k 2 2
(7.7) S   fi ( X i  X )   fi X i  X
n i 1 n i 1

En (7.6) y (7.7) se utiliza una aproximación que será válida en la medida en que el número de
intervalos no sea demasiado pequeño. Se ha reemplazado la suma de los datos de cada intervalo, que
no se conoce, pues ya no se dispone de los datos individuales, por el producto fi Xi, donde Xi es el
punto medio del intervalo.

Ejemplo 3. Para los datos del Ejemplo 2, calcular la media, la varianza, el desvío estándar y
el coeficiente de variación, con los valores individuales y con los datos agrupados, comprobando su
coincidencia aproximada.
Solución: Considerando los datos individuales, obtenemos, con la función =PROMEDIO del
EXCEL los siguientes resultados:
S
X  39,137 ; S2=100,6401 ; S=10,032 ; c   0,256  25,6%
X

El cálculo con los datos agrupados arroja:

1 k 11.609,5
X   fi X i   38,7
n i 1 300
8

2 1 k 2 2 479.161,25 2
S   fi X i  X   38,7  99,6432
n i 1 300

S = 9,9821

c = 0,258 = 25,8%

k k 2
(Las sumas  f i X i y  f i X i fueron computadas en la misma tabla de frecuencias).
i 1 i 1

Estos resultados muestran un razonable acuerdo con los calculados con los datos
individuales. El acuerdo es aún mayor, porque la función = DESVEST del EXCEL hace el cálculo con el
divisor (n1), por lo tanto, la varianza obtenida con los datos agrupados debe multiplicarse por el
factor n/(n1) y resulta 99,976.

El agrupamiento es útil, como método de síntesis, cuando se dispone de una masa importante
de datos que por sí solos no nos dicen demasiado y, si bien se pierde cierta información, pues los datos
pierden su individualidad, se gana en el análisis. Como una guía aproximada para establecer el
número k de intervalos, puede utilizarse la siguiente fórmula de STURGES (1926):

Ln n
(7.8) k 1
Ln 2
Para los datos del Ejemplo 2, se obtiene k=9,2, que podemos redondear a 9 ó 10 se tomó
k=10. Si se toman muy pocos intervalos se pierde información pero si se toman demasiados, no se
logra la simplificación buscada en el análisis y además, si la muestra no es muy grande, el histograma
estaría muy deformado con respecto al modelo teórico correcto.

4. Uso de la planilla EXCEL 2000


La planilla EXCEL nos permite efectuar el agrupamiento de una masa de datos en una tabla de
frecuencias de un modo muy simple. Hay dos formas de hacerlo: 1) Mediante la función
=FRECUENCIA(datos;grupos); 2) mediante la función Histograma, de la opción Análisis de datos del
menú Herramientas. A continuación se describen y ejemplifican ambas modalidades.

1) Es posible realizar el agrupamiento de una masa de datos en una tabla de frecuencias


mediante la función

=FRECUENCIA(datos;grupos)

de la planilla EXCEL 2000. Veremos el procedimiento con un ejemplo.

Ejemplo 4. Se tienen los siguientes datos de salarios del personal de una universidad:
9
634 800 1394 468 691 572 591 1885 1072 882
641 3289 535 1123 600 173 289 788 1934 1509 Estos 100 datos están en el
3014 664 2122 1244 348 4177 957 1756 1835 582 rango A3:J12. Calculamos su media y
525 910 3613 585 961 397 237 699 919 683 desvío estándar con las funciones
666 345 626 1295 743 618 1323 232 1305 189 =PROMEDIO(A3:J12), que devuelve el
1352 879 1267 684 924 2218 1871 943 337 1452 valor 1055,36 y =DESVEST(A3:J12),
860 505 474 695 327 363 603 1576 296 1184 que arroja 825,83. También calculamos
258 643 380 717 617 1912 1196 1504 524 1430 el mínimo, con =MIN(A3:J12) y
187 568 532 1021 1031 1873 307 718 510 707 obtenemos 173 y el máximo, con
948 352 2425 903 4524 496 933 1904 2192 1973 =MAX(A3:J12), que da 4524. Con esta
información, preparamos la tabla con
los intervalos de clase, en el rango L2:M9.

Fila L M
1 ai bi Seleccionamos [con el ratón o con SHIFT (MAYÚSCULAS)] el rango donde
2 100 300 deberán ubicarse las frecuencias, es decir, el rango N2:N9; a continuación
3 300 500 digitamos =FRECUENCIA (A3:J12;M2:M9), pero la entrada no debemos hacerla con
4 500 700 ENTER sino con la presión simultánea de las teclas CONTROL-SHIFT-ENTER. Es
5 700 1000 decir, para el argumento “grupos” [M2:M9], consideramos únicamente los límites
6 1000 1500 superiores (300, 500, ..., 4600). Esto producirá el siguiente resultado:
7 1500 2000
8 2000 3000
9 3000 4600

ai bi fi
100 300 8 Ahora podemos calcular la media y el desvío con los datos de la tabla,
300 500 12 mediante las expresiones (7.6) y (7.7). Obtenemos así:
500 700 26
700 1000 18 X = 1060,5 ; S = 833,83
1000 1500 15
1500 2000 12 que, con la pérdida de información causada por el agrupamiento, presentan un
2000 3000 4 razonable acuerdo con los valores obtenidos con los datos individuales, que eran
3000 4600 5 1055,36 y 825,83.

2) También es posible efectuar el agrupamiento de los datos con la función Histograma, de


la opción Análisis de datos, del menú Herramientas. Como primer paso, debemos cargar nuestra
tabla de datos en una columna o en una matriz. Se cliquea en el menú Herramientas, luego la opción
Análisis de datos y finalmente la opción Histograma. Al respecto, hay que aclarar que, en la
instalación estándar, no queda disponible la opción Análisis de datos; para activarla sólo hay que
cliquear en la opción Complementos, y aparecerá una serie de opciones con un  delante, que hay
que cliquear para activarlas; dos de estas opciones se denominan Herramientas de Análisis y, al
activarlas (ambas) y Aceptar, al volver al menú Herramientas, aparecerá la opción Análisis de
Datos.

Al cliquear en Histograma aparecerá un cuadro de diálogo, en el cual deberemos indicar


obligatoriamente los siguientes datos:

Rango de entrada: En el ejemplo A3:J12


Rango de clases: En el ejemplo M2:M9 (Los límites superiores de clase)
Rango de salida: Puede darse una celda, por ejemplo N1 y a partir de ella se obtendrán los
resultados.
10
Luego cliqueamos en Aceptar y obtendremos los resultados del Ejemplo 4. Podemos
cliquear también en la opción Crear gráfico, para el histograma (Fig. 7.2).

Histograma
Fig. 7.2
30

25
Frecuencia

20

15

10

00

00

00

00

00
0

...
30

50

70

or
10

15

20

30

46

ay
m
y
Clase

Este histograma que produce la planilla EXCEL presenta el error de que no respeta la escala
correcta en el eje de abscisas, debido a que toma los valores de la variable X como rótulos o etiquetas
y no como valores numéricos.

5. Cálculo de probabilidades y fractiles

Veremos este cálculo con los datos del Ejemplo 2.

Ejemplo 5 (Continuación del Ej. 2). Para los datos del ejemplo, se desea calcular: a)
Porcentaje de baterías con duraciones superiores a 30 semanas. b) Porcentaje de baterías con
consumos inferiores a 52 semanas. c) Duración garantizada con 90% de confiabilidad. d) La mediana
de las duraciones, esto es, la duración superada por el 50% de las baterías. e) El valor de más alta
frecuencia, denominado modo o moda.
Solución: a) Retomemos la tabla de frecuencias (pág. siguiente).
Surge en forma evidente de la tabla que la fracción de baterías con duraciones superiores a 30
semanas es 1(8+21+28)/300=0,81 o sea que el 81% de las baterías dura más de 30 semanas. Con
nuestra notación de probabilidades acumuladas es G(30)=0,81.
b) Debemos calcular F(52). Observamos que F(50)=(8+21+28+53+55+47+47)/300= 0,8633;
F(52) es algo mayor y vale F(50)+(2/5)(30/300)= 0,9033. La fórmula general es

1  j 1 ( X  b j 1 ) 
(7.9) F(X )   i fi  fj
n  1 hj 
11
X (Kwh) Unidades En la expresión (7.9) llamamos j al intervalo donde se
Fi
ai bi fi encuentra el valor de X y hj=bj  aj su amplitud.
12 20 8 8
20 25 21 29 c) La duración superada con 90% de confiabilidad es el valor
25 30 28 57 de la variable cuya frecuencia relativa acumulada es 0,1, o sea el fractil
30 35 53 110 X0,1; este valor tiene también una frecuencia absoluta acumulada F
35 40 55 165 igual a 30, o sea el 10% de n.Vemos, en la columna de frecuencias
40 45 47 212 acumuladas, Fi, que el valor 30 se encuentra en el tercer intervalo, o
45 50 47 259 sea que el fractil 0,1 está comprendido entre 25 y 30 semanas, muy
50 55 30 289 cerca de 25. Por interpolación lineal encontramos que el mismo debe
55 60 8 297 penetrar en el intervalo una fracción (3029)/28 =0,036, o sea que vale
60 66 3 300 X0,1=25+0,036(3025)=25,18.

La fórmula general para un fractil  es:

( nω  F j 1 )h j
(7.10) Xω  a j 
fj

Nuevamente, j es el intervalo donde se encuentra X que deberá determinarse antes de aplicar


la fórmula, viendo donde cae n como frecuencia absoluta acumulada.
Observamos que (7.9) y (7.10) son dos versiones distintas de la misma fórmula.

d) El valor de una variable aleatoria superado con 50% de probabilidad se denomina


mediana. Verifique que, para este ejemplo, su valor es 38,6 semanas.

e) El valor de más alta frecuencia se denomina modo o moda de la variable y es una medida
de posición representativa de la distribución. Se calcula como el punto medio del intervalo modal y su
valor es, para este ejemplo, de 37,5 semanas.

También podría gustarte