Está en la página 1de 10

Anlisis Probabilstico y Simulacin Carlos J.

Zapata Captulo 4 Estadstica descriptiva

CAPTULO 4 ESTADSTICA DESCRIPTIVA

4.1 POBLACIN ESTADSTICA

Proceso aleatorio

Experimento aleatorio
Poblacin Datos: Medidos, observados, simulados

Figura 4.1 Concepto de poblacin estadstica

La poblacin estadstica es la reunin de todos los individuos o unidades estadsticas sobre las cuales hay
inters y se desea obtener datos. En la poblacin estadstica se desarrolla un proceso aleatorio. Ver la
Figura 4.1.

Las particularidades especficas de los individuos sobre las cuales existe inters y son objeto de estudio se
denominan variables estadsticas. Las variables estadsticas son variables aleatorias.

El obtener los datos de los individuos de la poblacin es un experimento aleatorio. El procedimiento del
experimento puede ser medir u observar un estado o caracterstica sea directamente o mediante
simulacin.

Los datos que se toman de una poblacin tambin se denominan observaciones.

Ejemplos
Poblacin Variable de inters
1 Habitantes de una ciudad dada Estacin de radio favorita
2 Estudiantes de una universidad Edad
3 Transformadores de distribucin Tiempo para falla
4 Rayos Corriente de descarga

Una poblacin estadstica puede ser:

Finita Infinita

Tiene un nmero contable de individuos Tiene un nmero no contable o infinito de individuos

Aparece cuando:
El que la poblacin sea finita no quiere decir que sea fcil
observar todos sus individuos, pues su tamao puede ser Se consideran individuos pasados, presentes y
muy grande. futuros
No se retiran de los datos la informacin de los
individuos que salen de la poblacin
Los individuos se definen sobre un proceso fsico
continuo en el estado
Se muestrea con reemplazo

Universidad Tecnolgica de Pereira 2009 78


Anlisis Probabilstico y Simulacin Carlos J. Zapata Captulo 4 Estadstica descriptiva

Ejemplos
Poblacin finita Poblacin infinita
El nmero actual de usuarios de un sistema de Las bombillas de un sistema de iluminacin pasadas,
distribucin presentes y futuras
Los km de red del sistema elctrico de distribucin
Los valores de caudal en un ro
secundaria

4.2 MUESTRA ALEATORIA

En la mayora de los casos no es posible realizar un experimento aleatorio sobre todos los individuos de
una poblacin por las siguientes razones:

1 Es complicado estudiar toda la poblacin


2 Es muy costoso estudiar toda la poblacin
3 Tomara mucho tiempo estudiar toda la poblacin
4 La poblacin es infinita
5 No se requiere o desea una precisin muy alta en los resultados

Entonces, se debe aceptar que en la mayora de los casos se debe trabajar con una muestra limitada de
datos. Esta muestra de datos debe ser aleatoria, es decir:

Condicin Comentario

1 Cada dato debe ser independiente de los otros. Se debe tener en cuenta si el muestreo es con o sin
reemplazo y el grado de dependencia entre un
individuo y otro

2 La poblacin debe permanecer sin cambio en su Esto es importante en experimentos aleatorios


naturaleza cada que se toma un dato. donde se toman medidas o se hacen pruebas que
pueden afectar los individuos

La muestra aleatoria se define como:

Poblacin finita Poblacin infinita

Un conjunto de observaciones constituye una muestra Un conjunto de observaciones constituye una


aleatoria de tamao n de una poblacin de tamao N si: muestra aleatoria de tamao n de una poblacin
infinita si:
Es elegida de tal forma que cada observacin o
conjunto de observaciones tenga la misma Cada observacin o subconjunto de observaciones
probabilidad de ser elegido. es una variable aleatoria cuya distribucin tiene
los mismos valores de la distribucin de la
poblacin

Las n variables aleatorias son independientes

En el caso de la poblacin infinita las n observaciones de la muestra aleatoria constituyen una secuencia
de variables aleatorias Independientes e Idnticamente Distribuidas (IID).

Universidad Tecnolgica de Pereira 2009 79


Anlisis Probabilstico y Simulacin Carlos J. Zapata Captulo 4 Estadstica descriptiva

Definir el tamao de una muestra y definir el tipo de muestreo a ser aplicado involucran aspectos que
estn fuera del alcance del presente texto, por lo cual, se recomienda consultar la siguiente referencia:

Introduccin al muestreo, David Ospina Botero, Universidad Nacional de Colombia, 2001

Una vez se conoce el tamao adecuado de la muestra, los siguientes problemas aparecen cuando se quiere
obtener tal cantidad de datos:

Es complicado contactar a una gran cantidad de


habitantes de una ciudad para consultarlos.
1 Es complicado obtener las n observaciones. Es complicado hacer pruebas o mediciones a una
gran cantidad de los transformadores de distribucin
de una ciudad grande o mediana.

Probar una gran cantidad de los componentes que


salen de una fbrica puede ser muy costoso e
2 Es muy costoso obtener las n observaciones incrementara su precio final.

Hacer un censo de poblacin es muy costoso

Es imposible en un momento dado obtener las n En trminos prcticos, en algunos casos es casi
3 imposible consultar a una gran cantidad de los
observaciones
habitantes de una ciudad grande

Para tener 100 tiempos para falla hay que esperar a


La observacin depende de que ocurra el evento que ocurran 100 fallas.
4
aleatorio que define la variable estadstica. No se puede preguntar a cada componente de un
sistema: Usted cundo va a fallar?

En confiabilidad, a diferencia de las ciencias sociales o el mercadeo, generalmente se debe esperar a que
ocurra el evento que define la variable aleatoria para tener datos, por lo cual se debe:

1 Aceptar trabajar con una muestra con tamao menor al adecuado


2 Esperar ms tiempo para tener la cantidad de datos adecuada
3 Agrupar informacin de componentes o sistemas similares para obtener el tamao adecuado de muestra

Universidad Tecnolgica de Pereira 2009 80


Anlisis Probabilstico y Simulacin Carlos J. Zapata Captulo 4 Estadstica descriptiva

4.3 ESTADSTICAS DESCRIPTIVAS

4.3.1 Valor promedio x

1 n
x xi
n i 1

4.3.2 Varianza muestral s 2 y desviacin muestral s

1 n 1 n
s2 ( xi x )2
n 1 i 1
s ( xi x )2
n 1 i 1

4.3.3 Coeficiente de variacin cv

cv s / x

Permite comparar la variacin entre diferentes conjuntos de datos, aunque las unidades del problema no
sean las mismas. Es usual es expresarlo en porcentaje.

Ejemplo

Una persona quiere saber cul de dos balanzas digitales es ms precisa. Se pesa varias veces utilizando ambos
equipos y obtiene los siguientes resultados:

Balanza 1: x1 62.8kg s1 3kg cv1 s1 / x1 3 / 62.8 * 100 4.77%

Balanza 2: x2 63.1kg s2 2.53kg cv2 s2 / x2 2.53 / 63.1* 100 4.01%

La balanza 2 es la ms precisa.

4.3.4 Mediana

Es el valor del tem intermedio cuando el conjunto de observaciones se ordena en forma ascendente o
descendente. Es el valor ms cercano a la mitad una vez las observaciones se jerarquizan de acuerdo con
su magnitud.

Si n es impar Si n es par

La mediana es el dato que aparece en la posicin La mediana es el promedio de los datos de las
(n 1) / 2 posiciones n / 2 y (n 2) / 2

Universidad Tecnolgica de Pereira 2009 81


Anlisis Probabilstico y Simulacin Carlos J. Zapata Captulo 4 Estadstica descriptiva

Ejemplo

Se tiene la siguiente muestra de datos: 15, 14, 2, 27, 13.


n5
Datos ordenados: 2, 13, 14, 15, 27
Mediana: Dato de la posicin (n 1)/ 2 (5 1)/ 2 3 : 14

Ejemplo

Se tiene la siguiente muestra de datos: 11, 9, 17, 19, 4, 5.


n 6
Datos ordenados: 4, 5, 9, 11, 17, 19
Mediana: Promedio de los datos en las posiciones n/ 2 6 / 2 3 y (n 2)/ 2 (6 2)/ 2 4
Mediana (9 11)/ 2 10

Ntese que el valor obtenido como mediana no existe en la muestra de datos

4.3.5 Moda

Es el valor que ms ocurre o el ms frecuente. Una definicin emprica es:

Moda x 3( x mediana)

4.3.6 Distribuciones de frecuencia e histogramas

La distribucin de frecuencias es una tabla que agrupa los datos por clases o categoras y presenta el
nmero de datos en cada clase o sea la frecuencia de clase.

El histograma es la representacin grfica de la tabla de distribucin de frecuencia. Se construye por


medio de rectngulos adyacentes. Las alturas de los rectngulos representan las frecuencias de clase y sus
bases se extienden entre fronteras de clase sucesivas. Como se mostrar ms adelante, el histograma es
una representacin de la funcin de densidad de probabilidad.

No existe una regla fija para determinar el nmero de clases k en una muestra de tamao n . Una regla
emprica es:

Regla de Sturge

k 1 3.3log10 (n)

El intervalo de clases se puede obtener como:

rango (datomax datomin )


w
k k

Algunas recomendaciones para construir las distribuciones de frecuencia son:

Universidad Tecnolgica de Pereira 2009 82


Anlisis Probabilstico y Simulacin Carlos J. Zapata Captulo 4 Estadstica descriptiva

1 Aunque k depende del tamao de la muestra n , tiene poca utilidad utilizar menos de 5 clases o ms de 15
Si w es muy grande no reflejar el patrn de comportamiento de los datos. Si w es muy pequeo no se
obtendr informacin relevante de los datos.
2
Para el caso de los histogramas se debe probar con varios intervalos de clase para deducir qu distribucin
de probabilidad podra ajustarse a los datos.
3 Deben evitarse las clases de frecuencia cero
4 Ningn dato debe quedar en los lmites de clase
5 No debe existir brecha ni traslape entre los lmites de clase
Si una distribucin de frecuencias o histograma se va a comparar con otro, los intervalos de clase deben ser
6
iguales

Si la frecuencia de clase en la tabla de distribucin de frecuencias o histograma se divide entre el tamao


de la muestra, entonces se tiene la probabilidad de ocurrencia de la clase.

El valor promedio y la desviacin muestral de los datos agrupados estn dados por:

1 n 1 n
x xi fi
n i 1
s ( xi fi x )2
n 1 i 1

Donde:

fi : Es la frecuencia de la clase i
xi : Es el valor medio del intervalo de clase i o marca de clase

El valor promedio y la desviacin muestral de los datos agrupados son diferentes a los calculados sin
agrupar los datos.

4.3.7 Distribucin acumulativa de frecuencias

La distribucin acumulativa de frecuencias es una tabla donde se acumulan las frecuencias de cada una
de las clases; indica cuales frecuencias de los valores observados son menores o iguales al valor de la
abcisa.

Si se dividen las frecuencias acumuladas entre el tamao de la muestra, entonces se tiene una tabla o
grfica de probabilidades acumuladas que es una representacin de la funcin de distribucin de
probabilidad.

4.3.8 Naturaleza aleatoria de las estadsticas descriptivas

Si, una vez se ha definido el tamao adecuado de la muestra n , se toman varias muestras aleatorias de
dicho tamao, cada muestra contendr diferentes observaciones a las de las otras, por lo cual, las
estadsticas descriptivas de las muestras sern diferentes entre s. Esto quiere decir que:

1 El promedio estadstico de la muestra x es una variable aleatoria


2 La desviacin muestral s es una variable aleatoria
3 Los valores que se calculen utilizando x s tambin son variables aleatorias

Universidad Tecnolgica de Pereira 2009 83


Anlisis Probabilstico y Simulacin Carlos J. Zapata Captulo 4 Estadstica descriptiva

Las distribuciones de probabilidad de estas estadsticas descriptivas se denominan distribuciones


muestrales. Las preguntas que entonces surgen son:

Cules son estas distribuciones y cules son sus caractersticas ms importantes?

Las respuestas a estas preguntas se darn en el siguiente captulo.

4.4 PERCENTILES Y CUARTILES

Cada dato i de una muestra aleatoria de tamao n tiene una probabilidad de ocurrencia pi 1.0 / n .

Si los datos de la muestra aleatoria se ordenan de menor a mayor se pueden definir los percentiles de la
siguiente forma:

Percentiles

El p esimo percentil de la muestra Pp % es el dato o valor para el cual al menos 100 p% de los datos
estn en o por debajo de ese valor y cuando menos (1 p)100% estn en o por encima de ese valor

Esto quiere decir tambin, que el p esimo percentil es el valor para el cual hay una probabilidad de
ocurrencia menor o igual a p .

Los cuartiles Qi se definen como:

Es el valor o dato que tiene el 25% de las observaciones o es el valor para el cual la probabilidad de
Q1
ocurrencia es menor o igual al 25%. Equivale al 25-avo percentil
Es el valor o dato que tiene el 50% de las observaciones o es el valor para el cual la probabilidad de
Q2
ocurrencia es menor o igual al 50%. Equivale al 50-avo percentil. Es la misma mediana
Es el valor o dato que tiene el 75% de las observaciones o es el valor para el cual la probabilidad de
Q3
ocurrencia es menor o igual al 75%. Equivale al 75-avo percentil

Si dos datos cumplen la definicin de un percentil dado, entonces se toma el promedio de los valores o
una interpolacin lineal entre ellos. Quiere esto decir tambin, que es posible que el valor de un percentil
dado puede que no exista en la muestra.

Los cuartiles y percentiles son muy utilizados para expresar informacin en forma estadstica.

Universidad Tecnolgica de Pereira 2009 84


Anlisis Probabilstico y Simulacin Carlos J. Zapata Captulo 4 Estadstica descriptiva

EJERCICIO 4.1

En una casa se instalan cuatro cortinas de luces de navidad, cada una de las cuales tiene 150 bombillas.

El ciclo operativo de las bombillas es de 12 horas por da durante 30 das cada ao. Cada que una bombilla
se daa es reemplazada por otra y se inicia la cuenta de horas de funcionamiento para la nueva bombilla.

Al cabo del primer mes de haber instalado las cortinas (la primera navidad), se encuentra que han fallado
16 bombillas con los siguientes tiempos para falla:

Tiempos para falla [horas]


184.1 224.4 256.1 344.5
208.3 227.5 300.2 344.7
213.3 248.5 303.8 345.6
218.0 252.1 336.3 349.4

Dato mximo = 349.40 horas


Dato mnimo = 184.10 horas
Rango = 165.30 horas
x 272.30 horas
s 58.58 horas
cv s / x * 100% 58.58/ 272.30 * 100% 21.51%
k 1 3.3log10 (16) 4.97 5.0
w rango / k 165.30 / 5 33.06 33 horas

Distribucin de frecuencia e histograma

Clase Frecuencia Probabilidad clase


1 184 - 217 3 0.1875
2 218 251 4 0.2500
3 252 - 286 2 0.1250
4 287 - 320 2 0.1250
5 321 354 5 0.3125
16 1.0000

Figura 3.2 Histograma de datos del Ejercicio 4.1

Universidad Tecnolgica de Pereira 2009 85


Anlisis Probabilstico y Simulacin Carlos J. Zapata Captulo 4 Estadstica descriptiva

Distribucin acumulada de frecuencia y grfica de probabilidades acumuladas

Clase Frecuencia Probabilidad clase


1 184 - 217 3 0.1875
2 218 251 7 0.4375
3 252 - 286 9 0.5625
4 287 - 320 11 0.6875
5 321 354 16 1.0000

Figura 3.3 Grfica de probabilidad acumulada del Ejercicio 4.1

Calcular el percentil 20 y el segundo cuartil

La muestra de datos ordenada de menor a mayor magnitud es:

184.1 208.3 213.3 218.0 224.4 227.5 248.5 252.1


256.1 300.2 303.8 336.3 344.5 344.7 345.6 349.4

El percentil 20 debe tener por lo menos 0.2*16= 3.2 observaciones por debajo y 12.8 observaciones por
encima. Esto criterio solo lo cumple el dato 218.0. Entonces:

P20% 218.0 [Horas]

El segundo cuartil corresponde al percentil 50, el cual debe tener por lo menos 0.5*16= 8 observaciones
por debajo y 8 observaciones por encima. Esto criterio lo cumplen los datos 252.1 y 256.1. Entonces:

252.1 256.1
Q2 254.1 [Horas]
2

Ntese que ninguno de los valores obtenidos se encuentra en la muestra.

Se espera que el 20 por ciento de las bombillas falle en un tiempo menor o igual a 218. 2 Horas. Y se
espera que el 50% de las bombillas durar mas de 254.1 Horas.

Universidad Tecnolgica de Pereira 2009 86


Anlisis Probabilstico y Simulacin Carlos J. Zapata Captulo 4 Estadstica descriptiva

4.5 BIBLIOGRAFA

[1] Hays W. L, Winkler R. L, Statistics, probability, inference and decision, Volume 1, Holt Rinehart
and Wiston Inc, 1970.

[2] Torres A, Probabilidad, procesos estocsticos y confiabilidad en ingeniera elctrica,


Universidad de los Andes, 2005.

[3] Viniotis Yannis, Probability and Random Processes for Electrical Engineers, Mc-Graw Hill, 1998.

[4] Miller I, Freund J, Johnson R, Probabilidad y Estadstica para Ingenieros, Prentice Hall, 1992.

[5] Law Averill M, Kelton W. David, Simulation Modeling and Analysis, Mc-Graw Hill, 2000.

[6] Hermon P, Statistics: A component of research, 1990.

[7] Ospina D, Introduccin al muestreo, Universidad Nacional de Colombia, 2001.

Universidad Tecnolgica de Pereira 2009 87

También podría gustarte