Está en la página 1de 13

Análisis y Medición de la Incertidumbre

Usando Datos
Podemos pensar en desarrollar funciones de distribución de probabilidad, discretas y
continuas basados en datos empíricos. Para el caso discreto, el problema es crear un
histograma de frecuencia relativa de los datos, mientras que para variables discretas se
usa una función de distribución acumulativa empírica.
Histogramas
Supón que estas a cargo de una empresa de manufactura y esta tratando de desarrollar un
plan de mantenimiento. Una parte importante es analizar la probabilidad de falla de la
máquinas. A lo largo de 260 días, se recolectan los siguientes datos
•Sin fallas 217 días
•Una falla 32 días
•Dos fallas 11 días
Usando estos datos, es fácil estimar una probabilidad de que no haya fallas, o haya una o
dos
•Sin fallas 0.835=217/260
•Una falla 0.123=32/260
•Dos fallas 0.042=11/260
Análisis y Medición de la Incertidumbre

Que luego pueden usarse en un diagrama de decisión


Cero Fallas (0.835)

Una Falla (0.123)

Dos Fallas (0.042)

Funciones empíricas de probabilidad acumulativa (CDF)


Considérense los siguientes 35 datos, que representan el costo de renta por cama de
un centro intermedio de reclusión. Denotemos esta variable por C
Costo de Renta ($)
52 205 303 400 643
76 250 313 402 693
100 257 317 408 732
136 264 325 417 749
137 280 345 422 750
186 282 373 472 791
196 283 384 480 891

Son en total 35 valores. Para crear una CDF suave, supón que tomamos el valor
intermedio, 325. Hay 18 de los 35 datos por debajo de 325, pero también debajo de
326, 327,…,344.99, entonces P(C≤325) P(C≤326)=…=P(C≤344.99)=18/35=0.514.
Para estimar el fractil 0.514, se usa 335, que es el valor intermedio entre 325 y 345.
Análisis y Medición de la Incertidumbre
Para obtener una CDF, hacemos lo mismo para todos los datos. Según esto primero
ordenamos los datos y luego calculamos los centros de las plataformas. Por ejemplo,
considere el primero y segundo puntos. El punto intermedio es (52+76)/2=64, llamamos
este x1. Los puntos intermedios del resto de los datos son x1, x2,…,xn-1. Luego asociamos a
cada xm su probabilidad acumulativa. Como el xm está en la posición m, su probabilidad
acumulativa se calcula como m/n. En otras palabras P(X≤xm)≈m/n. Por ejemplo P(C≤64)
es mas o meno 1/35 o 0.029. O bien para x15=308, se tiene que P(C≤308)=15/35 ó 0.429
Obs Costo xm P(C≤xm) Obs. Costo xm P(C≤xm)
1 52 64.0 0.029 19 345 359 0.543
2 76 88.0 0.057 20 373 378.5 0.571
3 100 118.0 0.086 21 384 392 0.600
4 136 136.5 0.114 22 400 401 0.629
5 137 161.5 0.143 23 402 405 0.657
6 186 191.0 0.171 24 408 412.5 0.686
7 196 200.5 0.200 25 417 419.5 0.714
8 205 227.5 0.229 26 422 447 0.743
9 250 253.5 0.257 27 472 476 0.771
10 257 260.5 0.286 28 480 561.5 0.800
11 264 272.0 0.314 29 643 668 0.829
12 280 281.0 0.343 30 693 712.5 0.857
13 282 282.5 0.371 31 732 740.5 0.886
14 283 293.0 0.400 32 749 749.5 0.914
15 303 308.0 0.429 33 750 770.5 0.943
16 313 315.0 0.457 34 791 841 0.971
17 317 321.0 0.486 35 891
18 325 335.0 0.514
Análisis y Medición de la Incertidumbre

Graficando xm contra la probabilidad acumulativa se obtiene una CDF empírica


CFD

1.000
Probabilidad acumulativa

0.750

0.500

0.250

0.000
0.0 100.0 200.0 300.0 400.0 500.0 600.0 700.0 800.0 900.0
Costo

Para usar esta información en un diagrama de decisión, se puede usar una aproximación
de tres puntos
85 (0.185)

328 (0.63)

775 (0.185)
Análisis y Medición de la Incertidumbre
Usando datos para ajustar modelos teóricos de probabilidad
Uno de los modos de usar los datos es simplemente encontrar una distribución teórica
que se ajuste a ellos. Primero debemos escoger la distribución adecuada (binomial,
Poisson, normal, etc.) basados en un entendimiento de la situación y una inspección de
la distribución de los datos.
El siguiente paso es escoger los valores de los parámetros de la distribución (para la
binomial n y p, o μ y σ para la normal). Para establecer los valores, se puede calcular la
media y desviación estándar de la muestra de datos, igualar a las expresiones de la media
y desviación estándar para las distribuciones teóricas y resolver. Por ejemplo, para los 35
datos del ejemplo anterior n

x
i 1
i
x  380.4
n
n 2

2
 x  x 
i 1
i
s   47'344.3
n 1
s  47'344.3  217.6

Entonces podemos aproximar usando una distribución normal con promedio 380.4 y
desviación estándar 217.6.
Otra posibilidad es usar fractiles. Consiste en encontrar una distribución teórica cuyos
fractiles coincidan bien con los fractiles de la distribución empírica.
Análisis y Medición de la Incertidumbre

Usando datos para modelar relaciones


Nos centramos en el problema de usar datos de un número de variables auxiliares X1,
…,Xk para determinar la distribución de alguna variable de interés Y que está
relacionada con las X’S. La variable Y en ocasiones se llama variable de respuesta,
mientras que las X’S se denominan variables explicatorias.
Considérese un ejemplo de negocios, donde tratamos de determinar la distribución
condicional de las ventas Y, usando variables explicatorias como el precio (X1), la
publicidad (X2) y el precio de la competencia (X3).
El uso de datos para estimar relaciones no es trivial. Considerando el diagrama de
influencia de la figura de abajo a la izquierda. Se requiere entonces una distribución
de Y condicional para cada una de las combinaciones posibles de X1 y X2. Si las
variables explicatorias X1, X2 tienen tres valores (bajo, medio y alto), aún en este
caso tenemos que asignar nueve distribuciones condicionales de Y. En la figura de
la derecha, si se introducen cuatro variables explicatorias (X1, X2, X3, X4) con tres
posibles valores, se requiere 81 distribuciones condicionales de Y.
X1 X2 X2
X1 X3
Y
Y X4
Análisis y Medición de la Incertidumbre

La regresión
Para evitar la evaluación de tantas probabilidades condicionales, puede usarse el método
de la regresión. Primero determinamos el valor esperado de Y dados las X’s E(Y|X1,X2,…,Xk
) y luego consideramos la distribución condicional alrededor de ese valor. Este modo de
aproximar las distribuciones condicionales se llama regresión.
Nos enfocamos ahora en el más sencillo de los modelos de regresión, llamado regresión
lineal. Se basa en dos suposiciones:
1.El valor esperado condicional de Y se aproxima como una función lineal de las X:
E(Y|X1,X2,…,Xk )=β0+β1X1+…+βkXk
Los coeficientes se determinan resolviendo un problema de cuadrados mínimos. El valor
real de Y estará a veces por debajo y otras veces por arriba del valor esperado calculado
arriba. El método de regresión usa la siguiente suposición sobre la distribución de Y
2. La distribución alrededor de el valor esperado condicional tiene la misma forma sin
importar el valor de X considerado.
Un modo conveniente de pensar en Y, es suponer que el valor de Y se compone del valor
esperado y de un término de “error” ε, con valor esperado cero, que se le adiciona
Y=E(Y|X1,X2,…,Xk )+ε
Análisis y Medición de la Incertidumbre

Entonces, la distribución de Y tiene la misma forma que la distribución del error, solo que
desplazada al considerar el valor esperado de E(Y|X1,X2,…,Xk )
Como ejemplo, sea Y ventas, X1 la publicidad , X2 precio de nuestro producto y X3 el precio
de nuestros competidores. Usando regresión lineal multiple sobre datos de estas cuatro
variables, llegamos a
E(Ventas ($1000’s)| Publicidad, Precio, Precio de Competencia)=
2000+14.8(Publicidad)-500(Precio)+500(Precio Competencia)
Esto puede representarse como un diagrama de influencia

Publicidad
Precio
Precio 14.8 competencia
-500 Ventas 500

Ahora supongamos que el error de acuerdo a los datos usados para la regresión tiene la
distribución acumulativa de probabilidad que sigue
Análisis y Medición de la Incertidumbre

1.0

0
Por ejemplo, para X1=$40’000, X2=$97.95 y X3=$94.99, el valor esperado de Y es:

E(Y|X1,X2,X3)=2000+14.8(40)-500(97.95)+500(94.99)= 1112($1000s)

Entonces la distribución de Y, dados estos valores de X1, X2 y X3 es como sigue


1.0
Entonces la distribución tiene la misma
forma de la distribución del error, solo que
desplazada del cero al valor esperado

$1112.00
($1000’s)
Análisis y Medición de la Incertidumbre

Ejemplo
Considérese que tenemos datos de Ventas y Gasto en publicidad, y queremos estudiar la
relación entre estas dos variables. La variable de respuesta Y son las ventas y la
explicativa X1 el gasto en publicidad, ambos en miles de dólares.Usando la regresión,
tendremos E(Y|X1)=β0+ β1X1
Hoja de cálculo de
Microsoft Office Exce

Usando la discretización de Pearson-Tukey, la distribución del error puede quedar como


-$3’200’000 (0.185)

0 (0.63)

+ 3’200’000 (0.185)

El diagrama de influencia queda como


Publicidad (X1) Ventas (Y )
E(Y|X1)=3028.18+12.95(X1)
($1000’s) 12.95 ($1000’s)
Y ($1000’s) Probabilidad
E(Y|X1)-3000 0.185
E(Y|X1) 0.630
E(Y|X1)+3000 0.185
Análisis y Medición de la Incertidumbre

Regresión Lineal: más de una variable condicionante


Retomemos el problema de estimar las ventas (Y ), pero ahora con más variables
explicativas, pues además de el gasto de publicidad X1, tenemos datos de nuestro precio
(X2) y del precio de competidores (X3). El modelo de regresión queda como
E(Y|X1,X2,X3)=β0+β1X1+β2X2+β3X3
Usando excel, se obtiene la forma de la función
E(Y|X1,X2,X3)=2199.34+15.05X1-503.76X2+499.67X3
Publicidad Precio (X2)
(X1)
Precio
-503.76 Competencia
15.05 (X3)

Ventas (Y) 499.67

Ventas($1000’s) Probabilidad
E(Y|X1,X2, X3)-650 0.185
E(Y|X1,X2, X3) 0.630
E(Y|X1,X2, X3) 0.185
Análisis y Medición de la Incertidumbre
Análisis y Medición de la Incertidumbre

También podría gustarte