Capitulo2 TeoriaDecision

Estadística Matemática 2.
Introducción a la Teoría de la Decisión
2 Introducción a la Teoría de la Decisión

El marco general de la teoría de la decisión permite desarrollar algunos de los principales
problemas de la estadística matemática como la estimación puntual, la estimación por
regiones de confianza o las pruebas de hipótesis.
En todos estos casos se trata de tomar una decisión (acción) a partir de los datos observados,
es decir, se toma una decisión acerca de alguna característica del proceso de generación
de datos.
Sea ω ∈ Ω una realización de una población P ∈ P, una decisión es una acción que se
toma luego de observar ω.
Para poder estudiar este proceso de decisión es necesario dotar al conjunto de acciones
posibles de ciertas condiciones de medibilidad, tenemos entonces que A será el conjunto
de acciones al que le dotamos de una σ-álgebra y tenemos el espacio meible: (A, FA ). Así:
Con las condiciones de medibilidad expuestas, define una regla de decisión como una
aplicación:
T : (Ω, A) −→ (A, FA )
i.e. se toma la acción T (ω) si ω es observado.
Intituitivamente, debe haber algún criterio de selección para elegir las reglas de decisión,
este debe estar basado en alguna métrica que recoja la idea de “mejor” desempeño. Si
pensamos que toda decisión comporta un riesgo de perder algo, tenemos la siguiente
definición:
Definición 12. Dado un modelo estadístico (Ω, A, P)) y un espacio de acciones (A, FA )
Se define como función de pérdida a una función
L : P × A −→ [0, +∞)
tal que L(P, •) es Borel medible.

Así, si se observa ω y la regla de decisión es T , la pérdida es L(P, T (ω)), esta cantidad
entonces dependerá de la realización, para evaluarla se considerarán entonces los momentos.
Definición 13. Se define el riesgo como la pérdida media de la regla de decisión T :
Z
RT (P ) = EP [L(P, T )] = L(P, T (ω)) dP (ω).
Ω
Si se tiene un modelo paramétrico, L(θ, a) y RT (θ) se define de forma adecuada.

Para comparar dos reglas de decisión, intuitivamente se compararía las pérdidas incurridas
cuando éstas se toman, pero estos elementos son aleatorios y además dependen de la
medida de probabilidad P ∈ P.
Una solución parcial, porque aún depende de P , es comparar los riesgos, se tiene entonces
las siguientes comparaciones:
Carlos Almeida 17 de junio de 2020 21

Estadística Matemática 2. Introducción a la Teoría de la Decisión
Definición 14. Dadas dos reglas de decisión T1 y T2 , se tiene que:

a) T1 es tan buena como T2 si RT1 (P ) ≤ RT2 (P ) para cualquier P ∈ P.
b) T1 es mejor que T2 si además RT1 (P ) < RT2 (P ) para algún P ∈ P.
c) T1 y T2 son equivalentes si RT1 (P ) = RT2 (P ) para cualquier P ∈ P.
d) Si T ∗ es tan buena como cualquier otra T ∈ T , se dice que T ∗ es T -optimal; y es
optimal si T es el conjunto de todas las reglas de decisión posibles.
Ejemplo 17. (medición) Se requiere medir una cantidad desconocida θ y se toman

X1 , . . . , Xn mediciones independientes, como pueden existir errores, en general se tiene
que Xi 6= θ y se define las cantidades siguientes:
n n
1X 1 X
X= Xi , S2 = (Xi − X)2 .
n i=1 n − 1 i=1
Se decide entonces cuanto “vale” θ basados en la muestra X1 , . . . , Xn .

Se nota entonces Θ al conjunto de todos los valores posibles de θ. El espacio de acciones
es: (A, FA ) = (Θ, BΘ ). En este contexto una regla de decisión es: X = T (X1 , . . . , Xn ) =
Pn
i=1 Xi .
Se define la función de pérdida: L(P, a) = (θ − a)2 , con a ∈ A, con lo que la pérdida

para esa regla de decisión será (θ − X)2 , asumiendo que la población (todas las medidas
posibles de considerar en este contexto) tiene media µ y varianza σ 2 , la función de riesgo
es:
σ2
RX (θ) = E(µ,σ2 ) (θ − X)2 = (µ − θ)2 + .
n
En el mismo ejemplo se pude considerar otra regla de decisión, por ejemplo:

X(1) + X(n)
T1 (X) = ,
2
el cálculo de la función de riesgo RT1 (P ) es difícil, pero se puede verificar que para algunos
P , X es mejor que T1 y otros casos es T1 mejor, es decir que ni X ni T1 es mejor de
manera uniforme.
De otro lado, también puede considerarse otras funciones de pérdida; por ejemplo L(θ, a) =
|θ − a|, en este caso el cálculo de los riesgos es un poco más difícil, y las funciones que
resultan tienen menos regularidad.
Observe además que este ejemplo ilustra el problema estadístico de la estimación puntual,
en el caso general entonces las acciones son los valores posibles que la cantidad (parámetro)
que tiene que ser estimada y la regla de decisión es el estimador.
El problema de estimación no es el único problema que puede tratarse en este contexto,
consideremos el siguiente ejemplo.

Ejemplo 18. (Prueba de hipótesis) Sea P una familia de medidas de probabilidad definida
sobre un espacio medible (Ω, A), y P0 ⊂ P, defina además P1 = P \ P0 . Considere las
hipótesis:
H0 : P ∈ PO (Nula)
H1 : P ∈ P1 (Alternativa).
El espacio de acciones es: A = {0, 1} donde 0 es aceptar H0 (no rechazar H0 ) y 1
corresponde a rechazar H0 (aceptar H1 ).
La regla de decisión está dada por T (X) = 1C (X) donde C ∈ A es la región de rechazo o
región crítica.
Consideremos una función de pérdida simple:

0 si la decisión es correcta
L(P, a) =
1 si la decisión es incorrecta
o, equivalentemente:
L(P, j) = 0si P ∈ Pj , j = 0, 1
L(P, j) = 1si P ∈
6 Pj , j = 0, 1.
Por tanto: 
P (T (X) = 1) = P (ω ∈ C) si P ∈ P0
RT (P ) =
P (T (X) = 0) = P (ω 6∈ C) si P ∈ P1
En el contexto de la teoría de la decisión también pueden tratase problemas no clásicos

de la estadística, el siguiente es un ejemplo.
Ejemplo 19. Un sitio de depósito de desechos tóxicos requiere una limpieza cuando
la verdadera contaminación θ sobrepasa cierto nivel θ0 > 0. Se necesita entonces un
equilibrio entre el costo de descontaminación y el costo a la salud publica.
Se toman muestras del suelos y se toman tres acciones posibles A = {a1 , a2 , a3 }:
• a1 : limpieza completa
• a2 : limpieza parcial
• a3 : no limpieza
Los costos en ese caso son: c1 por la limpieza completa y c2 < c1 por la limpieza parcial.
El costo para la salud pública está dados por c3 (θ − θ0 )1(θ0 ,∞) (θ).
Una limpieza completa reduce la concentración tóxica a θ < θ0 , mientras que una limpieza
parcial solo reduce la contaminación en una cantidad fija (i.e. θ → θ − t). Así la función
de pérdida estará dada por:

L(θ, a) a1 a2 a3
θ ≤ θ0 c1 c2 0
θ0 < θ ≤ θ + t c1 c2 c3 (θ − θ0 )
θ >θ+t c1 c2 + c3 (θ − θ0 ) c3 (θ − θ0 )
A partir de aquí puede calcularse la función de riesgo.
2.1 Reglas de decisión aleatorias

Las reglas de decisión definidas anteriormente permiten, una vez que se observa la
realización (datos), tomar una decisión de forma determinista, es decir que para unos
datos observados la decisión siempre es la misma, sin embargo en ocasiones esto no es
suficiente y la decisión final involucra otra parte aleatoria, una de las razones de esto
es que el conjunto de reglas aleatorias que se va a definir tiene mejores propiedades de
convexidad que para encontrar óptimos es fundamental.
Definición 15. Una regla de decisión aleatoria es una función δ : Ω × FA −→ [0, 1] tal
que: - δ(ω, •) es una medida de probabilidad sobre el espacio de acciones. - δ(•, A) es
Borel medible.
Un ejemplo de regla de decisión aleatoria es: δ(ω, A) = 1A (T ω)), esta regla no es en
sentido estricto aleatoria, pues para un ω fijo, la medida que corresponde es una medida
degenerada (i.e es 0 o 1). Es claro que, en este sentido, las reglas de decisión aleatorias
contienen las reglas de decisión.
Observemos entonces que una regla de decisión aleatoria define para cada ω ∈ Ω un
medida de probabilidad en el espacio de acciones. (i.e. depende de la realización de ω,
pero aún tiene otra “parte” aleatoria).
En la práctica, la acción (decisión) se realiza simulando de la medida de probabilidad
δ(ω, •).
La función de pérdida en este caso será de una pérdida media en el sentido de integrar la
parte aleatoria de la regla de decisión:
Z
L(P, δ, ω) = L(P, a)δ(ω, da),
A
y el riesgo estará dado por:

Z Z
Rδ (P ) = E[L(P, δ, ω)] = L(P, a)δ(ω, da) dP (ω).
Ω A
En un modelo paramétrico se tiene entonces:

Z Z
Rδ (θ) = E[L(Pθ , δ, ω)] = L(θ, a)δ(ω, da) dPθ (ω).
Ω A

2.2 Admisibilidad y Optimalidad

Se debe tener una forma de evaluar que regla de decisión es mejor, pero se necesita
criterios de comparación uniformes pues en general no se conoce la verdadera distribución
de la que provienen los datos (o el parámetro verdadero que la determina si el modelo es
paramétrico).
Consideremos un problema de decisión con una función de pérdida dada por L(P, a).
Definición 16. Sea T una clase de reglas de decisión (aleatorias o no), una regla T ∈ T
se dice T -admisible (o simplemente admisible si se consideran todas las reglas de decisión),
si no existe ninguna regla S ∈ T que es mejor que T en términos de riesgo.
En general, si una regla de decisión no es admisible no debería usarse, sin embargo, en
general, no siempre es posible.
Las preguntas que surgen son:
• ¿Cómo elegir (o construir) reglas admisibles?
• ¿Cómo ordenar las reglas admisibles para elegir la mejor?
Se debe observar que el ordenamiento de reglas de decisión respecto de la función de
riesgo es un orden parcial, entonces se necesita un mecanismo, (de agregación por ejemplo)
para transformar el orden parcial en un orden total. Principalmente hay dos mecanismos
considerados:
MiniMax: Consiste en minimizar el peor de los casos, se selecciona la regla de decisión
T tal que:
max RT (θ) = min max RS (θ)
θ S θ
Bayes: Se considera el riesgo medio, para ésto se considera un medida de probabilidad

sobre el espacio paramétrico θ ∼ Π que es la distribución a-priori, entonces se tiene:
Z
rT (Π) = E(RT (θ)) = RT (θ)Π(dθ),
Θ
y la regla de decisión óptima T en este sentido es tal que:
E(RT (θ)) = min E(RS (θ)).
S
Es claro que en este caso la selección de la regla de decisión óptima dependerá de la

distribución a-priori Π sobre el espacio paramétrico. Para que tenga sentido, al espacio
paramétrico hay que dotarlo de una σ-álgebra y poder definir la medida a-priori.
Ejemplo 20. Sea P = {pθ : θ ∈ Θ} un modelo paramétrico y la función de pérdida

L(θ, a) = (θ − a)2 , entonces
Z
rT (Π) = Eθ (θ − T (X))2 Π(dθ)
Θ
= EQ (θ − T (X))2

con Q = Pθ ⊗ Π definida en el espacio producto Ω × Θ.

La mejor regla de decisión en este sentido es T (X), que minimiza esta última esperanza
entre las reglas de decisión que son cuadrado integrables, puede verificarse que estq regla
óptima es E(θ | X).
Ejemplo 21. Un ejemplo más concreto, sea X1 , . . . , Xn una muestra i.i.d. de una
población N (µ, σ 2 ), con σ conocida y µ ∈ R, sea además la distribución a-priori sobre µ
Π = N (µ0 , σ02 ).
Se tiene entonces que la distribución conjunta de (X, θ) es normal multivariada y por
tanto:
θ | X = x ∼ N (µ∗ (x), c2 )
con
σ2 nσ02 σ02 σ 2
µ∗ (x) = µ 0 + x, c2 = .
nσ02 + σ 2 nσ02 + σ 2 nσ02 + σ 2
Para la regla minimax se tiene:

Z
sup RT (θ) ≥ RT (θ)Π( dθ)
θ∈R R
Z
≥ Rµ∗ (X) (θ)Π( dθ)
R
= E(θ − µ∗ (X))2
= E(E(θ − µ∗ (X))2 | X)
= E(c2 ) = c2
σ2
≥ = sup RX (θ)
n θ∈R
Y por tanto X es minimax óptima.

Capitulo2 TeoriaDecision

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Capitulo2 TeoriaDecision

Cargado por

Copyright:

Formatos disponibles

Estadística Matemática 2.

Introducción a la Teoría de la Decisión

2 Introducción a la Teoría de la Decisión

tal que L(P, •) es Borel medible.

Si se tiene un modelo paramétrico, L(θ, a) y RT (θ) se define de forma adecuada.

Carlos Almeida 17 de junio de 2020 21

Definición 14. Dadas dos reglas de decisión T1 y T2 , se tiene que:

Ejemplo 17. (medición) Se requiere medir una cantidad desconocida θ y se toman

Se decide entonces cuanto “vale” θ basados en la muestra X1 , . . . , Xn .

Se define la función de pérdida: L(P, a) = (θ − a)2 , con a ∈ A, con lo que la pérdida

En el mismo ejemplo se pude considerar otra regla de decisión, por ejemplo:

Carlos Almeida 17 de junio de 2020 22

En el contexto de la teoría de la decisión también pueden tratase problemas no clásicos

Carlos Almeida 17 de junio de 2020 23

2.1 Reglas de decisión aleatorias

y el riesgo estará dado por:

En un modelo paramétrico se tiene entonces:

Carlos Almeida 17 de junio de 2020 24

2.2 Admisibilidad y Optimalidad

Bayes: Se considera el riesgo medio, para ésto se considera un medida de probabilidad

Es claro que en este caso la selección de la regla de decisión óptima dependerá de la

Ejemplo 20. Sea P = {pθ : θ ∈ Θ} un modelo paramétrico y la función de pérdida

Carlos Almeida 17 de junio de 2020 25

con Q = Pθ ⊗ Π definida en el espacio producto Ω × Θ.

Para la regla minimax se tiene:

Y por tanto X es minimax óptima.

Carlos Almeida 17 de junio de 2020 26

También podría gustarte