Yupanqui PR

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
Fundada en 1551
FACULTAD DE CIENCIAS MATEMÁTICAS

E.A.P. DE ESTADÍSTICA
“INTRODUCCIÓN A LA ESTADÍSTICA BAYESIANA (CASO DE

COMPARACIÓN DE MEDIAS)”
MONOGRAFÍA
Para optar el Título Profesional de:
LICENCIADO EN ESTADÍSTICA
AUTOR
ROSALYNN MILUSKA YUPANQUI PACHECO
LIMA – PERÚ
2005
AGRADECIMIENTO
Al profesor Antonio Bravo Quiroz quien con su constante apoyo y

dedicación contribuyo a la realización del presente trabajo.
Al Profesor Jorge Chue Gallardo quien me inspiro para la

realización del presente trabajo, como también a su invalorable
apoyo en mi desarrollo académico.
DEDICADA
A mis padres y hermanas, en especial a mi madre por su constante

apoyo y aliento.
A Papá Rubén que desde el cielo nos ilumina y bendice.
INDICE
I. Introducción
II. Materiales y equipos
III. Revisión de literatura
3.1.Comparación de medias poblacionales cuando se conocen las
varianzas poblacionales
3.2.Comparación de medias poblacionales cuando no se conocen
las varianzas poblacionales
3.2.1 Comparación de medias poblacionales varianzas iguales
3.2.2 Comparación de medias poblacionales varianzas distintas
IV. Marco teórico
4.1. Estadística Bayesiana

4.1.1 Inferencia Estadística
4.1.2 Inferencia Bayesiana
4.2. Conceptos Básicos
4.2.1. Teorema de Bayes
4.2.2. Naturaleza secuencial del Teorema de Bayes
4.2.3. Distribución a priori difusa o no informativa
4.2.4. Distribución a priori conjugada
4.3. Inferencia Bayesiana
4.3.1. Estimación puntual
4.3.2. Intervalos de credibilidad o regiones veraces
4.3.3. Prueba de Hipótesis de una media
4.3.4. Prueba de Hipótesis de dos medias
V. Aplicaciones
VI. Conclusiones y recomendaciones
VII. Bibliografía
Anexo
Introducción a la Estadística Bayesiana (Caso Comparación de
medias). Yupanqui Pacheco, Rosalynn Miluska.
Derechos reservados conforme a Ley
I. INTRODUCCION
En algunas situaciones de toma de decisiones, la gente necesita

determinar si los parámetros de dos poblaciones se parecen o son
diferentes. Una compañía quizá quiera probar, por ejemplo, si las
empleadas reciben sueldos más bajos que los varones por realizar el
mismo trabajo. Es posible que un director de capacitación desee
determinar si la producción de empleados promovibles en una
instalación gubernamental difiere de la proporción de otra instalación. Un
fabricante de productos farmacéuticos quizá necesita saber si un nuevo
medicamento ocasiona una reacción en un grupo de animales de
experimentación, no así en otro grupo.
En todos los ejemplos citados, los que toman las decisiones se ocupan de
los parámetros de dos poblaciones. En tales situaciones, les interesa
menos el valor verdadero de los parámetros que la relación existente
entre los valores de los parámetros, o sea en que difieren estos últimos.
¿Ganan menos las empleadas que los empleados por el mismo trabajo?
¿Es la proporción de empleadas promovibles en una instalación diferente
de la proporción que hay en otra instalación? ¿Reaccionó un grupo de
animales de experimentación en forma distinta a como lo hizo otro?
La prueba de hipótesis para diferencia de medias se puede dar para
los siguientes casos:
• Cuando se conocen las varianzas

• Cuando no se conocen las varianzas
• Varianzas Iguales
• Varianzas Distintas
Elaboración y diseño en formato PDF por la Oficina General del Sistema de Bibliotecas y Biblioteca Central de la UNMSM
El presente trabajo de investigación brinda una alternativa al análisis de

la Prueba de Hipótesis para diferencias entre medias utilizando el
enfoque Bayesiano para el proceso de inferencia estadística, lo que nos
permitirá obtener resultados más precisos y confiables al incorporar en el
modelo información auxiliar tal como la experiencia del investigador u
otro conocimiento de relevancia para el análisis.
El enfoque Bayesiano se basa en la interpretación subjetiva de la

probabilidad, la cual considera a esta como un grado de creencia con
respecto a al incertidumbre. El punto de vista Bayesiano considera un
parámetro desconocido como una característica con respecto a la cual
puede expresarse un grado de creencia que puede modificarse con base
en la información muestral. Una inferencia con respecto al parámetro se
formula con base en el grado de creencia existente. En otras palabras, un
parámetro es visto como una variable a la que, antes de la evidencia
muestral, se le asigna una distribución a priori con base al grado de
creencia con respecto al comportamiento del parámetro aleatorio. Cuando
se obtiene la evidencia muestral, la distribución a priori es modificada y
entonces surge una distribución a posteriori. Es esta distribución a
posteriori la que se emplea para formular inferencias con respecto al
parámetro.
El objetivo del presente trabajo es:
• Presentar una metodología de Análisis Estadístico utilizando el
enfoque Bayesiano.
II. MATERIALES Y EQUIPOS
Para la elaboración del presente trabajo se necesito de la ayuda

primordial de la computadora y el método para obtener la información
de algunos casos fue capturada vía Internet, así como la utilización de
diferentes software que a continuación se detallan:
* Microsoft Windows XP 2000

* Microsoft Excel 2000
* Microsoft Word 2000 (Editor de ecuaciones, texto).
* Minitab 13
* Globalink Power Traslator Pro (Traductor).
* English – Spanish Interpreter Profesional
Materiales de Internet:
• Pagina web google (Buscador)

• Pagina web altavista (Buscador)
• Pagina web shef.ac.uk/ ≈ st190/1b.html (Estadistica Bayesiana -
Firts Bayes)
III. REVISION DE LITERATURA
COMPARACION DE MEDIAS POBLACIONALES
La inferencia estadística comprende dos partes principales, a saber: la

estimación de parámetros y la docimasia de hipótesis. En este trabajo
estudiaremos la segunda de ellas, con el objeto de describir métodos
generales para la docimasia de hipótesis y su aplicación a algunos
problemas.
En la investigación experimental se pretende a veces simplemente estimar

un parámetro; por ejemplo puede que se interese estimar la producción
de un nuevo híbrido de maíz. Muchas veces, el objetivo final es la
utilización de dicha estimación. Así ocurre cuando se quiere comparar la
producción del nuevo híbrido con la correspondiente a una variedad
conocida, a fin de recomendar la sustitución de esta por aquel, en el caso
de que parezca superior. Esto sucede corrientemente en la investigación;
puede ocurrir que interese determinar si un método nuevo para cerrar
lámparas aumenta la vida de estas; si un nuevo germicida resulta más
efectivo en el tratamiento de cierta infección; si un método de
conservación de alimentos es preferible a otros, en lo que se refiere a la
conservación de vitaminas, etc.
La prueba de hipótesis comienza con una suposición, denominada

hipótesis, que hacemos en torno a un parámetro de la población. Después
reunimos datos muestrales, producimos estadísticos de la muestra y nos
servimos de esta información para decidir la probabilidad de que el

parámetro supuesto de la población sea correcto. Pongamos el caso de
que suponemos cierto valor de una media de la población.
Para verificar la validez de nuestra suposición obtenemos los datos

muestrales y determinamos la diferencia entre el valor supuesto y el valor
real de la media muestral. A continuación juzgamos si la diferencia es
significativa. Cuanto menor sea la diferencia, mayores probabilidades
habrá de que sea correcto el valor supuesto de la media. Y a una
diferencia más amplia corresponderá una menor probabilidad.
Por desgracia, la diferencia entre el parámetro supuesto de la población y
el verdadero estadístico suele ser ni tan grande que automáticamente
rechacemos la hipótesis ni tan pequeño que de inmediato la aceptemos.
Por ello, en la prueba de hipótesis como en las decisiones más
trascendentes de la vida real, las soluciones bien definidas constituyen la
excepción, no la regla.
POBLACIONES INDEPENDIENTES
3.1. CUANDO SE CONOCEN LAS VARIANZAS POBLACIONES
Si las medias muéstrales x1 y x2 están basadas en dos muestras aleatorias
independientes de tamaño n1 y n 2 respectivamente, obtenidas de dos
poblaciones con distribución de probabilidad normal, con medias u1 y u 2 ;
y con varianzas σ12 y σ22 respectivamente entonces:
( x1 − x2 ) − (u1 − u2 ) = Z ~ N (0,1)
σ12 σ22
+
n1 n2
donde:
El error estándar de la diferencia de medias muéstrales es:
σ12 σ22
EE( x1 − x2 ) = +
n1 n2
Entonces el intervalo de confianza, al (1 − α) de nivel de confianza para la
diferencia de medias poblacionales (u1 − u2 ) esta dado por:
( x1 − x2 ) ± EE( x1 − x2 )Z1−α / 2
Para docimar las hipótesis:
H 0 : β1 − β2 = d
H1 : β1 − β2 ≠ d
Se usa la estadística:
( x1 − x2 ) − d = Z ~ N (0,1)
σ12 σ22
+
n1 n2
Al nivel de significación, la región critica esta dada por:

Rechazar H 0 si el valor α de la estadística Z es menor o igual que - Z1−α / 2
o es mayor que Z1−α / 2 .
3.2. CUANDO NO SE CONOCE LAS VARIANZAS POBLACIONALES
3.2.1 VARIANZAS IGUALES
Si las medias muéstrales x1 y x 2 están basadas en dos muestras aleatorias
independientes de tamaños n1 y n 2 respectivamente, obtenidas de dos
poblaciones con distribución de probabilidad normal, con medias u1 y u 2
; y con varianzas desconocidas tal que σ12 = σ 22 , entonces:
( x1 − x2 ) − (u1 − u2 ) = T ~ t
(n1 + n 2 − 2 )
1 1
Sp +
n1 n2
donde:
S p2 =
(n1 − 1)S12 + (n2 − 1)S22
n1 + n2 − 2
es la varianza combinada y el error estándar de la diferencia de medias

poblacionales es:
EE( x1 − x2 ) = S p
1 1
+
n1 n2
El intervalo de confianza, al (1 − α) de nivel de confianza para la diferencia
de medias poblacionales (u1 − u2 ) esta dado por:
( x1 − x2 ) ± EE( x1 − x2 )t(n + n
1 2 − 2 )1 −α / 2
Para docimar la hipótesis:

H 0 : u1 − u2 = d
H1 : u1 − u2 ≠ d
( x1 − x2 ) − (u1 − u2 ) = T ~ t
(n1 + n 2 − 2 )
1 1
Sp +
n1 n2
Al nivel de significación α , la región critica esta dada por :

Rechazar H 0 si el valor de la estadística T es menor o igual que - t1−α / 2 o es
mayor que t1−α / 2 .
3.2.2 VARIANZAS DIFERENTES
Si las medias muéstrales x1 y x2 están basadas en dos muestras aleatorias
independientes de tamaños n1 y n2 respectivamente, obtenidas de dos
poblaciones con distribución de probabilidad normal, con medias u1 y u2 ;
con varianzas desconocidas σ12 y σ22 ; y diferentes, entonces:
( x1 − x2 ) − (u1 − u2 ) = T ~ t
(v )
S12 S 22
+
n1 n2
donde:
2
 S12 S 22 
 + 
 n1 n2 
v= 2 2
−2
 S12   1   S 22   1 
    +    
 1  1
n n + 1   2  2
n n + 1 
Cuando los tamaños de muestra son razonablemente grandes, donde el

error estándar de la diferencia de medias muestrales es:
S12 S12
EE( x1 − x 2 ) = +
n1 n2
El intervalo de confianza, al (1 − α) de nivel de confianza para la diferencia
de medias poblacionales (u1 − u2 ) esta dado por:
( x1 − x2 ) ± EE( x1 − x2 )t(v )1−α

2
Para docimar la hipótesis:

H 0 : u1 − u2 = d
H1 : u1 − u2 ≠ d
( x1 − x 2 ) − (u1 − u 2 )
= T ~ t (v )
S 12 S 22
+
n1 n2
Al nivel de significación α , la región critica esta dada por :

Rechazar H 0 si el valor de la estadística T es menor o igual que - t (v ) o es
mayor que t (v ) .
IV. MARCO TEORICO
4.1. ESTADISTICA BAYESIANA
El interés por el teorema de Bayes trasciende esta aplicación clásica,

especialmente cuando se amplía a otro contexto en el que la probabilidad
no se entiende exclusivamente como la frecuencia relativa de un suceso a
largo plazo, sino como el grado de convicción personal acerca de que el
suceso ocurra o pueda ocurrir (definición subjetiva de la probabilidad).
Afirmaciones del tipo "es muy probable que el partido X gane las
próximas elecciones", "es improbable que Juan haya sido quien llamó por
teléfono" o "es probable que se encuentre un tratamiento eficaz para el
sida en los próximos 5 años", normales en el lenguaje común, no pueden
cuantificarse formalmente; resultan ajenas, por tanto, a una metodología
que se desenvuelva en un marco frecuentista. Una cuantificación sobre
base subjetiva resulta, sin embargo, familiar y fecunda para el enfoque
bayesiano. Al admitir un manejo subjetivo de la probabilidad, el analista
bayesiano podrá emitir juicios de probabilidad sobre una hipótesis H y
expresar por esa vía su grado de convicción al respecto, tanto antes como
después de haber observado los datos. En su versión más elemental y en
este contexto, el teorema de Bayes asume la forma siguiente:
P (H | datos) = [P (datos | H) / P (datos)] . P (H)
La probabilidad a priori de una hipótesis, P(H), se ve transformada en

una probabilidad a posteriori, P(H | datos), una vez incorporada la
evidencia que aportan los datos. El caso considerado se circunscribe a la
situación más simple, aquella en que P(H) representa un número único;

sin embargo, si se consiguiera expresar nuestra convicción inicial (y
nuestra incertidumbre) mediante una distribución de probabilidades.
Entonces una vez observados los datos, el teorema nos "devuelve" una
nueva distribución, que no es otra cosa que la percepción probabilística
original actualizada por los datos.
Esta manera de razonar de la inferencia Bayesiana, radicalmente diferente

a la inferencia clásica o frecuentista (que desdeña en lo formal toda
información previa de la realidad que examina), es sin embargo muy
cercana al modo de proceder cotidiano, e inductivo. Debe subrayarse que
esta metodología, a diferencia del enfoque frecuentista, no tiene como
finalidad producir una conclusión dicotómica (significación o no
significación, rechazo o aceptación, etc.) sino que cualquier información
empírica, combinada con el conocimiento que ya se tenga del problema
que se estudia, "actualiza" dicho conocimiento, y la trascendencia de
dicha visión actualizada no depende de una regla mecánica.
Los métodos bayesianos han sido cuestionados argumentando que, al

incorporar las creencias o expectativas personales del investigador,
pueden ser caldo de cultivo para cualquier arbitrariedad o manipulación.
Podemos argüir, por una parte, que el enfoque frecuentista no está exento
de decisiones subjetivas (nivel de significación, usar una o dos colas,
importancia que se concede a las diferencias, etc.); de hecho, la
subjetividad (algo bien diferente de la arbitrariedad o el capricho) es un
fenómeno inevitable, especialmente en un marco de incertidumbre como
en el que operan las ciencias biológicas y sociales. Por otra parte, las
"manipulaciones" son actos de deshonestidad, que pueden producirse en

cualquier caso (incluyendo la posibilidad de que se inventen datos) y que
no dependen de la metodología empleada sino de la honradez de los
investigadores.
Aunque las bases de la estadística Bayesiana datan de hace más de 2

siglos, no es hasta fechas recientes cuando empieza a asistirse a un uso
creciente de este enfoque en el ámbito de la investigación. Una de las
razones que explican esta realidad y que a la vez anuncian un impetuoso
desarrollo futuro es la absoluta necesidad de cálculo computarizado para
la resolución de algunos problemas de mediana complejidad. Hoy ya
existe software disponible (BUGS, macros para MINITAB, próxima
versión de EPIDAT y First Bayes, entre otros) que hace posible operar con
estas técnicas y augura el "advenimiento de una era Bayesiana".
El proceso intelectual asociado a la inferencia Bayesiana es mucho más

coherente con el pensamiento usual del científico que el que ofrece el
paradigma frecuentista. Los procedimientos bayesianos constituyen una
tecnología emergente de procesamiento y análisis de información para la
que cabe esperar una presencia cada vez más intensa en el campo de la
aplicación de la estadística a la investigación clínica y epidemiológica.
4.1.1 ¿QUÉ ES LA INFERENCIA ESTADÍSTICA?
La inferencia estadística es la ciencia de extraer conclusiones a partir de

una muestra aleatoria para ser aplicadas a cantidades desconocidas de la
población de la cual la muestra fue seleccionada. Este proceso origina
muchas preguntas, como por ejemplo: ¿qué es una población?, ¿cómo la
muestra se relaciona con la población?, ¿cómo debe seleccionarse la

muestra si todos tienen la opción de ser elegidos?.
Ejemplo. Supóngase que un ingeniero forestal desea estimar la

proporción de árboles en un bosque de la selva que sufren una
determinada enfermedad. Examinar a todos los árboles es impráctico, por
lo que el ingeniero decide seleccionar una muestra de n árboles elegidos
aleatoriamente de acuerdo a un diseño muestral previamente definido. La
aleatoriedad debe entenderse en el sentido que si θ es la proporción de
árboles que tienen la enfermedad en el bosque, entonces cada árbol en la
muestra tendrá la enfermedad, independientemente de lo que suceda con
los otros árboles en la muestra, con probabilidad θ . Sea X la variable
aleatoria que corresponde al número de árboles enfermos en la muestra,
el ingeniero usará el valor observado de X = x para realizar una
inferencia acerca del parámetro poblacional θ . Esta inferencia podría
tomar la forma de un estimado puntual ( θˆ = 0.1 ); un intervalo de
confianza (95 % de confianza que θ se encuentre en el intervalo (0.08,

0.12); una prueba de hipótesis (rechazar la hipótesis que θ <0.07 a un
nivel α=0.05), una predicción (sostener que 15% de los árboles serán
afectados por la enfermedad el próximo año); o una decisión (decidir
identificar y remover todos los árboles infectados). En cada caso, el
conocimiento del valor muestral observado es usado para realizar
inferencias acerca de una característica de la población (parámetro).
Más aún, estas inferencias son realizadas mediante un modelo de
probabilidad, que determina cómo, para un valor de θ, las probabilidades

de los diferentes valores de x son distribuidos.
Por ejemplo, bajo las suposiciones del muestreo aleatorio, el modelo para
el problema anterior podría ser:
X | θ ~ b(n, θ)
La inferencia estadística se realiza en base a un valor observado X=x, y

estamos interesados en conocer los valores de θ que tienen la más alta
probabilidad de haber generado el valor x en comparación con aquellos
que tienen la más baja probabilidad de haberlo hecho. (Principio de
máxima verosimilitud).
Antes de estudiar la inferencia Bayesiana en particular es necesario

realizar algunas aclaraciones puntuales respecto de la aproximación
clásica con la Bayesiana. El punto más importante es que el parámetro,
mientras no es conocido, es tratado como una constante en lugar de una
variable aleatoria. Esta es la idea fundamental de la teoría clásica pero
que conduce a problemas de interpretación. Por ejemplo, sostener que
con 95% de confianza el intervalo [.08, 0.12] incluye a la proporción
poblacional de los árboles enfermos es incongruente desde que θ no es
aleatorio. θ está en el intervalo o no lo está. El único elemento aleatorio en
este modelo de probabilidad es el dato, por lo tanto la correcta
interpretación del intervalo es que si aplicamos el procedimiento
estadístico de construcción de intervalos un gran número de veces,
entonces “a la larga” los intervalos construidos incluirán a θ en el 95% de
dichos intervalos.
Todas las inferencias basadas en la teoría clásica son forzadas a tener este
tipo de interpretación de frecuencia “a la larga”; a pesar de que como en
el ejemplo de los árboles, solamente se tiene un intervalo (0.08, 0.12) para
realizar el análisis.
El supuesto de la “intercambiabilidad” es útil en inferencia estadística,

que significa que los n valores observados xi en la muestra pueden ser
intercambiados, es decir, que la distribución conjunta p(x1, x2, ...xn) debe
ser invariante a las permutaciones de los índices. Generalmente, los datos
de una distribución “intercambiable” es útil modelarlos como
independientementes e idénticamente distribuidas (iid) dado algún
vector de parámetros desconocidos θ con distribución p(θ).
4.1.2. ¿QUÉ ES LA INFERENCIA BAYESIANA?
El marco teórico en que se aplica la inferencia Bayesiana es similar a la

clásica: hay un parámetro poblacional respecto al cual se desea realizar
inferencias y se tiene un modelo que determina la probabilidad de
observar diferentes valores de X, bajo diferentes valores de los
parámetros. Sin embargo, la diferencia fundamental es que la inferencia
Bayesiana considera al parámetro como una variable aleatoria. Esto
parecería que no tiene demasiada importancia, pero realmente si lo tiene
pues conduce a una aproximación diferente para realizar el
modelamiento del problema y la inferencia propiamente dicha.
Algunos ejemplos que justifican lo anterior son: la verdadera proporción

de artículos defectuosos que produce un proceso de manufactura puede
fluctuar ligeramente pues depende de numerosos factores, la verdadera
proporción de casas que se pierden por concepto de hipoteca varia

dependiendo de las condiciones económicas, la demanda promedio
semanal de automóviles también fluctuara como una función de varios
factores incluyendo la temporada.
En esencia, la inferencia Bayesiana esta basada en la distribución de

probabilidad del parámetro dado los datos (distribución a posteriori de
probabilidad p( θ /y) ) , en lugar de la distribución de los datos dado el

parámetro. Esta diferencia conduce a inferencias mucho más naturales, lo
único que se requiere para el proceso de inferencia Bayesiana es la
especificación previa de una distribución a priori de probabilidad p( θ ),
la cual representa el conocimiento acerca del parámetro antes de obtener
cualquier información respecto a los datos.
La noción de la distribución a priori para el parámetro es el corazón del

pensamiento Bayesiano. El análisis Bayesiano hace uso explícito de las
probabilidades para cantidades inciertas (parámetros) en inferencias
basadas en análisis estadístico de datos.
El análisis Bayesiano la podemos dividir en las siguientes etapas:
Primero: Elección de un modelo de probabilidad completo. Elección de

una distribución de probabilidad conjunta para todas las cantidades
observables y no observables. El modelo debe ser consistente con el
conocimiento acerca del problema fundamental y el proceso de
recolección de la información.
Segundo: Condicionamiento de los datos observados. Calcular e

interpretar la distribución a posteriori apropiada que se define como la
distribución de probabilidad condicional de las cantidades no

observadas de interés, dados los datos observados.
Tercero: Evaluación del ajuste del modelo y las implicancias de la

distribución a posteriori resultante. ¿Es el modelo apropiado a los
datos?, ¿Son las conclusiones razonables?, ¿Qué tan sensibles son los
resultados a las suposiciones de modelamiento de la primera etapa?. Si
fuese necesario, alterar o ampliar el modelo, y repetir las tres etapas
mencionadas.
4.2. CONCEPTOS BAYESIANOS BASICOS
4.2.1 TEOREMA DE BAYES
Sea Y = ( y1 , y 2 ,... y n ) ' un vector de n observaciones cuya distribución de
probabilidad p ( y / θ ) depende de k parámetros involucrados en el vector
θ = (θ1 ,θ2 ,...θk ) . Supóngase también que θ tiene una distribución de

'
probabilidades p (θ ) . Entonces, la distribución de conjunta de θ e Y es:
p ( y ,θ ) = p( y / θ ). p(θ ) = p(θ / y ). p( y )
de donde la distribución de probabilidad condicional de θ dado el vector

de observaciones y resulta:
p( y / θ ). p(θ )
p (θ / y ) = con p ( y ) ≠ 0 (1)
p( y )
A esta ecuación se lo conoce como el Teorema de Bayes, donde p ( y ) es la
distribución de probabilidad marginal de y y puede ser expresada como:
p ( y ) = ∫
 p ( y / θ). p (θ).dθ si θ es continuo
∑ p( y / θ). p(θ) si θ es discreto
donde la suma o integral es tomada sobre el espacio paramétrico de θ . De

este modo, el Teorema de Bayes puede ser escrito como:
p (θ / y ) = c. p( y / θ). p(θ) ≈ p ( y / θ). p (θ) (2)
En esta expresión:
• p (θ ) representa lo que es conocido de θ antes de recolectar los datos y
es llamada la distribución a priori de θ .
• p (θ / y ) representa lo que se conoce de θ después de recolectar los
datos y es llamada la distribución posterior de θ dado y .
• c es una constante normalizadota necesaria para que p (θ / y ) sume o
integre uno.
Dado que el vector de datos y es conocido a través de la muestra, p ( y / θ )
es una función de θ y no de y . En este caso a p ( y / θ ) se le denomina
función de verosimilitud de θ dado y y se le denota por l (θ / y ) . Entonces
la formula de Bayes puede ser expresada como sigue:
p (θ / y ) ≈ l (θ / y). p (θ) (3)
Ejemplo. Sea el parámetro θ que a priori tiene una distribución uniforme

en el intervalo [0,1] y la variable aleatoria Y que tiene una distribución de
probabilidades Binomial con parámetros m y θ , m conocido por
conveniencia. Entonces se tienen las siguientes funciones de distribución:
p (θ ) = 1 0≤θ≤1
m
p ( y / θ ) =  θ y (1 − θ) m − y y = 0,1.....m
y 
Ahora, para una muestra aleatoria de tamaño n la función de

verosimilitud estará dada por:
 n  m 
l (θ / y ) = ∏   θ∑ i (1 − θ ) ∑ i
nm −
yi = 0,1,....m ∀i
y y
 i =1  yi  
y aplicar el Teorema de Bayes dado en (2), la distribución a posteriori de

θ dada la muestra y queda expresada como:
θ ∑ i (1 − θ) ∑ yi
n( m! ) mn −
p (θ / y ) = c
y
n n
∏ y !∏ (m − y )!
i i
i =1 i =1
Esta expresión puede escribirse de la siguiente manera:
( y +1 )−1 (nm − y +1)−1

θ∑ i (1 − θ ) ∑ i
n( m!)
p (θ / y ) = c n n
∏ y !∏ (m − y )!
i i
i =1 i =1
que tiene la forma de una distribución Beta con parámetros (∑ y +1) y

i
(nm−∑ y +1) .
i
Luego el valor adecuado de la constante normalizadota c será:
c=
Γ(nm + 2 ) ∏ yi!∏ (m − yi )!
Γ(∑ yi + 1)Γ(nm − ∑ yi + 1)
.
n(m!)
Nótese que es a través de l (θ / y ) que los datos (información muestral)
modifican el conocimiento previo de θ dado por p (θ ) . Este proceso de
revisión de las probabilidades iniciales, dada la información muestral, se

ilustra en la siguiente figura:
Información Dist. a Priori

Inicial
p (θ )
Dist. a
Teorem
a de Posteriori
Func. de Verosimilitud
Bayes
Información
nueva l (θ / y )
Por ultimo, es conveniente señalar que la información muestral y por lo
general será introducida en el modelo a través de estadísticas suficientes

para θ , dado que estas contienen toda la información referente a los
datos. Así, dado un conjunto de estadísticas suficientes t para los
parámetros en θ , p ( y / θ ) podrá ser intercambiada por p (t / θ ) , para lo cual
bastara con calcular la distribución condicional de t dado θ .
4.2.2 NATURALEZA SECUENCIAL DEL TEOREMA DE BAYES
Supóngase que se tiene una muestra inicial y1 . Entonces, por la fórmula
de Bayes dada anteriormente se tiene:
p (θ / y1 ) ∝ l (θ / y1 ). p (θ)
Ahora supóngase que se tiene una segunda muestra y2 independiente de
la primera muestra, entonces:
p (θ / y1 , y 2 ) ∝ l (θ / y1 , y 2 ). p(θ ) = l (θ / y1 ) l (θ / y2 ). p (θ )
p (θ / y1 , y2 ) ∝ l (θ / y2 ) p(θ / y1 )
De esta manera, la distribución a posteriori obtenida con la primera

muestra se convierte en la nueva distribución a priori para ser corregida
por la segunda muestra.
En este proceso puede repetirse indefinidamente. Así, si se tienen r

muestras independientes, la distribución a posteriori puede ser
recalculada secuencialmente para cada muestra de la siguiente manera:
p (θ / y1 ,..., y m ) ∝ l (θ / ym ). p (θ / y1 ,..., ym −1 ) para m = 2,..., r
Nótese que p (θ / y1 ,..., y m ) podría también ser obtenido partiendo de p (θ ) y
considerando al total de las r muestras como una sola gran muestra.
La naturaleza secuencial del Teorema de Bayes, es tratada por Bernardo

como un proceso de aprendizaje en términos de probabilidades, el cual
permite incorporar al análisis de un problema de decisión, la información

proporcionada por los datos experimentales relacionados con los sucesos
(parámetros) inciertos relevantes.
4.2.3. DISTRIBUCIÓN A PRIORI DIFUSA O NO INFORMATIVA
Como ya se habrá podido notar, la distribución a priori cumple un papel

importante en el análisis Bayesiano ya que mide el grado de conocimiento
inicial que se tiene de los parámetros en estudio. Si bien su influencia
disminuye a medida que más información muestral es disponible, el uso
de una u otra distribución a priori determinara ciertas diferencias en la
distribución a posteriori.
Si se tiene un conocimiento previo sobre los parámetros, este se traducirá

en una distribución a priori. Así, será posible plantear tantas
distribuciones a priori como estados iniciales de conocimiento existan y
los diferentes resultados obtenidos en la distribución a posteriori bajo
cada uno de los enfoques, adquirirán una importancia en relación con la
convicción que tenga el investigador sobre cada estado inicial. Sin
embargo, cuando nada es conocido sobre los parámetros, la selección de
una distribución a priori adecuada adquiere una connotación especial
pues será necesario elegir una distribución a priori que no influya sobre
ninguno de los posibles valores de los parámetros en cuestión.
Estas distribuciones a priori reciben el nombre de difusas o no

informativas y en esta sección se tratara algunos criterios para su
selección:
Método de Jeffreys
En situaciones generales, para un parámetro θ el método mas usado es el

de Jeffreys (1961) que sugiere que, si un investigador es ignorante con
respecto a un parámetro θ , entonces su opinión a cerca de θ dado las
evidencias X debe ser la misma que el de una parametrización para θ o
~
cualquier transformación 1 a 1 de θ , g (θ) , una priori invariante sería:
p (θ ) ∝ [I (θ) ]
1
2
donde I (θ ) es la matriz de información de Fisher:
 ∂ 2 Lnf ( y / θ) 
I (θ ) = − Eθ  
 ∂θ 2 
Si θ = (θ1,...,θp )' es un vector, entonces:
p (θ ) ∝ [det I (θ )] (4)
1
2
donde I (θ ) es la matriz de información de Fisher de orden pxp . El
elemento (ij ) de esta matriz es:
 ∂ 2 Lnf ( y / θ) 
I ij = −E0  
 ∂θi ∂θ j 
Por transformación de variables, la densidad a priori p (θ ) es equivalente
a la siguiente densidad a priori para φ .
dθ
p (φ) = p(θ = h −1 (φ)) (5)
dφ
El principio general de Jeffreys consiste en que al aplicar el método para

determinar la densidad a priori p (θ ) , debe obtenerse un resultado
equivalente en p (φ) si se aplica la transformación del parámetro para
calcular p (φ) a partir de p (θ ) en la ecuación (5) o si se obtiene p (φ)
directamente a partir del método inicial. Es decir, se debe cumplir la

siguiente igualdad:
[I (φ) ]12 = [I (θ) ]12 dθ

dφ
Ejemplo. Sea la variable y con una distribución B(n,θ )
n
f ( y / θ ) = P( y / θ ) =  θ y (1 − θ ) n − y
 y
 n
log f ( y / θ ) = log   + y log θ + (n − y ) log( 1 − θ)
 y
d log f ( y / θ) y n − y
= −
dθ θ 1−θ
d 2 log f ( y / θ) y n− y
=− 2 +
dθ 2
θ (1 − θ) 2
 y n− y   nθ E (n − y ) 
E − 2 + 
2  = − − 2 +

 θ (1 − θ)   θ ( 1 − θ) 2 
 y n− y  n
E − 2 + 2 =
 θ (1 − θ)  θ( 1 − θ)
n
θ 1−θ
Si dejamos de lado el n, obtenemos que la distribución a priori de θ es
P( θ) ∝ θ−1 / 2 ( 1 − θ)
−1 / 2
esto es, θ ≈ Beta(0.5,0.5)
Ejemplo. Se aplicara el método de Jeffreys para calcular una distribución

conjunta a priori para los parámetros de un modelo Normal.
Sea y ~ N ( µ,σ 2 ) , ambos parámetros desconocidos. Entonces:
1  ( y − µ) 2 
f ( y / µ,σ) = exp − 
2πσ  2σ 2 
1 ( y − µ)2
ln f ( y / µ, σ) = ln − ln σ −
2πσ 2σ2
y la matriz de información de Fisher estará dada por:
 ∂2 ∂2 
 ∂µ2 ln f ( y / µ,σ ) ln f ( y / µ, σ) 
∂µ∂σ
I (θ ) = − E0  2 
 ∂ ∂ 2 
 ln f ( y / µ,σ) ln f ( y / µ, σ) 
 ∂σ∂µ ∂σ 2 
 1 2( y − µ) 
− σ 2 − 
σ 3
I (θ ) = − E0  
− 2( y − µ) 1 3( y − µ) 2 
−
 σ3 σ2 σ4 
1 0 
I (θ ) = σ 2 2 

0 σ2 
Ahora, según la ecuación (4), la distribución a priori no informativa para

θ = ( µ,σ) será:
2 1
p ( µ,σ ) ∝ ∝ 2
σ 4
σ
Nótese que aplicando las reglas anteriores, dado que µ es un parámetro
de posición y σ un parámetro de escala, las distribuciones a priori para

µ y σ serian p ( µ) = 1 y p (σ ) = σ −1 , por lo que si se supone independencia
entre ambos parámetros se tendría p ( µ,σ ) = p ( µ). p (σ) = σ −1 en vez de σ −2 .
Jeffreys resolvió este problema estableciendo que µ y σ deberían ser
tratados a priori independientemente y por separado. Así, cuando el

método de Jeffreys es aplicado al modelo Normal con σ fijo, resulta una a
priori uniforme para µ y cuando es aplicado con µ fijo, se obtiene la a
priori p (σ ) = σ −1 lo cual conduce a:
p ( µ, σ) = σ −1
que es lo mas deseable.
4.2.4. DISTRIBUCIÓN A PRIORI CONJUGADA
En este caso, la distribución a priori es determinada completamente por

una función de densidad conocida. Berger presenta la siguiente definición
para una familia conjugada:
Definición: Una clase P de distribuciones a priori es denominada una

familia conjugada para la clase de funciones de densidad F, si p (θ / y) está
en la clase P para todo f ( y / θ ) ∈ F y p (θ ) ∈ P .
En este caso, la distribución inicial dominará a la función de

verosimilitud y p (θ / y) tendrá la misma forma de p (θ ) , con los
parámetros corregidos por la información muestral.
Ejemplo. Sea el parámetro θ que a priori tiene una distribución Beta con
parámetros α y β la variable aleatoria y que tiene una distribución de
probabilidades Binomial con parámetros m y θ , m conocido por

conveniencia. Entonces se tienen las siguientes funciones de distribución:
Γ(α + β) α −1
p (θ ) = θ (1 − θ ) β −1 I ( 0 ,1) (θ)
Γ(α)Γ(β )
m
p ( y / θ ) =  θ y (1 − θ ) m − y y = 0,1,....m
y 
Ahora para una muestra aleatoria de tamaño n la función de

verosimilitud estará dada por:
 n  m 
l (θ / y ) = ∏   θ∑ i (1 − θ ) ∑ i
mn −
yi = 0,1,....m ∀i
y y
 i 01  yi  
y al aplicar el Teorema de Bayes , la distribución posterior de θ dada la

muestra y queda expresada de la siguiente manera:
p (θ / y ) ∝ θ ∑ i (1 − θ )
α+ y −1 β + nm − ∑ y i −1
que tiene la forma de una distribución Beta con parámetros (α + ∑ yi ) y
(β + nm − ∑ y ) .
i Luego, la distribución tiene la misma forma que la
distribución a priori por lo que la clase de distribuciones a priori Beta es

una familia conjugada para la clase de funciones de densidad Binomial.
Otro caso importante es el de la Distribución Normal
Sea el parámetro θ con una distribución N ( µ0 ,τ02 ) , donde µ0 y τ02 son
parámetros conocidos y la variable x con una distribución N (θ,σ 2 ) donde
σ 2 es un parámetro conocido. Entonces tenemos las siguientes funciones
de distribución:
1 1 (θ − µ0 ) 2
p (θ ) = exp −
2πτ0 2 τ02
1 1 ( x − θ) 2
p (x /θ) = exp −
2πσ 2 σ2
y al aplicar el Teorema de Bayes , la distribución posterior de θ dada la

muestra x queda expresada de la siguiente manera: (Demostración
anexo )
1 1 (θ − µ1 ) 2
p (θ / x ) = exp −
2πτ1 2 τ12
donde:
1 1
µ0 + 2 x
τ 2
σ
µ1 = 0
1 1
+ 2
τ0 σ
2
1 1 1
= 2+ 2
τ1 τ0 σ
2
Luego p (θ / x ) ~ N ( µ1 ,τ12 ) de donde podemos sacar conclusiones:
Precisiones de las distribuciones a priori y a posteriori:
1
Pr ecisión =
Varianza
Precisión a Precisión a Precisión de

= +
posteriori priori los datos
1 1 1
= 2+ 2
τ1 τ0 σ
2
Otro caso importante es el de la Distribución Normal con Múltiples

Observaciones:
Sea x = ( x1 , x2 ,...xn ) ' un vector de n observaciones, xi son observaciones
idénticamente distribuidos.
θ ~ N ( µ0 ,τ02 )
xi ~ N (θ,σ 2 )
Entonces al aplicar el Teorema de Bayes , la distribución posterior de θ

dada la muestra xi queda expresada de la siguiente manera:
p (θ / x ) ∝ p(θ) p ( x / θ) = p(θ ) p( x1 / θ) p( x2 / θ)... p( xn / θ)
n
p (θ / x ) ∝ p(θ) p( x / θ) = p (θ )∏ p ( xi / θ )
i =1
1  (θ − µ0 ) 2  n 1  ( xi − θ) 2 
p (θ / x ) ∝ exp −   × ∏ exp −  
2  τ02  i =1 2  σ2 
1  (θ − µ0 ) 2 n n

p (θ / x ) ∝ exp − 
2  τ0 2
+ 2
σ
∑ ( x − θ) 
i
2
i =1 
n
p (θ / x) depende de x únicamente a través de x = ∑ xi / n ; es decir, x es
i =1
una estadística suficiente del modelo.
Desde que, x / θ ~ N (θ, σ2 / n) y considerando a x como una simple
observación, se aplican los resultados anteriores, luego:
p (θ / x1 , x2 ,..., xn ) = p(θ / x) ~ N (θ / µn ,τn2 )
donde:
1 n
µ0 + 2 x
τ 2
σ
µn = 0
1 n
+ 2
τ0 σ
2
1 1 n
= 2+ 2
τn τ0 σ
2
NOTA:
Si τ02 = σ 2 , entonces la distribución a priori tiene el mismo peso como una
observación extra con el valor µ0 . Es decir, si τ0 → ∞ con n fijo, o
conforme n → ∞ con τ02 fijo, entonces:
σ2
p (θ / x) ~ N (θ / x, )
n
4.3. INFERENCIA BAYASIANA
Dado que la distribución posterior, contiene toda la información

concerniente al parámetro de interés θ (información a priori y muestral),
cualquier inferencia con respecto a θ consistirá en afirmaciones hechas a
partir de dicha distribución.
4.3.1. ESTIMACION PUNTUAL
La distribución posterior reemplaza la función de verosimilitud como una

expresión que incorpora toda la información.
Π (θ / y ) es un resumen completo de la información acerca del parámetro
θ . Sin embargo, para algunas aplicaciones es deseable (o necesario)
resumir esta información en alguna forma. Especialmente, si se desea

proporcionar un simple “mejor” estimado del parámetro desconocido.
(Nótese la distinción con la estadística clásica en que los estimados
puntuales de los parámetros son la consecuencia natural de una
inferencia).
Por lo tanto, en el contexto Bayesiano, ¿Cómo se puede reducir la

información en una Π (θ / y ) a un simple “mejor” estimado? ¿Qué debemos
entender por “mejor”?
Existen dos formas de enfrentar el problema:
a) Estimador de Bayes posterior
b) Aproximación de Teoría de decisión
♦ ESTIMADOR DE BAYES POSTERIOR
El estimador de Bayes posterior se define de la siguiente manera:
Sean x1 , x2 ,…, xn una muestra aleatoria de f ( x / θ) , donde θ es un valor de
la v.a. θ con función de densidad gθ (.) . El estimador de Bayes posterior
de τ(θ ) con respecto a la priori gθ (.) es definida como E (τ(θ ) / x1, x2 ,..., xn ).
Ejemplo. Sean x1 , x2 ,…, xn una m.a. de f ( x / θ) = θ x (1 − θ)1 − x x = 1,0 y
gθ (θ) = I (0 ,1 ) (θ) . ¿Cuáles son los estimadores de θ y θ(1 − θ ) ?
n
gθ (θ )∏ f ( xi / θ)
f (θ / x1 , x2 ,..., xn ) = 1
i =1
n
∫ g (θ)∏ f ( x / θ)dθ
θ
i =1
i
0
θ ∑ i (1 − θ ) ∑ i I ( 0 ,1 ) (θ)
x n− x
f (θ / x1 , x2 ,..., xn ) = 1
∫ θ∑ (1 − θ) ∑ i dθ
xi n− x
∫ θθ∑ (1 − θ ) ∑ i dθ
xi n− x
E (θ / x1 , x2 ,..., xn ) = 0
1
∫ θ∑ (1 − θ ) ∑ i dθ
xi n− x
B(∑ xi + 2, n − ∑ xi + 1)
E (θ / x1 , x2 ,..., xn ) =
B( ∑ xi + 1, n − ∑ xi + 1)
E (θ / x1 , x2 ,..., xn ) = ∑ x +1 i
n+2
Luego el estimador a posteriori de Bayes de θ es ∑ x +1

i
es un estimador
n+2
sesgado. El estimador máximo verosímil de θ es ∑x i

que un estimador
n
insesgado.
∫ θ(1 − θ)θ∑ (1 − θ) ∑ i dθ
xi n− x
E (θ(1 − θ) / x1 , x2 ,..., xn ) = 0
1
∫θ ∑ (1 − θ) ∑ i dθ
xi n− x
Γ(∑ xi + 2 )Γ(n − ∑ xi + 2) Γ (n + 2 )
E (θ(1 − θ ) / x1 , x2 ,..., xn ) = =
Γ (n + 4 ) Γ(∑ xi + 1)Γ(n − ∑ xi + 1)
E (θ(1 − θ ) / x1 , x2 ,..., xn ) =
(∑ x + 1)(n − ∑ x + 1)
i i
(n + 3)(n + 2 )
estimador de θ(1 − θ ) con respecto a la priori uniforme.
♦ APROXIMACION DE TEORIA DE DECISIÓN
Se especifica una función de perdida L(θ, a ) que cuantifica las posibles
penalidades en estimar θ por a .
Hay muchas funciones perdida que se puede usar, la elección en

particular de una de ellas dependerá de contexto del problema.
Las más usadas son:
1) Perdida cuadrática: L(θ, a ) = (θ − a )2
2) Perdida error absoluto: L(θ, a ) = θ − a
0 a − θ ≤∈
3) Perdida 0,1: L(θ,a ) =  si
1 a − θ >∈
4) Perdida lineal: para g , h > 0
 g (a − θ ) a >θ
L(θ, a ) =  si
h(θ − a ) a <θ
En cada uno de los casos anteriores, por la minimización de la perdida

esperada posterior, se obtienen formas simples para la regla de decisión
de Bayes, que es considerado como el estimado punto de θ para la
elección en particular de la función perdida.
Nota:
• L(θ, a ) es la perdida incurrida en adoptar la acción a cuando el
verdadero estado de la naturaleza es θ .
• ρ(a, x ) es la perdida esperada posterior
Luego Ra (θ ) = E (L (θ, a )) = ρ(a, x ) = ∫ L(θ, a ) p (θ / x )dθ
• Regla de decisión de Bayes (estimador de Bayes): d ( x) es la acción
que minimiza a ρ(a, x ) .
• Riesgo de Bayes es BR (d ) = ∫ ρ(d ( x), x ) p ( x )dx
Ejemplo.
Sean x1 , x2 ,…, xn una muestra aleatoria de una N (θ,1) . Sea L(θ, a ) = (θ − a )2 ,
sea θ ~ N (µo ,1) .
a) El estimador de Bayes posterior es la media de la distribución

posterior de θ .
f (θ ) f ( x / θ)
f (θ / x ) =
∫ f (θ) f (x /θ)dθ
n
 1   1 n 2 1  1 
  exp  − ∑ ( xi − θ )  exp  − (θ − µ0 ) 2 
2π  2π  2 
f (θ / x ) = ∞  n
 2 i =1 
 1   1 n
2  1 
 exp  − ∑ (xi − θ ) 
1
∫− ∞  2π   2 i =1  2π
exp  − (θ − µ0 ) 2 dθ
 2 
Considerando x0 = µ0
1  1 n 
exp  − ∑ ( xi − θ) 2 
2π  2 i =0 
f (θ / x ) = ∞
1  1 n

∫ exp  − ∑ ( xi − θ )2 dθ
−∞ 2π  2 i= 0 
 n + 1  n
xi  
2
f (θ / x ) = θ − ∑ n + 1 
1
exp −
2π  2  i =0  
n +1
n
E (θ / x1 , x2 ,..., xn ) = ∑ Var (θ / x1 , x2 ,..., xn ) =
xi 1
i =0 n + 1 n +1
b) Aproximación Bayesiana:
R1 Cuando L(θ, a ) = (θ − a )2 , la regla de Bayes (o estimador de Bayes )
es la media de Π (θ / x ) = ρ(θ / x )
Por lo tanto; el estimador de Bayes o regla de Bayes con respecto a la

perdida cuadrado del error es:
n
µ0 + ∑ xi
x0 + ∑ xi
= i =1
n +1 n +1
R2 Si L(θ, a ) = w(θ )(θ − a )2 , la regla de Bayes es:
E Π (θ / x ) [θw(θ) ]
d ( x) =
E Π (θ / x ) [w(θ )]
d ( x) =
∫ θw(θ) f ( x / θ)dθ
∫ w(θ) f (x / θ)dθ
R3 Si L(θ, a ) = θ − a , cualquier mediana de Π (θ / x ) es un estimador de

2
Bayes de θ .
K0 (θ − a ) θ−a ≥ 0
R4 Si L(θ, a ) = 
K0
si cualquier fractil de
K1 (a − θ ) θ−a < 0 K 0 + K1
Π (θ / x ) es un estimador de Bayes de θ .
RESUMEN
En el contexto Bayesiano, un estimado puntual de un parámetro es una

simple estadística descriptiva de la distribución posterior Π (θ / x ) .
Utilizando la calidad de un estimador a través de la función perdida, la

metodología de la teoría de decisión conduce a elecciones optimas de
estimados puntuales. En particular, las elecciones más naturales de
función perdida conducen respectivamente a la media posterior, mediana
y moda como estimadores puntuales óptimos.
4.3.2. INTERVALOS DE CREDIBILIDAD O REGIONES VERACES
La idea de una región veraz es proporcionar el análogo de un intervalo de

confianza en estadística clásica.
El razonamiento es que los estimados puntuales nos proporcionan una

medida de la precisión de la estimación. Esto causa problemas en la
estadística clásica desde que los parámetros no son considerados como
aleatorios, por lo tanto no es posible dar un intervalo con la
interpretación que existe una cierta probabilidad que el parámetro este en
el intervalo.
En la teoría Bayesiana, no hay dificultad para realizar esta aproximación

porque los parámetros son tratados como aleatorios.
Definición: Un conjunto veraz 100(1-á) para θ es un subconjunto C de θ

tal que:
∫ Π (θ / x) dθ (caso continuo )

1 − α ≤ p( c / x) = ∫ dF Π (θ / x )
(θ) =  c
c ∑ Π (θ / x) (caso discreto)
θ∈c
Un aspecto importante con los conjuntos veraces (y lo mismo sucede con

los intervalos de confianza) es que ellos no son únicamente definidos.
Cualquier región con probabilidad (1 − α) cumple la definición. Pero
solamente se desea el intervalo que contiene únicamente los valores “mas

posibles” del parámetro, por lo tanto es usual imponer una restricción
adicional que indica que el ancho del intervalo debe ser tan pequeño
como sea posible.
Para hacer esto, uno debe considerar solo aquellos puntos con Π (θ / x )
mas grandes. Esto conduce a un intervalo (o región) de la forma:
c = cα ( x ) = {θ : f (θ / x ) ≥ γ }
donde γ es elegido para asegurar que ∫ f (θ / x)dθ = 1 − α .

c
La región c que cumple las anteriores condiciones es denominada

“regiones de densidad posterior mas grande” (HPD).
Generalmente, un HPD es encontrado por métodos numéricos, aunque

para muchas distribuciones univariadas a posteriori, los valores de v.a.
correspondientes son tabulados para un rango de valores de α .
Ejemplo: (Media de una normal) Sean x1 , x2 ,…, xn variables aleatorias
independientes de N (θ,σ 2 ) ( σ 2 conocido)con una a priori para θ de la
forma
θ ~ N (b, d 2 )
Se sabe que
 b nx 
 + 
θ/ x ~ N d 2 σ2 , 1 
 1 n 1 n
+ 2 2 + 2 
 
 d 2
σ d σ 
Desde que, la normal es unimodal y simétrica, entonces el 100(1- α )%

HPD para θ es:
1
 b nx    2
 + 2  
 d σ ±Z 
2 1 
 1 n  α2 1 n 
 +   2 + 2 
 d 2 σ2  d σ 
σ
Si n → ∞ , entonces x ± Zα , luego el conjunto veraz es igual al de
2 n
estadística clásica. Pero sus interpretaciones son distintas.
4.3.3. PRUEBA DE HIPOTESIS PARA UNA MUESTRA
Pruebas de hipótesis son decisiones de la forma en que se deben elegir

entre dos diferentes hipótesis:
H0 : θ ∈ Ω 0 vs H 1: θ ∈ Ω1 .
Se considera el caso simple donde Ω 0 y Ω1 consisten de puntos simples,
por lo tanto la prueba es de la forma:
H0 : θ = θ0
H1 : θ = θ1
Aproximación Clásica
Ejecutar la prueba utilizando la razón de verosimilitud:
f ( x / θ1 )
λ=
f ( x / θ0 )
Si λ asume valores grandes significa que los datos observados x son mas
probables que hayan ocurrido si θ , es el verdadero valor de θ en lugar de
θ0 .
Aproximación Bayesiana
La aproximación natural es realizar la prueba bajo las consideraciones en

las probabilidades a posteriori relativas de los valores formulados en las
hipótesis. Es decir:
f (θ1 / x ) f (θ1 ) f ( x / θ1 )
λB = =
f (θ2 / x ) f (θ0 ) f ( x / θ0 )
Razón de
Razón de Razón de
apuestas a = *
apuestas a priori verosimilitud
posteriori
Si λB asume valores grandes significa que hay preferencia por H1 .
α1 f (θ1 / x)
Definición: La razón = es la razón de apuestas a posteriori de
α0 f (θ0 / x)
Π1
H1 a H 0 , y es la razón de apuestas a priori. La cantidad:
Π0
f (θ1 / x)
Razón ⋅ de ⋅ apuestas ⋅ a ⋅ posteriori f (θ0 / x)
B= =
Razón ⋅ de ⋅ apuestas ⋅ a ⋅ priori f (θ1 )
f (θ0 )
f (θ1 / x ) f (θ0 ) α1Π 0 f ( x / θ1 )

B= = = λ=
f (θ0 / x) f (θ1 ) α0 Π1 f ( x / θ0 )
es denominada el Factor de Bayes en favor de Θ1 .
B es una medida del peso de la información que contienen los datos en
favor de H1 sobre H 0 . Si B es grande, este anula cualquier preferencia a
priori por H 0 . La preferencia a posteriori es H1 .
4.3.4. PRUEBA DE HIPOTESIS PARA DOS MUESTRAS
A continuación trataremos el caso de dos muestras donde aplicaremos la

prueba de hipótesis para dos muestras, la forma general para tratar este
tema es generalizando el Factor de Bayes para el caso de dos muestras
esto quiere decir en vez de tomar una distribución de probabilidad para
una muestra ahora tomaremos para dos muestras es decir una
distribución conjunta:
Dadas las hipótesis:
H 0 : µ1 = µ2
H1 : µ1 ≠ µ2
Sean µ1 = x1 , x2 ,...., xn y µ2 = y1 , y2 ,...., yn dos muestras independientes,
entonces la distribución a posteriori será para el caso discreto:
p ( µ1 , µ2 ) p( x / µ1 , µ2 )
p ( µ1 , µ2 / x) =
∑∑ p (µ1 , µ2 ) p( x / µ1, µ2 )
la distribución a posteriori será para el caso continuo:
f ( µ1 , µ2 ) f ( x / µ1 , µ2 )
f ( µ1 , µ2 / x) =
∫∫ f (µ , µ ) f (x / µ , µ )d µ dµ
1 2 1 2 1 2
Y se procederá de manera similar que el caso de una muestra.
Nosotros teniendo como premisa que trabajamos con poblaciones

normales tomaremos otra forma de tomar la prueba de hipótesis todo con
fines prácticos:
Suponiendo que nuestras varianzas poblacionales son conocidas
El problema de dos pruebas normales
Ahora se considerara la situación de dos muestras independientes con

distribución normal:
x1 , x2 ,...., xn ~ N (λ,φ)
y1 , y2 ,...., y n ~ N ( µ,ψ)
Que son independientes, aunque realmente el valor de interés es la

distribución a posteriori de:
δ = λ− µ
El problema se da en situaciones comparativas, por ejemplo, en comparar

el logro en la prueba de geometría entre niños y niñas.
Combinaciones pareadas
Antes de continuar, nosotros deberíamos ser advertidos en contra de una

posible mala aplicación del modelo. Si m = n y cada una de las xs esta de
algún sentido emparejados con las ys, es decir que xi y yi deben estar
definidos:
wi = xi − yi
Y entonces investiga los ws como una muestra
w1 , w2 ,...., wn ~ N (δ ,ω)
Para algún ω . Esto es conocido como el método de comparaciones

pareadas. Podría tener problemas si, por ejemplo, La comparación de
desempeño de niños y niñas estuviera restringida para pares de gemelos
de sexos contrarios. La razón de tal una situación es de no ser tratado
como un problema de dos pruebas en el sentido descrito al principio es
decir no son independientes, es que habrá un efecto común para
cualquier par de gemelos, a fin de que las observaciones en los niños y en
las chicas no serán completamente independientes. Es una técnica, valiosa
que a menudo puede dar una medida mas precisa de un efecto, pero es
importante distinguirla en los casos donde las dos pruebas son
independientes, en ese caso no hay dificultad particular en analizar los
resultados de un experimento pues ahora se tratara como comparación de
medias de unas sola muestra ambas con una distribución normal.
El caso cuando las varianzas son conocidas
En el caso del problema de dos muestras, se tiene tres casos:
i. Cuando φ y ψ son conocidos;
ii. Es conocido que φ = ψ pero sus valores son desconocidos;
iii. Cuando φ y ψ son desconocidos.
Por los demás, de acuerdo a la naturaleza del trabajo, restringiremos

nuestro trabajo al caso (i). La razón principal para discutir este caso, es
que el problema de la prueba de una distribución normal, implica menos
complejidades en el caso donde las varianzas son conocidas.
Si λ y µ tienen como referencia unas a prioris independientes (constante)
p (λ) = p( µ) ∝ 1 entonces como se hemos visto anteriormente con varias
observaciones normales con una a priori normal, la distribución a
posteriori para λ será N ( x, φ / m) y de forma similar la distribución a
posteriori para µ será N ( y,ψ / n) que es independientemente de λ . De lo
cual deducimos:
δ = λ − µ ~ N ( x − y ,φ / m + ψ / n)
Información a priori importante
El método se generaliza para este caso cuando la información a priori

importante esta disponible. Cuando la distribución a priori para λ es
N (λ0 ,φ0 ) entonces la distribución a posteriori es λ ~ N (λ1 , φ1 ) donde (como
fue enseñado anteriormente en varias observaciones normales con una

distribución a priori normal).
{
φ1 = φ0−1 + (φ / m) −1 }
−1
{
λ1 = φ1 λ0 / φ0 + x /(φ / m) }
De modo semejante si la distribución a priori para µ es N ( µ0 ,ψ0 )
entonces la distribución a posteriori para µ es N ( µ1 ,ψ1) donde ψ1 y µ1
están definidos de modo semejante. Como sigue:
δ = λ − µ ~ N (λ1 − µ1 ,φ1 + ψ1 )
Y las inferencias se proceden al igual que antes.
V. APLICACIÓN
EJEMPLO APLICATIVO
El hotel Best Inn con 100 habitaciones (20 simples, 50 dobles y 30 triples)
ha registrado las siguientes variables para cada uno de los últimos 10
meses:
X1 Número total mensual de huéspedes
X2 Consumo de agua mensual (en cientos de m3)
X1 132 133 135 138 143 165 173 188 137 199
X2 8 7 4 4 3 8 7 6 6 10
Descriptive Statistics: X1, X2
Variable N Mean Median TrMean StDev SE Mean
X1 10 154,30 140,50 151,50 24,98 7,90
X2 10 6,40 6,50 6,37 2,06 0,65
El gerente del hotel es una persona con 15 años de experiencia en la

administración de hoteles y posee un postgrado en estadística. El gerente
piensa que:
♦ El numero mensual de huéspedes tiene una distribución normal con µ
y σ 2 = 25 ; µ tiene un promedio 140 y varianza 16.
♦ El consumo de agua se distribuye exponencialmente con θ > 0 . La

E (θ) = 6 y varianza 4.
Preguntas con respecto a la variable X1:
1) Estimador posterior de Bayes
1 n 1 10
µ0 + 2 x ×140 + × 154.3
τ02
σ 16 25
µn = = = 152.3675
1 n 1 10
+ +
τ02 σ 2 16 25
1 1 n 1 10
= 2+ 2 = + = 0.4625
τn τ0 σ
2
16 25
τn2 = 2.1621
2) Regla de Bayes (función de perdida cuadrática)
La regla de Bayes para L(θ , a ) = (θ − a) 2 es E (θ / x) = 152.3675
3) HPD del 90%
152.367 ± 1.449(1.470429)
(149.948291,154.785708)
4) ¿Cuál es la probabilidad a posteriori de que el promedio de

huéspedes sea mayor que 150?
 150 − 152.367567 
p ( µ > 150 x) = p z > 
 1.470429 
p ( µ > 150 x) = p( z > −1.6101199 )
p ( µ > 150 x ) = 1 − 0.0537
p ( µ > 150 x) = 0.9463
Preguntas con respecto a la variable X2:
H 0 : θ0 = 5
Pruebe la hipótesis:
H1 : θ1 = 6
L(θ) = θ n ∈ ∑ i
−θ x
θ1n ∈ 1 ∑ i  6  ∈−6 ( 64)

−θ x 10
λ = λ( x ) = −θ 0 ∑ x i
=   − 5 ( 64 ) = 9.93037 × 10− 28
θ0 ∈
n
5 ∈
El valor θ0 = 5 es mucho mas probable que θ1 = 6 . (Se rechaza H1 ).
EJEMPLO.
El peso que se obtiene (en gramos) entre los 28 días y 84 días de edad de
ratas, recibiendo una dieta de alta proteína de m = 12 ratas fue como
sigue:
Ratas i 1 2 3 4 5 6 7 8 9 10 11 12
Peso xi
134 146 104 119 124 161 107 83 113 129 97 123
Ganado
Mientras el peso que ganan n = 7 ratas con una dieta de baja proteína fue:
Ratas i 1 2 3 4 5 6 7
Peso yi
70 118 101 85 107 132 94
Ganado
La media de la muestra y la suma de cuadrados del grupo de alta
proteína es x = 120 y 5032, lo que implica que tiene una varianza de

5032/11=457. Para el grupo de baja proteína la media y la suma de
cuadrados son y =101 y 2552 que implica una varianza de la muestra
2552/6=425. Aunque los valores de la varianza fueron derivados de la

muestra, el método que se utilizara es como si fueran conocidos (quizá
después de la experiencia).
Entonces:
m = 12 n = 7 x = 120 y = 101 φ = 457 ψ = 425
de lo cual la distribución a posteriori del parámetro δ que mide el efecto

de usar una dieta con una alta proteína en vez de una dieta de baja
proteína es:
N (120 − 101,457 / 12 + 425 / 7) i.e. N (19,99)
INTERVALOS DE CREDIBILIDAD O REGIONES VERACES
(x − y ) ± Z α
2
(φ/ m + ψ / n )12
Ahora es posible concluir en el ejemplo a un 90% HDR para δ es
19 ± 1.6449 99 i.e. (3,35) .
PRUEBA DE HIPOTESIS
H 0 : µ1 − µ2 = 0
H1 : µ1 − µ2 ≠ 0
Entonces la probabilidad:
 0 − ( x − y ) 
p (δ > 0 x ) = p z >
 (φ / m +ψ / n ) 2 
1

 0 − 19 
p (δ > 0 x ) = p z > = p( z > −1.91)
 ( )
1 
 99 2

p (δ > 0 x ) = 1 − p( z < −1.91) = 1 − 0.0281 = 0.9719
La probabilidad a posteriori de δ > 0 es Φ (19 / 99 ) = Φ (1.91) = 0.9719 es
aproximadamente 97% . Considerando que se tomo como a priori una

función no informativa o impropia con distribución normal.
VI. CONCLUSIONES Y RECOMENDACIONES
♦ Una manera alternativa al análisis de la inferencia estadística es el uso

de las técnicas de la inferencia bayesiana, donde el interés de la
estimación y la prueba de hipótesis están en los datos de la muestra
sino, además, la información a priori acerca del parámetro.
♦ En el análisis estadístico clásico es indispensable conocer la

distribución de la variable de interés, en el análisis bayesiano, además,
se parte del hecho que el parámetro de la distribución también es una
variable aleatoria y por lo tanto el interés no son las estadísticas sino la
distribución a posteriori del parámetro.
♦ Si se realizan mediciones sucesivas de la variable de interés estas son

consideradas de manera secuencial en la distribución a posteriori
como nuevos promedios ponderados por la información actual
(actualizaciones).
♦ Una recomendación que se podría hacer seria que en la curricula

actual se deba considerar cursos de Estadística Bayesiana, dado que en
el análisis de datos el análisis es crucial y de allí su importancia.
Elaboración y diseño en formato PDF por la Oficina General del Siste ma de Bibliotecas y Biblioteca Central de la UNMSM
VII. BIBLIOGRAFÍA
♦ Bernardo, J. M. (1981). Bioestadística una Perspectiva Bayesiana,

primera edición. Vinces – Vives, Barcelona.
♦ Berger J.O. (1988). Statistical Decision Theory and Bayesian Analysis,

segunda edición. Springer –Verlag, New York
♦ Migon H. (1988). Introducao a Inferencia Bayesiana
♦ Berry D. (1996). Statistics a Bayesian Perspectiva
♦ Lee M. Peter (1989). Bayesin Statistics, segunda edición.
VIII. ANEXO
Sea θ una distribución a priori con una distribución N ( µ0 ,τ02 ) con

parámetros conocidos, sea la variable aleatoria x con una distribución
N (θ,σ 2 ) con σ 2 conocido, entonces aplicando el Teorema de Bayes la
distribución a posteriori de θ dado x es:
θ ~ N ( µ0 ,τ02 ) p ( x / θ ) ~ N (θ,σ 2 )
1  ( x − θ) 2 
p (x /θ) = exp − 
2πσ  2σ 2 
p (θ) p ( x / θ ) p ( x, θ)
p (θ / x ) = =
∫ p (x ,θ)dθ
∞
∫ p (θ) p (x /θ)
−∞
N (θ, σ2 ) N ( µ0 ,τ02 )
p (θ / x ) = ∞
∫ N (θ,σ ) N (µ ,τ ) dθ
2 2
0 0
−∞
1 1 (θ − µ0 ) 2 1 1 ( x − θ) 2
p ( x ,θ) = exp − × exp −
2πτ0 2 τ02 2πσ 2 σ2
1 1  (θ − µ0 ) 2 ( x − θ) 2 
p ( x ,θ) = exp −  + 
2πστ0 2  τ02 σ2 
1  (θ − µ0 ) 2 ( x − θ) 2 
A=  + 
2  τ02 σ2 
Elaboración y diseño en formato PDF por la Oficina General del Sistema de Bibliotecas y Biblioteca Central de1 la UNMSM
1  θ 2 2θµ0 µ02 x2 2 xθ θ 2 
A=  2 − 2 + 2 + 2 − 2 + 2
2  τ0 τ0 τ0 σ σ σ 
1  2 1 1   µ0 x   µ02 x 2  
  
A= θ +
2   τ02 σ 2 
− 2θ  τ 2 σ2  +  τ 2 + σ2  
+
 0   0  
1  2 2θ  µ0 x   1  µ2 x 2 
A= ρθ −  2 + 2   +  02 + 2 
2  ρ  τ0 σ   2  τ0 σ 
1 1 σ 2 + τ02 σ 2τ02
donde ρ = + = y ρ −1
=
τ02 σ 2 σ 2τ02 σ 2 + τ02
1  2 2θ  µ0 x  1  µ0 x   1  µ02 x 2  1  µ0
2 2
x 
A = ρθ −  + +  +  +  + −  + 
2  ρ  τ02 σ 2  ρ2  τ02 σ 2   2  τ02 σ2  2 ρ  τ02 σ2 
 
2
1  µ2 x 2  1  µ0 x 
B =  20 + 2  −  2 + 2 
2  τ0 σ  2 ρ  τ0 σ 
1  µ02 x 2 σ 2τ02 (σ 2 µ0 + xτ02 ) 2 

B= + −
2  τ02 σ2 τ02 + σ2 
(σ 2τ02 ) 2 
1  ( µ02σ2 + x 2τ02 )(σ 2 + τ02 ) − (σ 4 µ02 + x 2τ04 + 2σ 2τ02 µ0 x) 

B=  
2 (σ 2 + τ02 )(σ 2τ02 ) 
1 σ 2τ02 (−2µ0 x + µ02 + x 2 ) 1 ( x − µ0 ) 2

B= =
2 σ 2τ02 (σ2 + τ02 ) 2 (σ 2 + τ02 )
2
1 1  1µ x  1 ( µ0 − x ) 2
p ( x ,θ) = exp − ρθ −  02 + 2  exp −
2πστ0 2  ρ  τ0 σ  2 (σ 2 + τ02 )
Entonces:
2
1  1  µ0 x 
∞
1 1 ( µ0 − x) 2 1 ∞ 1
∫ p (x,θ) = 2πστ0
exp − ∫
2 (σ + τ0 ) ρ − ∞ 2π 1 ρ
2 2
exp − θ −  2 + 2  dθ
2(1 ρ)  ρ  τ0 σ 
−∞
1 µ x 1 
µ ~ N  ( 20 + 2 ),
 ρ τ0 σ ρ 
∞
1 1 ( x − µ0 ) 2
∫ p (x ,θ) = 2π ρστ0
exp −
2 (σ 2 + τ02 )
−∞
∞
1 1 ( x − µ0 ) 2
∫ p ( x,θ ) =
σ 2 + τ02
exp −
2 (σ 2 + τ02 )
−∞
2π στ0
σ 2τ02
∞
1 1 ( x − µ0 ) 2
∫ p (x,θ) =
−∞ 2π σ2 + τ02
exp −
2 (σ2 + τ02 )
x ~ N ( µ0 , σ2 + τ02 )
p( x,θ )
p (θ / x ) =
∫ p (x,θ)dθ
2
1 1  1 µ x  1 ( µ0 − x) 2
exp − ρθ −  20 + 2   exp −
2πστ0 2  ρ  τ0 σ   2 (σ 2 + τ02 )
p (θ / x ) =
1 1 ( µ0 − x) 2
exp −
2π ρστ0 2 (σ 2 + τ02 )
2
1 1 1µ x  1
p (θ / x ) = exp − θ −  20 + 2  /
1 2  ρ  τ0 σ  ρ
2π
ρ
1 µ x 1 
θ / x ~ N  ( 20 + 2 ),
 ρ τ0 σ ρ 
(
θ / x ~ N u1 ,τ12 )
1 1
µ0 + 2 x
τ 2
σ 1 1 1
µ1 = 0 = 2+ 2
1 1 τ1 τ0 σ
2
+ 2
τ0 σ
2

Yupanqui PR

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Yupanqui PR

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

FACULTAD DE CIENCIAS MATEMÁTICAS

“INTRODUCCIÓN A LA ESTADÍSTICA BAYESIANA (CASO DE

ROSALYNN MILUSKA YUPANQUI PACHECO

Al profesor Antonio Bravo Quiroz quien con su constante apoyo y

Al Profesor Jorge Chue Gallardo quien me inspiro para la

A mis padres y hermanas, en especial a mi madre por su constante

4.1. Estadística Bayesiana

VI. Conclusiones y recomendaciones

Derechos reservados conforme a Ley

En algunas situaciones de toma de decisiones, la gente necesita

• Cuando se conocen las varianzas

Derechos reservados conforme a Ley

El presente trabajo de investigación brinda una alternativa al análisis de

El enfoque Bayesiano se basa en la interpretación subjetiva de la

El objetivo del presente trabajo es:

• Presentar una metodología de Análisis Estadístico utilizando el

Derechos reservados conforme a Ley

II. MATERIALES Y EQUIPOS

Para la elaboración del presente trabajo se necesito de la ayuda

* Microsoft Windows XP 2000

• Pagina web google (Buscador)

Derechos reservados conforme a Ley

III. REVISION DE LITERATURA

COMPARACION DE MEDIAS POBLACIONALES

La inferencia estadística comprende dos partes principales, a saber: la

En la investigación experimental se pretende a veces simplemente estimar

La prueba de hipótesis comienza con una suposición, denominada

Derechos reservados conforme a Ley

servimos de esta información para decidir la probabilidad de que el

Para verificar la validez de nuestra suposición obtenemos los datos

3.1. CUANDO SE CONOCEN LAS VARIANZAS POBLACIONES

Si las medias muéstrales x1 y x2 están basadas en dos muestras aleatorias

independientes de tamaño n1 y n 2 respectivamente, obtenidas de dos

poblaciones con distribución de probabilidad normal, con medias u1 y u 2 ;

y con varianzas σ12 y σ22 respectivamente entonces:

Derechos reservados conforme a Ley

Entonces el intervalo de confianza, al (1 − α) de nivel de confianza para la

diferencia de medias poblacionales (u1 − u2 ) esta dado por:

Al nivel de significación, la región critica esta dada por:

o es mayor que Z1−α / 2 .

3.2. CUANDO NO SE CONOCE LAS VARIANZAS POBLACIONALES

3.2.1 VARIANZAS IGUALES

Si las medias muéstrales x1 y x 2 están basadas en dos muestras aleatorias

independientes de tamaños n1 y n 2 respectivamente, obtenidas de dos

Derechos reservados conforme a Ley

poblaciones con distribución de probabilidad normal, con medias u1 y u 2

; y con varianzas desconocidas tal que σ12 = σ 22 , entonces:

es la varianza combinada y el error estándar de la diferencia de medias

El intervalo de confianza, al (1 − α) de nivel de confianza para la diferencia

de medias poblacionales (u1 − u2 ) esta dado por:

Para docimar la hipótesis:

Derechos reservados conforme a Ley

Al nivel de significación α , la región critica esta dada por :

mayor que t1−α / 2 .

3.2.2 VARIANZAS DIFERENTES

Si las medias muéstrales x1 y x2 están basadas en dos muestras aleatorias

independientes de tamaños n1 y n2 respectivamente, obtenidas de dos

poblaciones con distribución de probabilidad normal, con medias u1 y u2 ;

con varianzas desconocidas σ12 y σ22 ; y diferentes, entonces:

Derechos reservados conforme a Ley

Cuando los tamaños de muestra son razonablemente grandes, donde el