Está en la página 1de 15

INSTITUTO TECNOLÓGICO Y DE ESTUDIOS

SUPERIORES DE MONTERREY

ESCUELA DE GRADUADOS EN ADMINISTRACIÓN PÚBLICA Y


POLÍTICA PÚBLICA, CAMPUS CIUDAD DE MÉXICO
 

 
 

Monografía:  

El  Teorema  de  Bayes  y  sus  aplicaciones  en  la  econometría    


 

Gizelle  Rivera  Contreras              


A01123480    
 
Curso:  Métodos  econométricos  
Profesor:  Dr.  Carlos  Guerrero  de  Lizardi  
29  de  noviembre  de  2012  
 

Abstract:   En  la  teoría  de  la  probabilidad,  el  teorema  de  Bayes   expresa  la  probabilidad  condicional  de  un  evento  
aleatorio  A  dado  B  en  términos  de  la  distribución  de  probabilidad  condicional  del  evento  B  dado  A  y  la  distribución  
de   probabilidad   marginal   de   sólo   A.   Este   documento   explica   el   teorema   de   Bayes   en   cuanto   a   sus   aspectos   más  
importantes:   su   definición,   su   fórmula   general   probabilística,   su   aplicación   en   la   econometría   y   ejemplos   para   su  
utilización.

Palabras   clave:   Teorema   de   Bayes,   probabilidad   condicional,   probabilidad   a   priori,   probabilidad   a   posteriori,  
inferencia  bayesiana,  razonamiento  bayesiano.  

 
 
 

Introducción  

Para  las  mediciones  económicas  y  econométricas,  además  de  la  estadística,  son  necesarios  los  
cálculos  de  probabilidades.  Los  métodos  de  Monte  Carlo  vía  Cadenas  de  Markov  han  llegado  a  
ser   muy   populares   en   la   econometría   durante   los   últimos   años.   Comúnmente   eran   aplicables  
cuando   los   métodos   clásicos   fallaban,   sin   embargo   en   la   actualidad   hay   un   creciente   interés   en  
modelar  fenómenos  utilizando  el  paradigma  bayesiano  de  la  estadística.  
 
Actualmente  la  estadística  bayesiana  es  una  alternativa  a  la  estadística  clásica  para  la  solución  
de  problemas  típicos  estadísticos  como  son:  estimación,  contraste  de  hipótesis  y  predicción.  Ha  
generado  un  enorme  interés  en  los  últimos  20  años  y  ha  tenido  una  gran  aceptación  en  muchas  
áreas  de  la  investigación  científica.  1      
 
La   estadística   bayesiana,   parte   del   hecho   de   que   toda   forma   de   incertidumbre   debe   describirse  
por  medio  de  modelos  de  probabilidad,  y  que  la  probabilidad  es  el  único  lenguaje  posible  para  
describir   una   lógica   que   trata   con   todos   los   niveles   de   incertidumbre,   y   no   sólo   con   los  
extremos   de   verdad   o   falsedad.   La   teoría   bayesiana   plantea   la   solución   a   un   problema  
estadístico  desde  el  punto  de  vista  subjetivo  de  la  probabilidad,  según  el  cual,  la  probabilidad  
de   que   un   estadístico   asigne   a   uno   de   los   posibles   resultados   de   un   proceso,   representa   su  
propio  juicio  sobre  la  verosimilitud  de  que  se  tenga  el  resultado.  Este  juicio  estará  basado  en  
opiniones  e  información  acerca  del  proceso.2    
 
Con   frecuencia,   comenzamos   nuestros   análisis   con   estimaciones   de   probabilidad   a   priori   o  
iniciales  para  eventos  específicos  de  interés.  Entonces,  con  base  en  fuentes  como  una  muestra,  
un   informe   especial   o   la   prueba   de   un   producto,   obtenemos   cierta   información   adicional   sobre  
los  eventos.  Con  esa  nueva  información  modificamos  los  valores  de  las  probabilidades  a  priori  
mediante   el   cálculo   de   probabilidades   actualizadas   a   las   que   llamamos   probabilidades   a  
posteriori.  El  teorema  de  Bayes  proporciona  un  método  para  calcular  esas  probabilidades.  En  la  
teoría  de  la  probabilidad  el  teorema  de  Bayes  expresa  la  probabilidad  condicional  de  un  evento  
aleatorio,  lo  cual  se  explica  a  continuación.  3  
 
Desarrollo  

                                                                                                                       
1
Alamilla López, N. Constraste de Hipótesis: Clásico vs Bayesiano. Artículo. Revista digital Matemática, Educación e Internet
(www.cidse.itcr.ac.cr/revistamate/). Vol. 11, No 1. Agosto − Diciembre 2010. Recuperado de: http://www.tec-
digital.itcr.ac.cr/revistamatematica/ARTICULOS_V11_N1_2010/NAlamilla_ConstrastedeHipotesis/1_NAlamilla_JJimenez_Con
straste%20de%20hipotesis.pdf
2
Ibídem.  
3
 Ibídem.  

1  
 
 
1.1 La  probabilidad    

La   definición   axiomática   de   probabilidad   no   proporciona   en   la   práctica   un   método   para   asignar  


probabilidades   a   los   resultados   de   un   experimento   aleatorio.   Para   ello,   en   ocasiones   puede  
utilizarse  el  método  proporcionado  por  la  definición  según  Laplace;  en  otras  ocasiones  puede  
utilizarse  el  estudio  de  las  frecuencias  relativas  y  la  definición  empírica;  el  método  más  usado  es  
una  combinación  de  experimentación  y  teoría.  En  cualquier  caso,  siempre  el  primer  paso  que  
hay  que  dar  es  definir  con  precisión  la  población  objeto  de  estudio,  el  experimento  aleatorio  y  
los  sucesos  posibles.4  
 
Al   explicar   la   probabilidad   condicional   indicamos   que   una   fase   importante   del   análisis   de  
probabilidades   es   su   actualización   cuando   se   adquiere   información   adicional.   Con   frecuencia,  
comenzamos  nuestro  análisis  con  estimaciones  de  probabilidad  a  priori  o  iniciales  para  eventos  
específicos  de  interés.  Entonces,  con  base  en  fuentes  como  una  muestra,  un  informe  especial  o  
la  prueba  de  un  producto,  obtenemos  cierta  información  adicional  sobre  los  eventos.  Con  esa  
nueva  información  modificamos  los  valores  de  las  probabilidades  a  priori  mediante  el  cálculo  de  
probabilidades   actualizadas   a   las   que   llamamos   probabilidades   a   posteriori.   El   teorema   de  
Bayes  proporciona  un  método  para  calcular  esas  probabilidades.  5  
 
1.2 El  teorema  de  Bayes    

En   el   siglo   XVIII,   el   reverendo   Thomas   Bayes,   un   ministro   presbiteriano   inglés,   planteó   esta  
pregunta:   ¿Dios   realmente   existe?   Dado   su   interés   en   las   matemáticas,   intentó   crear   una  
fórmula   para   llegar   a   la   probabilidad   de   que   Dios   existiera   sobre   la   base   de   la   evidencia   de   que  
disponía  en  la  Tierra.  Más  tarde,  Pierre-­‐Simon  Laplace  perfeccionó  el  trabajo  de  Bayes  y  le  dio  el  
nombre  de  “Teorema  de  Bayes”,  que  es  el  siguiente:  

𝑃 𝐴! 𝑃 𝐵 𝐴!
𝑃 𝐴! 𝐵 =  
𝑃 𝐴! 𝑃 𝐵 𝐴! + 𝑃 𝐴!  𝑃 𝐵 𝐴!

                                                                                                                       
4
Estadística. Tema 3: Probabilidad. Teorema de Bayes. Recuperado de:
www.ma.uva.es/~antonio/Industriales/Apuntes.../10_Tema-03.pdf
5
Ibídem.  

2  
 
Si  los  eventos  A1  y  A2  son  mutuamente  excluyentes  y  colectivamente  exhaustivos,  y  Ai  se  refiere  
al  evento  A1  o  A2.  De  ahí  que  en  este  caso  A1  y  A2  sean  complementos.6    

               1.3  Ejemplo  práctico  de  probabilidades  

El   significado   de   las   probabilidades   se   ilustra   en   el   siguiente   ejemplo:   Suponga   que   5%   de   la  


población  de  Umen,  un  país  ficticio  del  tercer  mundo,  tienen  una  enfermedad  propia  del  país.  
Sea  A1  el  evento  “padece  enfermedad”  y     A2  el  evento  “no  padece  enfermedad”.  Por  tanto,  si  
selecciona  al  azar  a  una  persona  de  Umen,  la  probabilidad  de  que  el  individuo  elegido  padezca  
enfermedad   es   de   0.05   o   𝑃 𝐴! = 0.05   Esta   probabilidad,   𝑃 𝐴! = 𝑃   (padece  
enfermedad)  𝑃 𝐴! 𝑃,   recibe   el   nombre   de   probabilidad   a   priori.   Se   le   da   este   nombre,   porque  
la  probabilidad  se  asigna  antes  de  obtener  los  datos  empíricos.7  

• Probabilidad  A  PRIORI:  Probabilidad  basada  en  el  nivel  de  información  actual.  

Por  ende,  la  probabilidad  a  priori  de  que  una  persona  no  padezca  la  enfermedad  es  de  0.95,  o    
𝑃 𝐴!" = 0.95,  que  se  calcula  restando  1-­‐0.05.    Existe  una  técnica  de  diagnóstico  para  detectar  
la   enfermedad,   pero   no   es   muy   precisa.   Sea   B   el   evento   “la   prueba   revela   la   presencia   de  
enfermedad”.   Suponga   que   la   evidencia   histórica   muestra   que   si   una   persona   padece  
realmente   la   enfermedad,   la   probabilidad   de   que   la   prueba   indique   la   presencia   de   ésta   es  
de0.90.   De   acuerdo   con   las   definiciones   de   probabilidad   condicional,   dicho   enunciado   se  
expresa  de  la  siguiente  manera:  
 
𝑃 𝐵 𝐴! = .90  

La  probabilidad  de  que  la  prueba  indique  la  presencia  de  la  enfermedad  en  una  persona  que  en  
realidad  no  la  padece  es  de  0.15.  

𝑃 𝐵 𝐴!" = .15  

Al  elegir  al  azar  a  una  persona  de  Umen  y  aplicar  la  prueba.  Los  resultados  de  la  prueba  indican  
que   la   enfermedad   está   presente.   ¿Cuál   es   la   probabilidad   de   que   la   persona   en   realidad  
padezca   la   enfermedad?   Lo   que   desea   saber,   en   forma   simbólica,   es   𝑃 𝐴! 𝐵   recibe   el   nombre  
de  probabilidad  a  posteriori.  

• Probabilidad  A  POSTERIORI:  Probabilidad  revisada  a  partir  de  información  adicional.  

                                                                                                                       
6
 Lind, Marchal & Walthen (2008). Estadística aplicada a los negocios y la economía. 13° edición. Mc Graw Hill
Interamericana. Págs. 161-165.  

 
7
 Lind, Marchal & Walthen (2008). Estadística aplicada a los negocios y la economía. 13° edición. Mc Graw Hill
Interamericana. Págs. 161-165  

3  
 
Con  la  ayuda  del  teorema  de  Bayes,  se  determina  la  probabilidad  a  posteriori:  

𝑃 𝐴! 𝑃 𝐵 𝐴!
𝑃 𝐴! 𝐵 =  
𝑃 𝐴! 𝑃 𝐵 𝐴! + 𝑃 𝐴!  𝑃 𝐵 𝐴!
!.! (.!") .!"#!
=   .!" .!" ! .!" .!")
 =  .!"#$  =  .24  

Así,   la   probabilidad   de   que   una   persona   padezca   la   enfermedad,   dado   que   la   prueba   sale  
positiva,   es   de   0.24.   ¿Cómo   interpreta   el   resultado?   Si   selecciona   al   azar   a   una   persona   de   la  
población,   la   probabilidad   de   que   se   encuentre   enferma   es   de   0.05.   Si   se   le   somete   a   la   prueba  
y   resulta   positiva,   la   probabilidad   de   que   la   persona   padezca   realmente   la   enfermedad   se  
incrementa  cinco  veces,  de  0.05  a  0.24.  

En   el   problema   anterior   sólo   había   dos   eventos   mutuamente   excluyentes   y   colectivamente  


exhaustivos  A1  y  A2  Si  hay  n  eventos  A1,  A2,  …  An  ,el  teorema  de  Bayes,  se  transforma  en:  

𝑃 𝐴! 𝑃 𝐵 𝐴!
𝑃 𝐴! 𝐵 =  
𝑃 𝐴! 𝑃 𝐵 𝐴! + 𝑃 𝐴!  𝑃 𝐵 𝐴! + ⋯ + 𝑃 𝐴!  𝑃 𝐵 𝐴!

Con  la  notación  anterior,  los  cálculos  del  problema  de  Umen  se  resumen  en  la  siguiente  tabla:  

Evento,  Ai   Probabilidad  a  priori     Probabilidad   Probabilidad   Probabilidad  a  


P(Ai)   condicional   conjunta   posteriori  
 P(B/Ai)    P(Ai  y  B)    P(Ai  /  B)  
Padece  la   .05   .90   .0450   .0450/1875=.24  
enfermedad,  A1  

No  padece  la   .95   .15   .1425   .1425/.1875=.76  


enfermedad,  A2  

  P(B)=.1875   1.00  

1.4 Ejemplo  práctico  del  teorema  de  Bayes  

Un  fabricante  de  reproductores  de  DVD  compra  un  microchip  en  particular,  denominado  LS-­‐24  
a  tres  proveedores:  Hall  Electronics,  Schuller  Sales  y  Crawford  Components.  30%  de  los  chips  LS-­‐
24   se   le   compran   a   Hall;   20%   a   Schuller,   y   el   restante   50%   a   Crawford.   El   fabricante   cuenta   con  
amplios   historiales   sobre   los   tres   proveedores   y   sabe   que   el   3%   de   los   chips   LS-­‐24   de   Hall   tiene  

4  
 
defectos,   5%   de   los   chips   de   Shuller   tiene   defectos   y   4%   de   los   chips   de   Crawford   tiene  
defectos.  

Cuando  los  chips  LS-­‐24  le  llegan  al  fabricante,  se  les  coloca  directamente  en  un  depósito  y  no  se  
inspeccionan  ni  identifican  con  el  nombre  del  proveedor.  Un  trabajador  selecciona  un  chip  para  
instalarlo   en   el   reproductor   de   DVD   y   lo   encuentra   defectuoso.   ¿Cuál   es   la   probabilidad   de   que  
lo  haya  fabricado  Schuller?  

Solución:  

Como  primer  paso,  se  resume  parte  de  la  información  incluida  en  el  enunciado  del  problema.  

1. Hay  tres  eventos  mutuamente  excluyentes  y  colectivamente  exhaustivos,  es  decir,  tres  
proveedores:  

A1  El  LS-­‐24  le  compró  a  Hall  


A2  El  LS-­‐24  le  compró  a  Schuller  
A3  El  LS-­‐24  le  compró  a  Crawford  
 

2. Las  probabilidades  a  priori  son:  

P  (A1)=  .30  la  probabilidad  de  que  Hall  haya  fabricado  el  chip  
P  (A2)=  .20  la  probabilidad  de  que  Schuller  haya  fabricado  el  chip  
P  (A3)=  .50  la  probabilidad  de  que  Crawford  haya  fabricado  el  chip  
 

3. La  información  adicional  es  la  siguiente:  

B1  el  chip  parece  defectuoso  


B2  el  chip  no  parece  defectuoso  
 

4. Se  dan  las  siguientes  probabilidades  condicionales:  

P  (B1/A1)=.03  La  probabilidad  de  que  un  chip  fabricado  por  Hall  se  encuentre  defectuoso  
P  (B1/A2)=.05  La  probabilidad  de  que  un  chip  fabricado  por  Schuller  se  encuentre  defectuoso  
P   (B1/A3)=.04   La   probabilidad   de   que   un   chip   fabricado   por   Crawford   se   encuentre  
defectuoso  
 

5. Se   selecciona   un   chip   del   depósito.   Como   el   fabricante   no   identificó   los   chips,   no   está  
seguro  de  qué  proveedor  fabricó  los  chips.  Desea  determinar  la  probabilidad  de  que  el  

5  
 
chip   defectuoso   haya   sido   fabricado   por   Schuller.   La   probabilidad   se   expresa   como:  
𝑃 𝐴! 𝐵!      

Se  que  observa  el  registro  de  calidad  de  Schuller.  Es  el  peor  de  los  tres  proveedores.  Ahora  que  
ha   encontrado   un   chip   defectuoso,   se   sospecha   que   𝑃 𝐴! 𝐵! > 𝑃 𝐴!   Es   decir:   La  
probabilidad   revisada   es   mayor   que   0.20   Pero   ¿cuán   mayor?   El   teorema   de   Bayes,   ofrece   la  
respuesta.  Como  primer  paso  considere  el  diagrama  de  árbol:  

 
Gráfica: Diagrama de árbol del problema

Los  eventos  son  dependientes,  así  que  la  probabilidad  a  priori  en  la  primera  rama,  se  multiplica  
por  la  probabilidad  condicional  en  la  segunda  rama  para  obtener  la  probabilidad  conjunta.  La  
probabilidad   conjunta   figura   en   la   última   columna.   Para   construir   el   diagrama   de   árbol   se  
empleó   una   sucesión   de   etapas   que   iban   del   proveedor   hacia   la   determinación   de   si   el   chip   era  
no  aceptable.  8  

Lo  que  se  necesita  hacer  es  invertir  el  proceso,  eso  es,  en  lugar  de  desplazarse  de  izquierda  a  
derecha,   necesita   hacerse   de   derecha   a   izquierda.   Tiene   un   chip   defectuoso,   y   quiere  
determinar   la   probabilidad   de   que   se   le   haya   comprado   a   Schuller,   ¿cómo   se   consigue   esto?  
Primero  considere  las  probabilidades  conjuntas  como  frecuencias  relativas  de  entre  1000  casos.  
                                                                                                                       
8
 Lind, Marchal & Walthen (2008). Estadística aplicada a los negocios y la economía. 13° edición. Mc Graw Hill
Interamericana. Págs. 161-165  

6  
 
Por  ejemplo  la  posibilidad  de  que  Hall  haya  fabricado  un  chip  defectuoso,  es  de  0.009  Así  que  
de   mil   casos   es   de   esperar   9   chips   defectuosos   fabricados   por   Hall.   Observe   que   39   de   1000  
casos  el  chip  seleccionado  para  montarlo  será  defectuoso,  lo  cual  se  calcula  sumando  9+10+20.  
De   estos   39   chips   defectuosos,   10   fueron   fabricados   por   Schuller.   Por   consiguiente,   la  
probabilidad   de   que   le   haya   comprado   un   chip   es   de   10/39=0.2564   Se   ha   determinado   la  
probabilidad  revisada  de  𝑃 𝐴! 𝐵!  Antes  de  encontrar  el  chip  defectuoso,  la  probabilidad  de  
que  se  le  haya  comprado  a  Schuller  era  del  0.20  Esta  posibilidad  se  ha  incrementado  a  0.25649    

Esta  información  se  resume  en  la  siguiente  tabla:  

Evento,   Probabilidad  a  priori     Probabilidad   Probabilidad   Probabilidad  a  


 Ai   P(Ai)   condicional  P(B1/Ai)   conjunta,  P(Ai  y  B1)   posteriori,  P(Ai  /  B1)  

  .30   .03   .009   .009/.039=.2308  


Hall  

Schuller   .20   .05   .010   .010/.039=.2564  

Crawford   .50   .04   .020   .020/.039=.5128  

  P(B1)=.039   1.0000  

La   probabilidad   de   que   el   chip   defectuoso   provenga   de   Schuller   puede   determinarse  


formalmente   mediante   el   teorema   de   Bayes.   Calcule   𝑃 𝐴! 𝐵! ,   en   la   que   𝐴!   se   refiere   a  
Schuller  y  𝐵!  al  hecho  de  que  el  chip  estaba  defectuoso:  

 
𝑃 𝐴! 𝑃 𝐵! 𝐴!
𝑃 𝐴! 𝐵! =  
𝑃 𝐴! 𝑃 𝐵! 𝐴! + 𝑃 𝐴! 𝑃 𝐵! 𝐴! + 𝑃 𝐴! 𝑃 𝐵! 𝐴!
 
. 20 . 05 . 010
= = = .2564  
. 30 . 03 + . 20 . 05 + . 50 . 04 . 039

Es   el   mismo   resultado   que   se   obtuvo   en   el   diagrama   de   árbol   y   en   la   tabla   de   probabilidad  


condicional.  

                                                                                                                       
9
Lind, Marchal & Walthen (2008). Estadística aplicada a los negocios y la economía. 13° edición. Mc Graw Hill
Interamericana. Págs. 161-165.

7  
 
           1.5.  El  razonamiento  bayesiano    

Bayes   invirtió   el   razonamiento   común   de   la   estadística   y   orientó   su   atención   en   el   problema   de  


inferir  las  probabilidades  que  P(A)  toma  en  diversos  valores,  dado  lo  que  ha  sido  observado  en  
un  muestreo  realizado.  Se  le  ha  denominado  a  este  concepto  como  probabilidad  inversa  debido  
justamente  a  su  inversión  con  respecto  del  enfoque  clásico.  
 
De  una  manera  más  formal,  en  el  enfoque  clásico,  la  inferencia  estadística  está  idealizada  para  
dirigir  la  atención  a  un  conjunto  de  vector  de  datos  hipotéticos  y1,…yj…  los  cuales  podrían  haber  
sido   generados   por   el   modelo   probabilístico   p   (y|θ0, 2)   de   una   función   de   distribución   que  
σ

pudiera  ser:  
 
!
! !! 1
𝑝 𝑦 !, ! ! ) exp − (𝑦! − 𝜃! ) , −∞ < 𝑦! < ∞  
2𝜎 !
!!!
 
Donde  𝜃! , 𝜎!!  son  hipotéticamente  los  valores  ciertos  de  𝜃  𝑦  𝜎 ! .  Aunado  a  esto,  se  seleccionan  
los   estimadores   𝜃 𝑦  𝑦  𝜎 ! (𝑦)   quienes   son   funciones   del   vector   de   datos.   Por   cada   vector   de  
datos   hipotéticos   𝑦!   son   calculados   los   valores   de   𝜃 𝑦! 𝑦  𝜎 ! 𝑦!   y   por   tanto   los   conjuntos  
referentes   son   generados   por   𝜃 𝑦  𝑦  𝜎 ! (𝑦)   en   realidad   observadas   con   su   distribución  
muestral   generado   por   los   conjuntos   referentes.   Prosiguiendo   en   realizar   intervalos   de  
confianza  y  pruebas  de  hipótesis  para  verificar  la  veracidad  de  los  estimadores.10  

En  contraste  con  este  enfoque,  la  inferencia  bayesiana  introduce  como  parte  del  modelo  una  
distribución   a   priori   𝑝 𝜃, 𝜎 ! .     Dicha   distribución   es   supuesta   para   expresar   un   estado   de  
conocimiento   o   ignorancia   acerca   de   𝜃  𝑦  𝜎 !   antes   de   que   los   datos   sean   obtenidos.   Dada   la  
distribución  a  priori,  el  modelo  probabilístico  𝑝(𝑦/𝜃,  𝜎 ! )  y  los  datos  𝑦,  es  ahora  posible  calcular  
la  distribución  de  probabilidad    𝑝(𝜃, 𝜎 ! /𝑦)  de  𝜃  𝑦  𝜎 ! ,  dados  los  datos  𝑦.  A  esta  distribución  se  
le   llama   distribución   posteriori   de   𝜃  𝑦  𝜎 ! .   A   partir   de   ésta   se   realizan   todas   las   inferencias  
acerca  de  los  parámetros.11  

El  análisis  bayesiano  en  la  investigación  científica  toma  una  jerarquía  significativa  ya  que  como  
nunca   se   está   seguro   de   que   un   modelo   propuesto   sea   completamente   apropiado,   entonces   se  
debe   de   proceder   de   tal   manera   que   las   partes   inadecuadas   del   mismo   puedan   ser   tomadas   en  
cuenta   y   sus   implicaciones   puedan   ser   consideradas   para   que   pueda   seguir   funcionando   y  
ajustándose   cada   vez   mejor.   Para   hacer   esto   se   debe   considerar   un   análisis   estadístico   como   lo  
muestra  el  siguiente  cuadro:  
                                                                                                                       
10
 Rodríguez Caballero, C.V. (2010). Método Monte Carlo vía Cadenas de Markov para econometría. Documento de trabajo
precedente al XX Coloquio Mexicano de Economía Matemática y Econometría.
11
 Ibídem.

8  
 
 
 
 
  Inferencia  
  Modelo  de     Análisis  
  entrenamiento   condicional  
Comentario  crítico  
 
 
 
Cuadro: Proceso iterativo de construcción de un modelo

Este   proceso   usualmente   comienza   por   un   modelo   que   ya   haya   sido   aceptado   y   que   se   está  
tentativamente   entrenando.   El   trabajo   multidisciplinario   entre   un   investigador   científico   y   un  
estadístico  debe  de  enfocarse  en  la  elección  apropiada  de  los  parámetros  que  explican  mejor  al  
fenómeno   para   ser   seguidos   de   la   inferencia   estadística   acerca   de   estos   parámetros  
condicionales  que  tiene  como  fin  la  corrección  del  primer  modelo  tentativo.  Estas  inferencias  
llevan   el   nombre   de   análisis   condicional.   Después   de   este   proceso   iterativo,   si   el   modelo   es  
correcto  entonces  proveerá  todo  lo  que  hay  que  saber  acerca  del  problema  bajo  estudio  dado  
el  conjunto  de  datos  disponibles.12  
 
           1.6  La  inferencia  bayesiana  y  su  aplicación  en  la  econometría  

• Teorema  de  Bayes  

Supóngase   que   𝑦 = 𝑦! , … , 𝑦!   es   un   vector   de   𝑛   observaciones,   cuya   distribución   de  


probabilidad   𝑝(𝑦/𝜃)   dependede   los   valores   de   𝑘   parámetros   𝜃 = 𝜃! … , 𝜃!   Supóngase  
también   que   𝜃   tiene   por   si   mismo   una   función   de   distribución   𝑝(𝜃).   Entonces,   supóngase  
también  que  𝜃  tiene  por  si  mismo  una  función  de  distribución  𝑝(𝜃).  Entonces,      

𝑝 𝑦  𝜃 𝑝 𝜃 = 𝑝 𝑦, 𝜃 = 𝑝(𝜃  𝑦)𝑝(𝑦)  

Dado  los  datos  observados  𝑦,  la  distribución  condicional  de  𝜃  es:  𝑝 𝜃  𝑦 𝛼𝑝 𝑦  𝜃 𝑝(𝜃)  

En   la   que   𝑝(𝜃)   es   llamada   la   distribución   a   priori   de   𝜃,   similarmente   a   𝑝(𝜃/𝑦)   se   le   llama  


distribución   posterior   de   𝜃   dado   𝑦. 𝑝 𝑦  𝜃 es   una   función   de   𝜃   que   se   le   denomina   función   de  
verosimilitud.13  

                                                                                                                       
12
 Rodríguez Caballero, C.V. (2010). Método Monte Carlo vía Cadenas de Markov para econometría. Documento de trabajo
precedente al XX Coloquio Mexicano de Economía Matemática y Econometría.
 
13
 Ibídem

9  
 
Históricamente,  la  elección  de  una  densidad  a  priori  para  caracterizar  una  situación  donde  se  
conoce  poco  (en  algunos  casos,  nada)  de  dicha  densidad  ha  sido  realmente  extensa,  y  aun  así,  
todavía  es  analizada  y  refutada.  De  hecho  ha  sido  punto  central  de  la  discusión  actual  acerca  del  
funcionamiento  correcto  de  la  inferencia  bayesiana.  Otra  forma  de  afrontar  el  reto  de  suponer  
esta  distribución,  es  mediante  lo  que  se  llama  análisis  conjugado.14  
 
Por   familia   conjugada   de   distribuciones   a   priori   se   debe   entender   una   familia   de   dichas  
distribuciones   que,   cuando   son   combinadas   con   la   función   de   verosimilitud   mediante   el  
teorema  de  Bayes,  resulta  una  distribución  posterior  que  es  de  la  misma  familia  paramétrica  de  
la  distribución  a  priori.15  Para  comprender  de  mejor  forma  el  uso  de  la  inferencia  bayesiana  se  
deben  definir  los  siguientes  conceptos:  
 
• Distribución  predictiva  

Se  define  como  distribución  predictiva  a  la  distribución  marginal.  


 
𝑝 𝑋 = 𝑝( 𝑋 𝜃)𝑝 𝜃 𝑑𝜃  
 
El   uso   más   importante   de   esta   distribución   es   que   permite   verificar   las   suposiciones  
subyacentes.16  
 
• Intervalos  de  credibilidad  

En   la   inferencia  bayesiana,   los   intervalos   de   credibilidad   son   la  contraparte  del  concepto   de   los  
intervalos  de  confianza  en  el  análisis  estadístico  clásico  y  se  definen  como  sigue:  
 
Un  intervalo  de  credibilidad  al  100 1 − 𝛼 %  para  𝜃  es  un  subconjunto  de  𝐶  de  𝜃  tal  que:  
 

1−𝛼 ≤𝑃 𝐶 𝑥 = 𝑑𝐹 ! ! ! !"
 
!
 
𝜋   𝜃 𝑥 𝑑𝜃      caso  continuo
=   !  
𝜃 ∈ 𝐶  𝜋 𝜃 𝑥  caso  discreto
 

                                                                                                                       
14
 Ibídem.  
15
Ibídem.
16
Ibídem.  

10  
 
A  partir  de  que  la  distribución  posterior  𝜋  es  una  probabilidad  actual  en  𝜃,  uno  puede  hablar  
significativamente  de  la  probabilidad  de  que  𝜃  este  en  𝐶.  Esto  es  justamente  el  contraste  con  
los  intervalos  de  confianza  clásicos,  los  cuales  pueden  solamente  ser  interpretados  en  términos  
de   probabilidad   de   cobertura,   es   decir,   la   probabilidad   que   una   X   aleatoria   esté   en   tal   intervalo  
de  confianza  𝐶 (𝑋)que  contiene  a  𝜃.17  
 
• Regresión   lineal   bayesiana   bajo   un   supuesto   de   normalidad   y   una   distribución   a   priori  
no  informativa  

Un  modelo  de  regresión  lineal  múltiple  queda  determinado  por  la  ecuación  siguiente:  
 
𝑦 = 𝛽´𝑋 + 𝐸  
 
Donde  𝑌~𝑁 𝑥𝛽, 𝜎 ! 𝐼𝑛  𝑦  𝜖~𝑁(0, 𝜎 ! 𝐼𝑛  
 
Usualmente   se   hace   la   suposición   de   que   los   parámetros   𝛽   y   𝜎   son   constantes   fijas  
desconocidas.  
 
Dado  el  modelo  de  regresión,  se  denota  la  función  de  densidad  conjunta  que  abarca  la  muestra  
de  observaciones  𝑦  así  como  los  valores  de  𝑥 , 𝛽  y  𝜎  por  𝑓 𝑦, 𝑥, 𝛽, 𝜎 .  La  función  de  verosimilitud  
correspondiente  es:  
 
− 𝑦 − 𝑥𝛽 ´(𝑦 − 𝑥𝛽)
𝑙 𝛽, 𝜎 𝑦, 𝑥 = 2𝜋 ! !!/! 𝑒𝑥𝑝  
2𝜎 !
 
Ahora   debe   considerarse   que   la   información   a   priori   es   vaga;   es   decir   no   informativa.   Para  
representarla  en  los  valores  de  𝛽  y  𝜎,  en  un  análisis  bayesiano,  se  caracteriza  la  aleatoriedad  de  
los  vectores  (𝐵,  )  para  especificar  su  distribución  de  probabilidad  como:  
 
1
𝐵,  ~𝑝 𝛽, 𝜎 ≡ 𝑝 𝛽 𝑝 𝜎 𝛼 , 𝜎 ∈ 0, ∞ 𝑦𝛽 ∈ 𝑅!  
𝜎
 
!
Donde  𝑝 𝛽 𝛼  𝑐  𝑦  𝑝 𝜎 𝛼 !  
 
Teniendo   ahora   la   función   de   verosimilitud   y   la   información   a   priori   se   puede   proceder   en  
definir   la   distribución   posterior   de   los   parámetros   en   el   modelo   de   regresión   lineal.   Primero,  

                                                                                                                       
17
 Ibídem.  

11  
 
dada  la  suposición  de  normalidad,  la  función  de  verosimilitud  para  los  parámetros  puede  estar  
representada  por:  
 
1 1
𝑙 𝛽, 𝜎 𝑦, 𝑥 𝛼   ! 𝑒𝑥𝑝 − ! 𝑦 − 𝑥𝛽 ý − 𝑥𝛽  
𝜎 2𝜎
 
1 1
∝ ! exp − ! 𝑛 − 𝑘 𝜎 ! 𝑦 − 𝑥𝛽 𝑦 − 𝑥𝛽  
𝜎 2𝜎
 
!!!" !!!!
Donde  𝜎 ! = !!!
𝑦𝑏 = 𝑥´𝑥 !!
 𝑥´𝑦  
 
Después  de  la  combinación  de  la  función  de  densidad  a  priori  y  la  función  de  verosimilitud    y  
usando   el   teorema   de   Bayes,   la   función   de   distribución   conjunta   para   𝛽   y   Σ   queda   definida  
como:  
 
1 1
𝑝 𝛽, 𝜎 𝑦, 𝑥 𝛼 !!! exp − ! 𝑛 − 𝑘 𝜎 ! 𝑦 − 𝑥𝛽 𝑦 − 𝑥𝛽  
𝜎 2𝜎
 
De  la  formula  anterior  y  utilizando  la  definición  de  la  función  de  densidad  condicional,  se  sigue  
que   la   función   de   densidad   posterior   para   𝛽,   dado   𝜎,   es   una   función   de   distribución   normal  
multivariada  k-­‐dimensional  con  media  B  y  covarianza  𝜎 ! (𝑥´𝑥)!!  
 

𝛽 − 𝑏 𝑥´𝑥 𝛽 − 𝑏  
𝑝 𝛽 𝜎, 𝑦, 𝑥 ∝ 𝑒𝑥𝑝   −  
2𝜎 !

A   manera   de   ejemplo,   se   presenta   en   una   comparación   entre   una   distribución   posterior   del  
modelo   estadístico   𝑦 = 𝛽! + 𝛽! 𝑥! +𝛽! 3+∈! ,   donde   ∈! ~𝑖𝑖𝑑  𝑁 0, 𝜎 !   para   𝑖 = 1, … , 𝑛  
proveniente  de  una  distribución  a  priori  no  informativa  y  otra  proveniente  de  una  distribución  a  
priori  informativa  con  respecto  a  𝛽  y  𝜎.  
 
Se   debe   mencionar   que   la   distribución   a   priori   para   𝛽   es   una   normal   multivariada   con   vector  
media   posterior   𝜇   y   matriz   de   covarianzas   𝜎 !   ,   mientras   que   la   distribución   a   priori   para   𝜎   es   la  
!
raíz   cuadrada   invertida   de   una   gamma;   es   decir   𝑍 !!   donde   𝑍   tiene   una   distribución   Gamma.  
Estas  distribuciones  a  priori  fueron  obtenidas  mediante:  
 

12  
 
𝑝 𝛽, 𝜎 = 𝑝(𝛽 𝜎)  p  (𝜎)  

y  esta  a  su  vez  es  obtenida  a  partir  de  la  distribución  a  priori  conjunta:  

1 !!
𝑝 𝛽, 𝜎 𝛼  𝜎 !! 𝑒𝑥𝑝   − + (𝛽 − 𝜇) (𝛽 − 𝜇)  
2𝜎 !

Donde   𝑛 > 0     y   υ     es   simétrica   definida   positiva.   De   hecho,   esta   familia   de   funciones   de  


densidad   a   priori   representa   la   familia   conjugada   de   funciones   de   densidad   a   priori   para   la  
función  de  verosimilitud    basadas  en  la  distribución  normal  de  la  ecuación.18  
 
Conclusiones  

Para   las   mediciones   económicas   además   de   la   estadística,   son   necesarios   los   cálculos   de  
probabilidades,   y   las   probabilidades   condicionales   y   el   teorema   de   Bayes   se   presentan   en   la  
vida   cotidiana   constantemente.   Los   métodos   bayesianos   permiten   llegar   a   conclusiones   que  
resultan  más  intuitivas  y  cercanas  al  sentido  común.  

El   teorema   de   Bayes   dicta   la   probabilidad   condicional   de   un   evento   aleatorio   A   dado   B   en  


términos  de  la  distribución  de  probabilidad  condicional  del  evento  B  dado  A  y  la  distribución  de  
probabilidad  marginal  de  sólo  A.  

Actualmente  el  paradigma  bayesiano  es  válido  en  la  teoría  de  la  probabilidad.  Y  de  esto  surge  la  
controversia   sobre   el   tipo   de   probabilidades   subjetivas   que   utiliza   en   sus   mediciones.   La  
estadística   clásica   admite   que   las   probabilidades   que   se   basan   en   experimentos   repetidos  
tienen   una   confirmación   empírica.   Por   el   otro   lado   los   bayesianos   admiten   las   probabilidades  
subjetivas.   En   este   sentido,   la   utilidad   del   teorema   es   para   indicar   cómo   pueden   cambiar  
nuestras   probabilidades   subjetivas   cuando   se   tiene   información   adicional   de   alguna   prueba.  
Hoy   en   día   la   estadística   bayesiana   está   aportando   nuevas   formas   de   generar   conocimiento.  
Este   tipo   de   estadística   es   utilizada   en   estimaciones   de   conocimiento   subjetivo   a   priori,   y  
permite  revisar  esas  estimaciones  en  función  de  la  evidencia  empírica.  

                                                                                                                       
18
 Rodríguez Caballero, C.V. (2010). Método Monte Carlo vía Cadenas de Markov para econometría. Documento de trabajo
precedente al XX Coloquio Mexicano de Economía Matemática y Econometría.
 

13  
 
Bibliografía:  

Alamilla López, N. Constraste de Hipótesis: Clásico vs Bayesiano. Artículo. Revista digital


Matemática, Educación e Internet (www.cidse.itcr.ac.cr/revistamate/). Vol. 11, No 1.
Agosto − Diciembre 2010. Recuperado de: http://www.tec-
digital.itcr.ac.cr/revistamatematica/ARTICULOS_V11_N1_2010/NAlamilla_Constrastede
Hipotesis/1_NAlamilla_JJimenez_Constraste%20de%20hipotesis.pdf

Anderson, Sweeney & Williams (2005) Estadística para administración y economía. 8° edición.
Rochester Institute of Technology. Págs 163-167.

Estadística. Tema 3: Probabilidad. Teorema de Bayes. Recuperado de:


www.ma.uva.es/~antonio/Industriales/Apuntes.../10_Tema-03.pdf

Lind, Marchal & Walthen (2008). Estadística aplicada a los negocios y la economía. 13°
edición. Mc Graw Hill Interamericana. Págs. 161-165.

Rodríguez Caballero, C.V. (2010). Método Monte Carlo vía Cadenas de Markov para
econometría. Documento de trabajo precedente al XX Coloquio Mexicano de Economía
Matemática y Econometría.

14  
 

También podría gustarte