Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Probabilidad y Variables Aleatorias II Tema - En.es
Probabilidad y Variables Aleatorias II Tema - En.es
com
8
Probabilidad y distribuciones que
involucran múltiples variables
Los dos capítulos anteriores han analizado los principios básicos de la probabilidad y las
distribuciones de probabilidad de una variable aleatoria. En este capítulo presentamos
algunos conceptos más de probabilidad y luego ampliamos el análisis de distribuciones de
probabilidad para incluir distribuciones que modelan dos o más variables aleatorias.
La probabilidad condicional
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Asumiendo que son diploides, los guisantes pueden tener un genotipo homocigoto (yy o YY)
o heterocigoto (Yy o yY). Suponiendo frecuencias iguales de ambos alelos, la probabilidad de
heterocigoto es ½ y la probabilidad de homocigoto también es ½. Los guisantes del
genotipo yy son verdes, con una probabilidad de ¼, y los guisantes de los genotipos Yy, yY y
YY son amarillos y, por lo tanto, la probabilidad de un guisante amarillo es 3/4.
P(amarillo)=3/4
P (amarillo y heterocigoto)
P(heterocigoto|amarillo) = =2/3
P(amarillo)
A menudo, mirar una ilustración gráfica ayuda a comprender un concepto. Los árboles son
una forma visual de representar eventos y probabilidades condicionales. Las ramas iniciales
del árbol dependen del tallo y las ramas más finas dependen de la rama anterior. Usemos
un diagrama de árbol simple para ilustrar nuestro ejemplo (Figura 8-1).
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
La primera rama del árbol representa el evento del color del guisante y la segunda
rama del árbol representa el genotipo (homocigótico frente a heterocigótico)
condicionado al color del guisante.
Tenga en cuenta que el segundo árbol de ramas podría haberse escrito con ramas para
cada uno de los cuatro genotipos, pero aquí se dibuja usando la versión más simplificada de
dos ramas de heterocigoto versus homocigoto. El resultado combinado al final de la
segunda rama es la probabilidad conjunta de ambos eventos. Más adelante en este capítulo,
la probabilidad conjunta se explicará con más detalle.
También es importante observar en la Figura 8-1 que las probabilidades dentro de cada conjunto
de ramas suman 1. En la segunda rama, esto se deriva del hecho de que cuando condicionamos un
evento, definimos un nuevo espacio muestral condicional y el condicional las probabilidades
obedecen a los axiomas y reglas de probabilidad dentro de este nuevo espacio muestral
(condicional). En nuestro ejemplo, el espacio muestral condicional se basa en los colores de los
guisantes.
Independencia
Aquí hay una forma alternativa de definir la independencia. Dos eventos E y F son
independientes si ambos E y F tienen probabilidad positiva y si P(E∩F) =P(E)P(F).
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Usted puede mirar esto y preguntarse, ¿por qué? La lógica de esta definición alternativa de
independencia proviene de la definición de probabilidad condicional:
EDUCACIÓN FÍSICA∩F)
P(E|F)=
P(F)
EDUCACIÓN FÍSICA∩F)=P(E|F)P(F)
Es importante notar aquí que determinar que los eventos son independientes no es
equivalente a determinar que los eventos son disjuntos o mutuamente excluyentes, lo cual
fue previamente definido por dos eventos que no tienen una intersección común (P
(MI∩F)=∅).Disjuntos y mutuamente excluyentes significan lo mismo, ¡pero la
independencia es un concepto muy diferente!
En la práctica, determinar si los eventos son independientes puede ser complicado. Algunas veces se basa
en la lógica común. Por ejemplo, la mayoría de las personas estaría de acuerdo en que los resultados de
cada lanzamiento de una moneda justa son independientes, lo que significa que el resultado de un
lanzamiento de una moneda (cara o cruz) no tiene impacto en el siguiente lanzamiento de una moneda.
Pero, en general, no debe asumir la independencia sin una buena razón para hacerlo.
Por ejemplo, suponga que los nucleótidos en una secuencia de ADN son mutuamente
independientes con iguales probabilidades (es decir, P(A)=P(T)=P(C)=P(G)=1/4). La probabilidad
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
de observar una secuencia ATCGA es simplemente P(A)P(T)P(C)P(G)P(A) o
(1/4)5=1/1024.
Las tablas se utilizan a menudo para mostrar probabilidades conjuntas. Por ejemplo, dada
una secuencia de ADN particular, obtenemos las siguientes probabilidades conjuntas
(hipotéticas) para dos sitios de nucleótidos adyacentes (Tabla 8-1):
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Tabla 8-1: Probabilidades conjuntas de nucleótidos en sitios adyacentes
Nucleótido en la posición 1
A T C GRAMO
C 0.1 0 0.1 0
GRAMO
0 0.1 0 0
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Tabla 8-2: Cálculo de probabilidades marginales
GRAMO
0 0.1 0 0 0.1
EDUCACIÓN FÍSICA∩F)
P(E|F)=
P(F)
Aquí, la probabilidad conjunta, P(T en P2∩G en P1), se obtiene de la celda de la tabla 8-2 que
contiene la probabilidad conjunta del nucleótido G en la posición 1 y T en la posición 2, y P
(G en P1) es la probabilidad marginal del nucleótido G en la posición 1 obtenida de el total
de la columna para esa columna en la Tabla 8-2.
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
La ley de probabilidad total se ilustra mejor usando el “Diagrama de Pizza Venn” en la figura
8-2, y se puede resumir matemáticamente de la siguiente manera:
Aunque la ley de probabilidad total puede parecer confusa, acabamos de aplicar la ley
de probabilidad total anteriormente en este capítulo al calcular las probabilidades
marginales en el ejemplo de nucleótido adyacente. En este caso usamos el
i=1
calculando la probabilidad marginal de y los Bi son los cuatro nucleótidos sobre los que
estamos calculando la probabilidad marginal.
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Distribuciones de probabilidad que involucran
más de una variable aleatoria
Hasta ahora solo hemos considerado el estudio de distribuciones donde se modela una variable
aleatoria. Sin embargo, modelar la probabilidad de la mayoría de los fenómenos de la vida real, y
ciertamente de la mayoría de los fenómenos bioinformáticos, generalmente requiere modelar la
distribución de más de una variable aleatoria. Ser capaz de utilizar múltiples modelos de
distribución de variables nos proporciona una herramienta de análisis de datos muy poderosa.
Los ejemplos de fenómenos que se modelan con más de una variable abundan en las
aplicaciones científicas. Un estudio ambiental puede incluir medidas de temperatura,
gases de efecto invernadero, humedad y otras condiciones medidas en diferentes
lugares y cada medida modelada por una variable aleatoria. En bioquímica, puede ser
posible desarrollar un modelo estadístico que prediga la estructura de la proteína
terciaria utilizando variables aleatorias para modelar factores como porcentajes de
ciertos residuos de aminoácidos o motivos. Comprender cómo usar distribuciones de
probabilidad que involucran dos o más variables aleatorias es clave para poder
modelar datos que involucran más de una dimensión medible.
Podemos reescribir nuestra tabla familiar como una función de masa de probabilidad conjunta (pmf) de
dos variables aleatorias (Tabla 8-3).
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Tabla 8-3: Función de masa de probabilidad conjunta para nucleótidos en
Dos sitios adyacentes
X = nucleótido en la posición 1
A T C GRAMO
C 0.1 0 0.1 0
GRAMO
0 0.1 0 0
Aunque no lo haremos aquí, extender las distribuciones conjuntas para incluir más de
2 variables es bastante sencillo. Podemos ampliar el ejemplo de nucleótidos para
incluir la distribución del nucleótido en la posición 3 de una secuencia. Podríamos usar
la variable aleatoria Z para modelar el tercer nucleótido. La probabilidad de cualquier
secuencia de 3 nucleótidos dada, como ATG, estaría dada por la distribución conjunta
de las variables aleatorias X, Y y Z que representan las probabilidades respectivas de
cada nucleótido en cada posición. Escribimos esto como P ((X=A) ∩(Y=T)∩(Z=G)).
Distribuciones marginales
Usando la misma lógica utilizada para calcular las probabilidades marginales descritas
anteriormente, podemos tomar la distribución conjunta y sumar todos los valores de la otra
variable para crear la distribución marginal de una variable. La única idea novedosa aquí es que
estamos asignando una variable aleatoria a la probabilidad marginal, creando una función de
masa de probabilidad marginal para una variable aleatoria discreta.
Por ejemplo, la suma de todos los valores para la posición del segundo nucleótido produce
la distribución marginal o la función de masa de probabilidad marginal (pmf) del primer
nucleótido, X, como se muestra en la tabla 8-4.
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Tabla 8-4: Función de masa de probabilidad marginal para X
X = nucleótido en la posición 1
A T C GRAMO
A 0.4
T 0.3
Y = nucleótido en
C
posición 2
0.2
GRAMO
0.1
pagX(Xi) =∑pag(Xi,y)
y
Esta fórmula denota la probabilidad de X sumada sobre todos los valores de Y en la distribución
conjunta. Tenga en cuenta que la suma de probabilidades para cada distribución marginal suma 1
(obedeciendo la ley, la suma de todas las probabilidades en un espacio muestral suma 1), lo cual
debería ser siempre el caso (y sirve como una buena verificación para determinar si hizo lo
correcto). cálculos).
Distribuciones Condicionales
P(Y = yi∩X = A)
P (Y=yi|X=A)=
P(X = A)
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
En esta fórmula, el numerador es la probabilidad conjunta de que el primer nucleótido
sea A y el segundo nucleótido sea el nucleótido yi. El denominador es la probabilidad
marginal de que el primer nucleótido sea A.
Por ejemplo, utilizando los datos anteriores de la Tabla 8-1, para calcular la probabilidad de
que el segundo nucleótido sea una A (Y=A) condicionada a la probabilidad de que el primer
nucleótido sea una A, realizamos el siguiente cálculo de probabilidad:
Continuando con este cálculo para los demás nucleótidos, obtenemos la distribución
condicional de Y dada X=A en la tabla 8-6.
Y=Nucleótido A 0,66
e en la posición
2 DADO T 0
X=A
C 0.33
GRAMO
0
Nuevamente, tenga en cuenta que la suma de las probabilidades condicionales suma 1 y cumple la
ley de probabilidad de que la suma de las probabilidades de los eventos en un espacio muestral
suma 1. Al calcular una distribución condicional, estamos redefiniendo el espacio muestral a una
condición específica y redefiniendo cálculos de probabilidad para que sean válidos dentro del
nuevo espacio muestral redefinido.
La distribución conjunta de dos variables aleatorias continuas se puede modelar utilizando una función de
densidad de probabilidad conjunta (pdf). La función de densidad de probabilidad conjunta de dos
variables aleatorias continuas X e Y es un área bidimensional A y se puede evaluar mediante
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
integrando sobre esta área con respecto a cada variable para valores dados de X e Y
PAG((X,Y)∈A) =∫∫F(X,y)dydx
A
FX(X) =∫F(X,y)dy
y
F(X,y)
FX|y(X|y) =
Fy(y)
Trabajar con más de dos variables aleatorias continuas es una simple extensión de los
conceptos y técnicas presentados aquí para dos variables aleatorias. Los métodos
analíticos y el cálculo para realizar dichos cálculos pueden volverse bastante tediosos.
Sin embargo, el uso de un programa de computadora puede simplificar enormemente
este tipo de cálculos, así como realizar simulaciones de distribuciones complejas y sus
distribuciones derivadas. Muchos ejemplos presentados en este libro
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
realizar la tarea de trabajar con distribuciones de alta dimensión utilizando el
poder computacional de R.
Los modelos gráficos más allá de dos variables aleatorias no son muy prácticos, por lo que, entre
otras aplicaciones, las distribuciones marginales y condicionales se usan a menudo para observar
gráficos de distribuciones de mayor dimensión, como veremos en algunos ejemplos en la
siguiente sección de este capítulo.
La distribución multinomial
Debido a que estamos tratando con una serie de eventos independientes, cualquier
secuencia particular de resultados consta deX1del primer tipo,X2del segundo tipo, etc. y
tiene probabilidad
pagX pag2
1 1 X 2 ⋅...⋅pagXrr
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Usando combinatoria, podemos calcular el número de posibles divisiones de n
secuencias en r grupos de tamaño x1, x2…xr con lo que se llama el coeficiente
multinomial. Esto se puede escribir como:
- norte - norte!
-- -- =
-x1,x2,...xr- x1!x2!...xr!
- norte -
X
pag(X1, 2,..., r) X =- -
1
pagXpagX
1
2
⋅...⋅ 2 pagX
r r
- X1X2...Xr-
Entre sus muchas aplicaciones en bioinformática, el modelo multinomial se usa con frecuencia
para modelar la distribución conjunta del número de genotipos observados. Cualquier número de
loci y cualquier número de alelos se puede modelar de esta manera, pero el ejemplo más simple
es el caso de observar un locus genético que tiene dos alelos, A y a. Si muestreamos n individuos
diploides en la población y registramos su genotipo en ese locus, varios individuos serán del
genotipo AA, que podemos representar como nAutomóvil club británico. Asimismo, un número de
individuos tendrá el genotipo Aa y puede ser representado por nAutomóvil club británico, y el número de
individuos de un genotipo puede representarse por nAutomóvil club británico. Para formalizar esto en un
modelo de probabilidad, podemos usar la variable aleatoria X para representar nAutomóvil club británico,
la variable aleatoria Y para representar nAutomóvil club británico, y la variable aleatoria Z para representar
nAutomóvil club británico. Podemos etiquetar estas proporciones (probabilidades) como PAutomóvil club británico,
PAGAutomóvil club británico, y PAutomóvil club británicopara cada uno de los tres posibles genotipos respectivos.
¡norte! norte
norteAutomóvil club británico norteAutomóvil club británico Automóvil club británico
P(X=nAutomóvil club británico, Y=nAutomóvil club británico, Z=nAutomóvil club británico)= (PAGAutomóvil club británico
(PAG) Automóvil club británico
(PAG)Automóvil club británico)
norteAutomóvil club británico!norteAutomóvil club británico!norteAutomóvil club británico!
Dado que probablemente no desee realizar cálculos con papel y lápiz utilizando esta
fórmula, la pregunta ahora es ¿cómo trabajaría con dicho modelo en R? Claramente, los
modelos con 3 variables aleatorias no son tan fáciles de trabajar como los modelos
univariados, pero R puede manejar el análisis y la realización de simulaciones en estas
distribuciones más complicadas con bastante facilidad.
Como ejemplo, supongamos que tenemos 20 individuos y los genotipamos y encontramos que nAutomóvil club
británico=4, norteAutomóvil club británico=14, y nAutomóvil club británico=2. Dada esta información, podemos estimar
fácilmente nuestros parámetros para la distribución multinomial simplemente usando las proporciones
muestrales PAutomóvil club británico=0.2, PAGAutomóvil club británico=0.7 y PAutomóvil club británico=0.1. Dado que no tenemos
muchos datos, es difícil examinar las propiedades de este modelo. Sin embargo, usando nuestros
parámetros empíricos podemos ampliar nuestro conjunto de datos haciendo simulaciones de más
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
valores para ver gráficos y otros detalles de la distribución. Más adelante en el capítulo 13
haremos tipos similares de simulaciones usando una técnica llamada bootstrapping.
Para realizar simulaciones, podemos escribir una función simple en R que genera valores de
las tres variables aleatorias (recuentos de genotipos) a partir de una distribución
multinomial dados los valores de los parámetros de las proporciones de cada genotipo:
función_rmnomial(N,n,p){
l<-longitud(p)
x<-rbinom(N,n,p[1])
si(l==2)
{cbind(x,-x+n)}
demás
{cbind(x,rmnomio(N,-x+n,p[2:1]/suma(p[2:1])))}
Esto produce la siguiente matriz de valores simulados de las tres variables aleatorias
que estamos modelando:
> resultados
[1,] 4 11 5
[2,] 4 13 3
[3,] 2 12 6
[4,] 3 13 4
[5,] 4 13 3
[6,] 6 11 3
[7,] 3 13 4
[8,] 4 15 1
[9,] 1 13 6
[10,] 7 7 6
Fácilmente podríamos escribir algún código para calcular las proporciones de los valores de
las variables aleatorias simuladas:
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
> resultados2<-resultados/(resultados[,1]+resultados[,2]+resultados[,3])
> resultados2
Observar las proporciones deja más claro que los valores simulados se basan en los
parámetros de proporción empíricos (0,2,0.7,0.1) suministrados.
Podría escribir sus propias funciones como las anteriores para muestrear distribuciones
multinomiales, pero hay un paquete llamado combinat que contiene algunas funciones
preescritas para muestrear distribuciones multinomiales. Este paquete también contiene
una serie de otras funciones útiles en los cálculos combinatorios.
Las distribuciones marginales para cada una de las variables aleatorias X, Y y Z pueden obtenerse
fácilmente a partir del multinomio. Supongamos que solo estamos interesados en la función de
masa de probabilidad marginal de la variable aleatoria X. Podríamos intentar encontrar la función
de masa de probabilidad marginal usando mucho álgebra desordenada o, en su lugar, considerar
el siguiente argumento.
Si solo estamos interesados en el número de resultados que dan como resultado el primer tipo, X,
luego simplemente agrupamos todos los otros tipos (Y y Z) en una categoría llamada "otros".
Ahora hemos reducido esto a una situación en la que tenemos dos resultados. Esto debería sonar
familiar, ya que ahora se ha convertido en un caso de juicios de Bernoulli. El número de veces que
aparece el genotipo X como resultado denorteensayos independientes sigue una distribución de
probabilidad binomial con parámetrosnorteypag1. Tenga en cuenta que la probabilidad de
"fracaso" = prob ("otro") = 1 -pag1=pag2+…+pagr(suma de todos los demás). Por tanto, la
distribución marginal unidimensional para una distribución multinomial es simplemente una
binomial:
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
-norte- Xj −
pag
X j (X)j = - j(1−pag
-pag j )nxj
- Xj-
Para examinar esto más concretamente, continuemos con nuestro ejemplo y hagamos
algunas simulaciones ilustrativas. Solo que ahora preocupémonos de la primera variable, X.
En lugar de considerar las variables Y y Z, consolidémoslas en una variable W, que
representa "todo lo demás" que no es el genotipo AA, y hagamos W=X+Y=( norteAutomóvil club
británico+nAutomóvil club británico) y pW=(1-pAa-paa)=0,8. Ahora tenemos un modelo binomial que
modela X (contando las pruebas de AA como "éxitos" y todos los demás resultados como
"fracasos") solo. Usando R, simulemos esta distribución de dos maneras y comparemos los
resultados.
Para ver el resultado visualmente, trazar las proporciones con un histograma es simple, como se
codifica a continuación y se muestra en la Figura 8-3.
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Figura 8-3
A modo de comparación, una simulación rápida del binomio de 10 000 valores usando p=0.2
es simple de codificar usando la función rbinom:
El histograma que utiliza la simulación binomial se muestra en la figura 8-4. Debería ser
evidente a partir de los gráficos que las distribuciones en la Figura 8-3 y la Figura 8-4 son
virtualmente idénticas.
Figura 8-4
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Distribución normal multivariante
( x−µ)2
−
1 2σ2
f(x) = mi
σ 2π
F(X,y) =FX(X)Fy(X)
( x−µ)2 ( y−µ)2
− −
1 2σ2 1 2σ2
f (x, y) = mi mi
σ 2π σ 2π
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
( x )2 ( y )2
1 −
2 1 −
2
f (x, y) = mi mi
2π 2π
( x2 + y2 )
1 − 2
f (x, y) = mi
2π
Esta es una ecuación bastante viable para trazar. Para hacer esto, podemos escribir una función en
R para simular extracciones de una normal estándar bivariada. En el siguiente código, creamos dos
vectores de longitud 20, x e y, y luego escribimos una función para calcular los valores de f(x,y). Los
resultados de la llamada a la función se almacenan en una matriz variable z. Luego, los datos se
pueden ver utilizando un diagrama de perspectiva tridimensional simple, presentado en la Figura
8-5.
> x<-secuencia(-2,2,longitud=20)
> y<-x
> función_bvn(x,y){
+ (1/2*pi)*exp(-0.5*(x̂ 2+y^2))
+}
> z<-x%*%t(y)
> para(i en 1:20){
+ for(j en 1:20){z[i,j]<-bvn(x[i],y[j])}}
> persp(x,y,z)
La figura 8-5 tiene la forma de un cono invertido simétrico con su base en el plano XY.
A lo largo del eje X (vista frontal del gráfico), las líneas de perspectiva muestran un
patrón de distribución normal que refleja que cualquier "rebanada" del cono tendría la
forma de una distribución normal.
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Una vez más, no tuvimos que escribir una función, porque también se pueden hacer
generaciones aleatorias de distribuciones normales multivariadas de cualquier dimensión
usando el paquete mvtnorm. Mvtnorm contiene funciones para generar valores aleatorios a
partir de todo tipo de distribuciones normales multivariadas y de distribuciones t
multivariadas relacionadas para cualquier modelo y con cualquier valor de parámetro, no
solo con valores de parámetro estándar. Usemos la función rmvnorm del paquete para
generar 1000 valores a partir de una distribución normal estándar bivariada:
> datos<-rmvnorm(1000,media=c(0,0))
> datos
[,1] [,2]
[1,] -0.9152555414 0.5950708803
[2,] -1.2240565493 0.3079036163
[3,] -1.2205942482 -0.9042616927
…
[999,] 2,0735458497 -1,7003787054
[1000,] -0,0962237236 0,0056516042
En nuestro resultado tenemos una matriz de datos donde la primera columna tiene valores
de variables aleatorias X de simulación normal estándar, y la segunda columna son valores
de variables aleatorias Y de una simulación normal estándar. Un diagrama de dispersión en
la figura 8-6 demuestra que la densidad conjunta tiene la forma que esperaríamos que
tuvieran los datos de una simulación normal bivariada.
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
> x<-datos[,1]
> y<-datos[,2]
> hist(x,nclase=20,principal
+ ="Distribución marginal de x")
Del histograma de la figura 8-7, la distribución marginal de X tiene una distribución bastante
normal. Si hiciéramos una simulación de 1000 valores de una distribución normal estándar
univariante obtendríamos un resultado prácticamente idéntico.
Distribución Dirichlet
Ahora denotamos por X1…Xkun conjunto de proporciones teniendo en cuenta que X1+…+Xk=
1 (y cada Xi> 0). Matemáticamente la fórmula de la distribución de Dirichlet, para k
proporciones aleatorias es:
k
Γ(∑αi) k
Xαi−1
F(X 1,X2,.. X k) = k
i=1
∏ i
∏Γ(α) i=1i
i=1
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Aunque esta fórmula puede parecer intimidante, ¡no es tan complicada! El
Γes simplemente el símbolo de la función gamma presentada en el capítulo 6 y
utilizada en las distribuciones gamma y beta en el capítulo 7. Capitol sigma∑es el
símbolo de la suma (suma de), y el capitolio pi, Π es el símbolo de la
multiplicación. Los alfa son los parámetros para la variable aleatoria X.
2
Γ(∑ai)
2
F(X1,X 2) = yo=1 ∏Xα−
i i
1
2
∏Γ(αyo=1
i)
yo=1
Γ(3)
f(X ,1X 2) = (p1)1−1(pág. 2)2−1
Γ(1)Γ(2)
Tenga en cuenta que desde X2= 1-X1simplemente podríamos ver esto como una distribución
marginal de X1porque para cualquier X dado1, X2estaría completamente determinado.
Γ(3)
FX1(X)1 = (X1)1−1 (1− X1)2−1
Γ (1)Γ(2)
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Notamos que esta es simplemente la distribución Beta para X1.con parámetros
α=α1=1, y β=α2=2. Por lo tanto, la distribución conjunta de Dirichlet para dos
proporciones aleatorias X1,X2(X1+X2= 1) es equivalente a la distribución Beta
univariante para X1solo. Aunque en este ejemplo solo se modelan dos variables
aleatorias y el modelo es bastante sencillo, cuando se modelan más variables
aleatorias, el Dirichlet puede volverse bastante complejo. Debido a que calcular las
funciones gamma en esta ecuación puede ser computacionalmente intenso (incluso
para computadoras de bastante alta potencia), a veces la distribución se evalúa
tomando logaritmos (lo que la hace más eficiente desde el punto de vista
computacional). En realidad, no importa qué base use para sus cálculos de registro,
siempre que sea consistente. El lado derecho del modelo de Dirichlet se puede calcular
usando logaritmos como este:
k k k
= registro (Γ( ∑αi))-registro (∏Γ(α )) +registro (∏X α
i
1
i −i )
i=1 i=1
yo=1
Usar esta función para simular valores para n=20 con un vector de parámetros
(valores alfa) para 3 variables aleatorias donde alfa=1 para las tres variables produce
una matriz de resultados donde cada columna representa simulaciones para cada
variable aleatoria:
x<-rDir(20,c(1,1,1))
>x
[,1] [,2] [,3]
)
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
De nuevo, no es necesario escribir una función para realizar simulaciones, porque el
paquete gregmisc contiene funciones escritas previamente para calcular la densidad o
generar valores aleatorios a partir de la distribución de Dirichlet. Realizar el mismo
cálculo que el anterior usando la función rdirichlet de este paquete produce lo
siguiente:
> x <- rdirichlet(20, c(1,1,1) )
>x
[,1] [,2] [,3]
[1,] 0.742226607 0.034630906 0.22310302 [2,]
0.61271253 0.359267638 0.02801983 [3,]
0.20446723 0.180993424 0.61453934 [4,]
0.77386208 0.004850972222222222220095.
> x<-rdirichlet(1000,c(1,2))
Si observamos los valores medios simulados para p1 y p2, estas son las proporciones
simuladas de x1 purinas y x2 pirimidinas dado que nuestros parámetros alfa=1 y
alfa=2.
> media(x[,1])
[1] 0.3354725
> media(x[,2])
[1] 0,6645275
Cada proporción tiene una distribución marginal. Si graficamos el marginal de x[ ,1] obtenemos lo
siguiente como se muestra en la figura 8-8:
Figura 8-8
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Del mismo modo, si trazamos el marginal de x[,2], obtenemos el gráfico de la figura 8-9
Figura 8-9
Con base en las discusiones de los capítulos 6, 7 y 8, debe tener una comprensión de los
conceptos básicos de la teoría de la probabilidad y una sensación para trabajar con
distribuciones univariadas y algunas distribuciones seleccionadas de más de una variable. Si
puede comprender los diferentes modelos, para qué se usan, cómo realizar simulaciones y
cómo analizar gráficamente los resultados, debe estar preparado para utilizar estas
capacidades en algunas aplicaciones más avanzadas. Los siguientes capítulos contienen una
introducción a las estadísticas bayesianas y una descripción general de los métodos de la
Cadena de Markov, y las próximas discusiones se basarán en los conceptos y métodos
presentados hasta ahora.
Permiso otorgado para reproducir para uso educativo sin fines de lucro.
9
Una introducción a los datos bayesianos
Análisis
El capítulo 6 introdujo la discusión de las estadísticas bayesianas al analizar las dos principales
escuelas de pensamiento en estadística. Hablamos de que las estadísticas frecuentistas son el tipo
histórico principal de estadística que generalmente se enseña en el curso de introducción a la
estadística y que el bayesiano es una escuela de pensamiento estadístico que se basa en los
métodos frecuentistas pero incorpora el pensamiento subjetivo y objetivo sobre la probabilidad.
A veces hay una ruptura, incluso en ocasiones denominada guerra santa, entre los estadísticos
para ser frecuentistas o bayesianos y luchar por la causa de sus creencias. Este libro no presenta
una visión sesgada de que ningún enfoque sea superior al otro, sino que presenta cada punto de
vista en términos de fortalezas y utiliza el enfoque que probablemente sea más útil en las
aplicaciones bioinformáticas discutidas. Para las aplicaciones de los capítulos 10, 11 y 12, los
métodos bayesianos se ven favorecidos por muchas razones, de las cuales se analizan los aspectos
más destacados. Sin embargo, después del Capítulo 12, volveremos a trabajar con estadísticas
frecuentistas para estudiar cómo usar R para
Permiso otorgado para reproducir para uso educativo sin fines de lucro.