Está en la página 1de 28

Traducido del inglés al español - www.onlinedoctranslator.

com

8
Probabilidad y distribuciones que
involucran múltiples variables

Los dos capítulos anteriores han analizado los principios básicos de la probabilidad y las
distribuciones de probabilidad de una variable aleatoria. En este capítulo presentamos
algunos conceptos más de probabilidad y luego ampliamos el análisis de distribuciones de
probabilidad para incluir distribuciones que modelan dos o más variables aleatorias.

Conceptos ampliados de probabilidad

La probabilidad condicional

La probabilidad condicional es un concepto poderoso que nos permite calcular la


probabilidad de un evento dado que ha ocurrido algún evento anterior, sobre el cual
tenemos información de probabilidad. Usar el concepto de probabilidad condicional
nos permite resolver problemas donde “las cosas suceden secuencialmente” con
modelos de probabilidad bastante simples, en lugar de complicados modelos
matemáticos que serían la alternativa si no fuera por la probabilidad condicional.
Comprender la probabilidad condicional, como veremos en el próximo capítulo, es un
fundamento esencial para las estadísticas bayesianas. Pero comprender el concepto
también es importante por sí solo.

Ilustremos el uso de la probabilidad condicional con un ejemplo de la genética clásica


considerando el caso del color del guisante como un rasgo codificado por un gen que tiene
dos alelos. El alelo dominante, que denotaremos por Y, codifica para
color amarillo guisante. El alelo recesivo lo denotaremos por y, que codifica para
color verde guisante.

Copyright mayo de 2007, K Seefeld 108

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Asumiendo que son diploides, los guisantes pueden tener un genotipo homocigoto (yy o YY)
o heterocigoto (Yy o yY). Suponiendo frecuencias iguales de ambos alelos, la probabilidad de
heterocigoto es ½ y la probabilidad de homocigoto también es ½. Los guisantes del
genotipo yy son verdes, con una probabilidad de ¼, y los guisantes de los genotipos Yy, yY y
YY son amarillos y, por lo tanto, la probabilidad de un guisante amarillo es 3/4.

A continuación, supongamos que tenemos un guisante amarillo y queremos la probabilidad de que el


guisante también sea heterocigoto. En términos de la teoría de la probabilidad, estamos restringiendo el
espacio muestral para el evento color del guisante al evento de que el guisante sea amarillo, y creando un
nuevo espacio muestral que consista únicamente en el color amarillo del guisante. Dentro de este nuevo
espacio restringido, nos preguntamos cuál es la probabilidad del evento guisante heterocigoto. En la jerga
de la probabilidad condicional, estamos condicionando el evento del guisante heterocigoto al evento del
guisante amarillo. El evento guisante amarillo es nuestro evento anterior del que ya tenemos información.

Matemáticamente podemos ver este ejemplo usando el lenguaje y la notación de la teoría


de la probabilidad. Sabemos por nuestra información genética básica que la probabilidad de
que un guisante sea amarillo es ¾ y sabemos que la probabilidad de que un guisante sea
heterocigoto y amarillo es 2/4, según el cálculo de que los guisantes pueden ser Yy, yy, yY, y
YY y 2 de cuatro de estos eventos (Yy e yY) son ambos amarillos y heterocigóticos (veremos
más en las probabilidades conjuntas más adelante en este capítulo). Entonces podemos
usar la probabilidad conjunta del evento "heterocigoto y amarillo" y dividirla por el evento
"amarillo" para calcular la probabilidad de ser heterocigoto y amarillo de la siguiente
manera:

P(amarillo y heterocigoto) = 2/4

P(amarillo)=3/4

P (amarillo y heterocigoto)
P(heterocigoto|amarillo) = =2/3
P(amarillo)

La notación P(heterocigoto|amarillo) es una notación estándar para la probabilidad


condicional donde el evento que se condiciona viene después del “|” notación. P(A|B)
se lee como “la probabilidad condicional del evento A dado que ha ocurrido el evento
B”.

Uso de árboles para representar la probabilidad condicional

A menudo, mirar una ilustración gráfica ayuda a comprender un concepto. Los árboles son
una forma visual de representar eventos y probabilidades condicionales. Las ramas iniciales
del árbol dependen del tallo y las ramas más finas dependen de la rama anterior. Usemos
un diagrama de árbol simple para ilustrar nuestro ejemplo (Figura 8-1).

Copyright mayo de 2007, K Seefeld 109

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
La primera rama del árbol representa el evento del color del guisante y la segunda
rama del árbol representa el genotipo (homocigótico frente a heterocigótico)
condicionado al color del guisante.

Figura 8-1: Diagrama de árbol de probabilidad condicional

Tenga en cuenta que el segundo árbol de ramas podría haberse escrito con ramas para
cada uno de los cuatro genotipos, pero aquí se dibuja usando la versión más simplificada de
dos ramas de heterocigoto versus homocigoto. El resultado combinado al final de la
segunda rama es la probabilidad conjunta de ambos eventos. Más adelante en este capítulo,
la probabilidad conjunta se explicará con más detalle.

También es importante observar en la Figura 8-1 que las probabilidades dentro de cada conjunto
de ramas suman 1. En la segunda rama, esto se deriva del hecho de que cuando condicionamos un
evento, definimos un nuevo espacio muestral condicional y el condicional las probabilidades
obedecen a los axiomas y reglas de probabilidad dentro de este nuevo espacio muestral
(condicional). En nuestro ejemplo, el espacio muestral condicional se basa en los colores de los
guisantes.

Independencia

A menudo sucede que el conocimiento de que ha ocurrido cierto evento E no tiene


efecto sobre la probabilidad de que ocurra algún otro evento F. En otras palabras, la
probabilidad condicional del evento F dado el evento E es solo la probabilidad del
evento F. Esto se puede escribir matemáticamente como P(F | E) =P(F). Uno esperaría
que en este caso, la ecuación P(E | F) =P(E) también sea cierta. De hecho, cada
ecuación implica la otra. Si ambas ecuaciones son verdaderas, entonces F es
independiente de E y esto se formaliza en la definición de eventos independientes,
que establece que dos eventos E y F son independientes si P (E|F)=P(E) y P(F |E)=P(E).

Aquí hay una forma alternativa de definir la independencia. Dos eventos E y F son
independientes si ambos E y F tienen probabilidad positiva y si P(E∩F) =P(E)P(F).

Copyright mayo de 2007, K Seefeld 110

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Usted puede mirar esto y preguntarse, ¿por qué? La lógica de esta definición alternativa de
independencia proviene de la definición de probabilidad condicional:

EDUCACIÓN FÍSICA∩F)
P(E|F)=
P(F)

Esto se puede reescribir algebraicamente como

EDUCACIÓN FÍSICA∩F)=P(E|F)P(F)

Pero como acabamos de definir la independencia de E y F como P(E|F)=P(E) esto se


simplifica a

EDUCACIÓN FÍSICA∩F) =P(E)P(F)

Esta forma de definición de independencia es muy útil para calcular probabilidades


conjuntas de eventos independientes.

Es importante notar aquí que determinar que los eventos son independientes no es
equivalente a determinar que los eventos son disjuntos o mutuamente excluyentes, lo cual
fue previamente definido por dos eventos que no tienen una intersección común (P
(MI∩F)=∅).Disjuntos y mutuamente excluyentes significan lo mismo, ¡pero la
independencia es un concepto muy diferente!

La independencia se puede extender fácilmente para incluir más de dos eventos.


Tres eventos A, B y C son independientes si P(A∩B∩C)=P(A)P(B)P(C). En este caso
podemos decir que A, B y C son mutuamente independientes y se puede concluir
la independencia de pares de estos eventos (A es independiente de B, B es
independiente de C, etc.). Sin embargo, no siempre ocurre lo contrario, y es
posible tener tres eventos, A, B y C donde A y B son independientes, B y C son
independientes pero A y C no son independientes y por lo tanto A, B y C no son
mutuamente independientes.

En la práctica, determinar si los eventos son independientes puede ser complicado. Algunas veces se basa
en la lógica común. Por ejemplo, la mayoría de las personas estaría de acuerdo en que los resultados de
cada lanzamiento de una moneda justa son independientes, lo que significa que el resultado de un
lanzamiento de una moneda (cara o cruz) no tiene impacto en el siguiente lanzamiento de una moneda.
Pero, en general, no debe asumir la independencia sin una buena razón para hacerlo.

La independencia se utiliza a menudo en bioinformática para analizar información de


secuencias. Aunque este problema suele ser discutible, asumir la independencia de los
elementos de la secuencia es clave en muchos algoritmos de análisis de datos comúnmente
utilizados. La independencia facilita los cálculos y la suposición de independencia puede
simplificar enormemente un algoritmo complicado.

Por ejemplo, suponga que los nucleótidos en una secuencia de ADN son mutuamente
independientes con iguales probabilidades (es decir, P(A)=P(T)=P(C)=P(G)=1/4). La probabilidad

Copyright mayo de 2007, K Seefeld 111

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
de observar una secuencia ATCGA es simplemente P(A)P(T)P(C)P(G)P(A) o
(1/4)5=1/1024.

En el caso anterior, los nucleótidos se suponen igualmente probables. Sin embargo, el


concepto de independencia se puede aplicar fácilmente al caso de nucleótidos de
diferentes frecuencias. Supongamos que P(C)=P(G)=1/3 y P(A)=P(T)=1/6. Entonces,
suponiendo independencia, la probabilidad de secuencia ATCGA es (1/6)3(1/3)2
que calcula a 1/1944. La importancia aquí es que el evento de un nucleótido particular
en una secuencia es independiente de otros nucleótidos en la secuencia, no que las
probabilidades de cada nucleótido sean las mismas.

En muchos casos, en el análisis de secuencias o en el análisis de otros eventos, está claro


que los eventos no son independientes. Dos eventos que no son independientes se dice que
son dependientes. Por ejemplo, al analizar la secuencia de nucleótidos para un codón de
inicio (ATG) u otro motivo de secuencia, la independencia no se mantiene y los nucleótidos
posteriores dependen del nucleótido anterior dentro de ese motivo de secuencia.

Probabilidades conjuntas y marginales

La probabilidad conjunta es un concepto bastante autodescriptivo: es la probabilidad de dos


(o más) eventos a la vez. Aquí veremos el concepto de probabilidades conjuntas, que servirá
como preparación para la cobertura de distribuciones conjuntas más adelante en este
capítulo, pero también es un tema de uso por sí solo. La probabilidad conjunta se define
oficialmente como la probabilidad de la intersección de dos eventos. La probabilidad
conjunta se representó con un diagrama de Venn en el capítulo 6 cuando discutimos el
concepto de intersección de la teoría de conjuntos. Recuerda que la intersección de dos
eventos usa el símbolo “∩”.Usando esta notación, P(A∩B) simboliza la probabilidad conjunta
de los eventos A y B.

Las tablas se utilizan a menudo para mostrar probabilidades conjuntas. Por ejemplo, dada
una secuencia de ADN particular, obtenemos las siguientes probabilidades conjuntas
(hipotéticas) para dos sitios de nucleótidos adyacentes (Tabla 8-1):

Copyright mayo de 2007, K Seefeld 112

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Tabla 8-1: Probabilidades conjuntas de nucleótidos en sitios adyacentes

Nucleótido en la posición 1

A T C GRAMO

Nucleótido en la posición 2 A 0.2 0.1 0 0.1

T 0 0.1 0.1 0.1

C 0.1 0 0.1 0

GRAMO
0 0.1 0 0

Aunque no es inmediatamente obvio para el ojo inexperto, un experto en probabilidades


puede extraer de la tabla 8-1 mucha información útil. Cada celda de la tabla contiene la
probabilidad de la intersección (probabilidad conjunta) de los eventos. Por ejemplo, en la
primera celda la entrada es la probabilidad conjunta del nucleótido A en la posición 1 y el
nucleótido A en la posición 2. Por lo tanto, la probabilidad conjunta es 0,2. Fundamental
para una tabla de probabilidad conjunta es el hecho de que todas las entradas de
probabilidad suman 1, que es simplemente una expresión del axioma de probabilidad de
que las probabilidades de todos los eventos deben sumar 1.

¿Qué pasa si queremos saber la probabilidad de que el nucleótido A esté en la posición 1


independientemente del nucleótido en la posición 2? Este cálculo es el total de la columna del
nucleótido A en la posición 1 de la columna, o 0,3. Esta probabilidad se llama probabilidad
marginal. La tabla 8-2 amplía esta idea calculando todas las probabilidades marginales para todas
las columnas (probabilidades marginales para el nucleótido en la posición 1) y todas las filas
(probabilidades marginales para el nucleótido en la posición 2).

Copyright mayo de 2007, K Seefeld 113

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Tabla 8-2: Cálculo de probabilidades marginales

Nucleótido en la posición 1 Marginal


probabilidades
A T C GRAMO para filas
Nucleótido en la posición 2

A 0.2 0.1 0 0.1 0.4

T 0 0.1 0.1 0.1 0.3

C 0.1 0 0.1 0 0.2

GRAMO
0 0.1 0 0 0.1

Marginal 0.3 0.3 0.2 0.2 1


probabilidades de
columnas

Calcular probabilidades condicionales a partir de la información de la tabla también es muy


sencillo. Por ejemplo, para calcular la probabilidad condicional de que un nucleótido en la
posición 2 sea T dado que el nucleótido en la posición 1 es una G, usamos la siguiente
fórmula de la definición de probabilidad condicional...

EDUCACIÓN FÍSICA∩F)
P(E|F)=
P(F)

…y simplemente aplique la fórmula a las condiciones deseadas.

P(T en P2∩G en P1) 0.1


P (T en P2 | G en P1)= = =1/2
P(G en P1) 0.2

Aquí, la probabilidad conjunta, P(T en P2∩G en P1), se obtiene de la celda de la tabla 8-2 que
contiene la probabilidad conjunta del nucleótido G en la posición 1 y T en la posición 2, y P
(G en P1) es la probabilidad marginal del nucleótido G en la posición 1 obtenida de el total
de la columna para esa columna en la Tabla 8-2.

La ley de la probabilidad total

La ley de probabilidad total proporciona un método para calcular la probabilidad de un


evento, que denotaremos por A, condicionando un conjunto de eventos mutuamente
excluyentes y exhaustivos, que denotaremos por B1,B2,…,Bnorte. Tenga en cuenta que la Bk
son generalmente los diferentes resultados de un experimento de muestra (todos los
eventos posibles en un espacio de muestra dado). Recuerde que mutuamente excluyentes
significa que dos eventos no tienen una intersección común y que su probabilidad conjunta
es 0, es decir (Bi∩bj) =∅para cualquier i, j. Exhaustivo significa todo el espacio muestral o
unión de todos los eventos, B1∪B2∪…∪Bnorte=el espacio muestral

Copyright mayo de 2007, K Seefeld 114

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
La ley de probabilidad total se ilustra mejor usando el “Diagrama de Pizza Venn” en la figura
8-2, y se puede resumir matemáticamente de la siguiente manera:

PAG(A)= ∑norte PAG(A|B i)PAG(Bi)


yo=1

En la fórmula anterior y en la figura 8-2, A es la unión de conjuntos disjuntos (mutuamente


excluyentes), A∩Bi, para todo yo. P(A) también se puede escribir como:

PAG(A) =∑ norte PAG(A∩Bi)


i=1

Figura 8-2: Ilustración de la Ley de Probabilidad Total

Aunque la ley de probabilidad total puede parecer confusa, acabamos de aplicar la ley
de probabilidad total anteriormente en este capítulo al calcular las probabilidades
marginales en el ejemplo de nucleótido adyacente. En este caso usamos el

fórmulaPAG(A) =∑PAG (A∩Bi)donde A es el nucleótido que estamos


norte

i=1
calculando la probabilidad marginal de y los Bi son los cuatro nucleótidos sobre los que
estamos calculando la probabilidad marginal.

Por ejemplo, para calcular la probabilidad marginal de A en la primera posición de


nucleótido: P (A en la posición 1) = P (A en P1∩A en P2) + P(A en P1∩T en P2) + P(A en
P1∩C en P2) + P(A en P1∩G en P2). Haciendo los cálculos, P (A en P1) es 0,3.

Copyright mayo de 2007, K Seefeld 115

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Distribuciones de probabilidad que involucran
más de una variable aleatoria

Hasta ahora solo hemos considerado el estudio de distribuciones donde se modela una variable
aleatoria. Sin embargo, modelar la probabilidad de la mayoría de los fenómenos de la vida real, y
ciertamente de la mayoría de los fenómenos bioinformáticos, generalmente requiere modelar la
distribución de más de una variable aleatoria. Ser capaz de utilizar múltiples modelos de
distribución de variables nos proporciona una herramienta de análisis de datos muy poderosa.

Los ejemplos de fenómenos que se modelan con más de una variable abundan en las
aplicaciones científicas. Un estudio ambiental puede incluir medidas de temperatura,
gases de efecto invernadero, humedad y otras condiciones medidas en diferentes
lugares y cada medida modelada por una variable aleatoria. En bioquímica, puede ser
posible desarrollar un modelo estadístico que prediga la estructura de la proteína
terciaria utilizando variables aleatorias para modelar factores como porcentajes de
ciertos residuos de aminoácidos o motivos. Comprender cómo usar distribuciones de
probabilidad que involucran dos o más variables aleatorias es clave para poder
modelar datos que involucran más de una dimensión medible.

Distribuciones conjuntas de variables aleatorias discretas

Revisemos nuestro ejemplo de probabilidad conjunta de nucleótidos en dos posiciones


discutido anteriormente en este capítulo. Previamente, consideramos las probabilidades
conjuntas de eventos de un nucleótido particular en la posición 1 y un nucleótido particular
en la posición 2. Avancemos esto y modelemos el escenario usando variables aleatorias. Sea
X la variable aleatoria para modelar el nucleótido en la posición 1 y sea Y la variable
aleatoria para modelar el nucleótido en la posición 2.

Podemos reescribir nuestra tabla familiar como una función de masa de probabilidad conjunta (pmf) de
dos variables aleatorias (Tabla 8-3).

Copyright mayo de 2007, K Seefeld 116

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Tabla 8-3: Función de masa de probabilidad conjunta para nucleótidos en
Dos sitios adyacentes

X = nucleótido en la posición 1

A T C GRAMO

Y = nucleótido en la posición 2 A 0.2 0.1 0 0.1

T 0 0.1 0.1 0.1

C 0.1 0 0.1 0

GRAMO
0 0.1 0 0

Este es un cambio pequeño pero importante en la tabla. La tabla ahora modela


distribuciones de probabilidad para las dos variables aleatorias. Podemos ver cada celda
como una representación de P (X=xi, Y=yi)=P (X=xi∩Y=yi), un valor individual de la función de
masa de probabilidad conjunta denotada por p(xi, yi).

Aunque no lo haremos aquí, extender las distribuciones conjuntas para incluir más de
2 variables es bastante sencillo. Podemos ampliar el ejemplo de nucleótidos para
incluir la distribución del nucleótido en la posición 3 de una secuencia. Podríamos usar
la variable aleatoria Z para modelar el tercer nucleótido. La probabilidad de cualquier
secuencia de 3 nucleótidos dada, como ATG, estaría dada por la distribución conjunta
de las variables aleatorias X, Y y Z que representan las probabilidades respectivas de
cada nucleótido en cada posición. Escribimos esto como P ((X=A) ∩(Y=T)∩(Z=G)).

Distribuciones marginales

Usando la misma lógica utilizada para calcular las probabilidades marginales descritas
anteriormente, podemos tomar la distribución conjunta y sumar todos los valores de la otra
variable para crear la distribución marginal de una variable. La única idea novedosa aquí es que
estamos asignando una variable aleatoria a la probabilidad marginal, creando una función de
masa de probabilidad marginal para una variable aleatoria discreta.

Por ejemplo, la suma de todos los valores para la posición del segundo nucleótido produce
la distribución marginal o la función de masa de probabilidad marginal (pmf) del primer
nucleótido, X, como se muestra en la tabla 8-4.

Copyright mayo de 2007, K Seefeld 117

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Tabla 8-4: Función de masa de probabilidad marginal para X

X = nucleótido en la posición 1

A T C GRAMO

0.3 0.3 0.2 0.2

De manera similar, podríamos calcular la función de masa de probabilidad marginal (pmf) de la


variable aleatoria Y sumando todos los valores de X, como en la tabla 8-5.

Tabla 8-5: Función de masa de probabilidad marginal para Y

A 0.4

T 0.3
Y = nucleótido en

C
posición 2

0.2

GRAMO
0.1

La distribución marginal se puede denotar usando taquigrafía matemática. Por


ejemplo, para denotar la probabilidad marginal de X escribiríamos lo siguiente:

pagX(Xi) =∑pag(Xi,y)
y

Esta fórmula denota la probabilidad de X sumada sobre todos los valores de Y en la distribución
conjunta. Tenga en cuenta que la suma de probabilidades para cada distribución marginal suma 1
(obedeciendo la ley, la suma de todas las probabilidades en un espacio muestral suma 1), lo cual
debería ser siempre el caso (y sirve como una buena verificación para determinar si hizo lo
correcto). cálculos).

Distribuciones Condicionales

A veces nos puede interesar la distribución de una variable condicional a un valor


específico de la segunda variable.

Por ejemplo, podemos estar interesados en la distribución de los segundos


nucleótidos (Y) dado que el primer nucleótido es una A. Para cada nucleótido
modelado por la distribución de Y, la probabilidad condicional se calcula utilizando la
fórmula de probabilidad condicional:

P(Y = yi∩X = A)
P (Y=yi|X=A)=
P(X = A)

Copyright mayo de 2007, K Seefeld 118

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
En esta fórmula, el numerador es la probabilidad conjunta de que el primer nucleótido
sea A y el segundo nucleótido sea el nucleótido yi. El denominador es la probabilidad
marginal de que el primer nucleótido sea A.

Por ejemplo, utilizando los datos anteriores de la Tabla 8-1, para calcular la probabilidad de
que el segundo nucleótido sea una A (Y=A) condicionada a la probabilidad de que el primer
nucleótido sea una A, realizamos el siguiente cálculo de probabilidad:

P(Y = A∩X = A) 0.2


P(Y=A|X=A)= = =0,66
P(X = A) 0.3

Continuando con este cálculo para los demás nucleótidos, obtenemos la distribución
condicional de Y dada X=A en la tabla 8-6.

Tabla 8-6: Distribución Condicional de Y dado X=A

Y=Nucleótido A 0,66
e en la posición
2 DADO T 0
X=A
C 0.33

GRAMO
0

Nuevamente, tenga en cuenta que la suma de las probabilidades condicionales suma 1 y cumple la
ley de probabilidad de que la suma de las probabilidades de los eventos en un espacio muestral
suma 1. Al calcular una distribución condicional, estamos redefiniendo el espacio muestral a una
condición específica y redefiniendo cálculos de probabilidad para que sean válidos dentro del
nuevo espacio muestral redefinido.

Distribuciones conjuntas, marginales y condicionales para


variables continuas

Debido a la importancia de los datos discretos en bioinformática y la relativa


simplicidad de trabajar con datos discretos, solo se han discutido en detalle las
distribuciones discretas conjuntas, marginales y condicionales. Sin embargo, aunque
la mayoría de los análisis de secuencias se ocuparán de distribuciones y datos
discretos, otros modelos suelen utilizar variables continuas. Conceptualmente, las
distribuciones conjunta, marginal y condicional son las mismas que para las variables
discretas, pero las matemáticas son más complicadas.

La distribución conjunta de dos variables aleatorias continuas se puede modelar utilizando una función de
densidad de probabilidad conjunta (pdf). La función de densidad de probabilidad conjunta de dos
variables aleatorias continuas X e Y es un área bidimensional A y se puede evaluar mediante

Copyright mayo de 2007, K Seefeld 119

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
integrando sobre esta área con respecto a cada variable para valores dados de X e Y

PAG((X,Y)∈A) =∫∫F(X,y)dydx
A

Dado que evaluar esto requiere técnicas de integración de cálculo multivariable,


no evaluaremos tales integrales aquí. Pero conceptualmente, la probabilidad de
que (X, Y) se encuentre en el área A es igual al volumen debajo de la función f(x,y)
sobre el área A.

Calcular una distribución marginal de una variable continua es similar a calcular


una distribución marginal de variable aleatoria discreta. En el caso de la variable
aleatoria discreta, esto se hace sumando la(s) otra(s) variable(s), mientras que en
el caso de una variable aleatoria continua, esto se hace integrando la(s) otra(s)
variable(s).

Por ejemplo, para determinar la función de densidad de probabilidad marginal de X dada la


distribución conjunta de las variables aleatorias continuas X e Y, integre sobre la distribución de Y
(que si X e Y fueran discretas estaría sumando sobre toda la distribución de Y) de la siguiente
manera:

FX(X) =∫F(X,y)dy
y

Nuevamente, el cálculo de calcular estas distribuciones está más allá de nuestra


cobertura aquí, pero es importante una comprensión conceptual de cómo calcular una
distribución marginal para una variable continua y ver cómo los conceptos de
distribución de variables aleatorias y discretas son muy similares.

La distribución de probabilidad condicional para dos variables aleatorias continuas también


se puede calcular usando un cálculo simple. Si X e Y tienen una función de densidad de
probabilidad conjunta f(x,y), entonces la función de densidad de probabilidad condicional de
X, dado que Y=y, se define para cualquier valor como la probabilidad conjunta de X e Y
dividida por la probabilidad marginal de que Y=y. esto se puede escribir
matemáticamente donde la distribución condicional se denota porFX|y(X|y).

F(X,y)
FX|y(X|y) =
Fy(y)

Trabajar con más de dos variables aleatorias continuas es una simple extensión de los
conceptos y técnicas presentados aquí para dos variables aleatorias. Los métodos
analíticos y el cálculo para realizar dichos cálculos pueden volverse bastante tediosos.
Sin embargo, el uso de un programa de computadora puede simplificar enormemente
este tipo de cálculos, así como realizar simulaciones de distribuciones complejas y sus
distribuciones derivadas. Muchos ejemplos presentados en este libro

Copyright mayo de 2007, K Seefeld 120

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
realizar la tarea de trabajar con distribuciones de alta dimensión utilizando el
poder computacional de R.

Los modelos gráficos más allá de dos variables aleatorias no son muy prácticos, por lo que, entre
otras aplicaciones, las distribuciones marginales y condicionales se usan a menudo para observar
gráficos de distribuciones de mayor dimensión, como veremos en algunos ejemplos en la
siguiente sección de este capítulo.

Distribuciones multivariables comunes


Las distribuciones de más de una variable aleatoria son extensiones de distribuciones
univariadas. Las distribuciones presentadas aquí no deberían parecer completamente
novedosas, porque se basan en distribuciones univariadas presentadas anteriormente
al incluir más de una variable aleatoria en el modelo. Una comprensión sólida de las
distribuciones binomial, normal y beta univariante (que se puede revisar en el capítulo
anterior) es la base para comprender las tres distribuciones que veremos aquí: la
multinomial, la normal multivariante y la de Dirichlet. Estas tres distribuciones se
seleccionan porque son las distribuciones multivariables clave utilizadas en el
modelado de datos en bioinformática.

La distribución multinomial

La distribución multinomial es la distribución de probabilidad discreta de alta


dimensión más utilizada. El multinomio es una extensión de la distribución
binomial. En lugar de solo dos resultados posibles (como en el caso del
binomio), el multinomio modela el caso de múltiples resultados posibles.
Considere un experimento que modela el resultado denorteensayos independientes. Cada prueba
puede resultar en cualquiera derdiferentes tipos de resultados (en comparación con solo r = 2 en
el caso binomial). La probabilidad de cualquiera de los resultados es constante, al igual que en el
modelo binomial la probabilidad de éxito y la probabilidad de fracaso se mantuvieron constantes
para un modelo en particular. Estas probabilidades se denotan por pag1,pag2,…,pagry la suma de
las probabilidades de todos los resultados suma uno, es decir pag1+pag2+…+pagr=1.

Si contamos cuántos resultados de cada tipo ocurren, tenemos un conjunto der


variables aleatoriasX1,X2,…,Xr. Cada Xj=el número de resultados de lajeltipo (donde j=1 a
r) y los recuentos reales son valores de cada variable aleatoria, indicados por Xj
=Xj,etc. Tenga en cuenta que la suma de los valores de las variables aleatorias es n, el número total
de intentos, es decirX1+X2+…+Xr=norte.

Debido a que estamos tratando con una serie de eventos independientes, cualquier
secuencia particular de resultados consta deX1del primer tipo,X2del segundo tipo, etc. y
tiene probabilidad

pagX pag2
1 1 X 2 ⋅...⋅pagXrr

Copyright mayo de 2007, K Seefeld 121

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Usando combinatoria, podemos calcular el número de posibles divisiones de n
secuencias en r grupos de tamaño x1, x2…xr con lo que se llama el coeficiente
multinomial. Esto se puede escribir como:

- norte - norte!
-- -- =
-x1,x2,...xr- x1!x2!...xr!

La combinación de estos resultados produce la distribución conjunta de los eventos


observados (una fórmula que es directamente paralela al caso binomial de dos posibles
resultados descritos en el capítulo anterior) bajo el modelo multinomial.

- norte -
X
pag(X1, 2,..., r) X =- -
1
pagXpagX
1
2
⋅...⋅ 2 pagX
r r

- X1X2...Xr-
Entre sus muchas aplicaciones en bioinformática, el modelo multinomial se usa con frecuencia
para modelar la distribución conjunta del número de genotipos observados. Cualquier número de
loci y cualquier número de alelos se puede modelar de esta manera, pero el ejemplo más simple
es el caso de observar un locus genético que tiene dos alelos, A y a. Si muestreamos n individuos
diploides en la población y registramos su genotipo en ese locus, varios individuos serán del
genotipo AA, que podemos representar como nAutomóvil club británico. Asimismo, un número de
individuos tendrá el genotipo Aa y puede ser representado por nAutomóvil club británico, y el número de
individuos de un genotipo puede representarse por nAutomóvil club británico. Para formalizar esto en un
modelo de probabilidad, podemos usar la variable aleatoria X para representar nAutomóvil club británico,
la variable aleatoria Y para representar nAutomóvil club británico, y la variable aleatoria Z para representar
nAutomóvil club británico. Podemos etiquetar estas proporciones (probabilidades) como PAutomóvil club británico,
PAGAutomóvil club británico, y PAutomóvil club británicopara cada uno de los tres posibles genotipos respectivos.

La fórmula de distribución multinomial representa la distribución conjunta de los tres genotipos


que se muestra a continuación.

¡norte! norte
norteAutomóvil club británico norteAutomóvil club británico Automóvil club británico
P(X=nAutomóvil club británico, Y=nAutomóvil club británico, Z=nAutomóvil club británico)= (PAGAutomóvil club británico
(PAG) Automóvil club británico
(PAG)Automóvil club británico)
norteAutomóvil club británico!norteAutomóvil club británico!norteAutomóvil club británico!

Dado que probablemente no desee realizar cálculos con papel y lápiz utilizando esta
fórmula, la pregunta ahora es ¿cómo trabajaría con dicho modelo en R? Claramente, los
modelos con 3 variables aleatorias no son tan fáciles de trabajar como los modelos
univariados, pero R puede manejar el análisis y la realización de simulaciones en estas
distribuciones más complicadas con bastante facilidad.

Como ejemplo, supongamos que tenemos 20 individuos y los genotipamos y encontramos que nAutomóvil club
británico=4, norteAutomóvil club británico=14, y nAutomóvil club británico=2. Dada esta información, podemos estimar
fácilmente nuestros parámetros para la distribución multinomial simplemente usando las proporciones
muestrales PAutomóvil club británico=0.2, PAGAutomóvil club británico=0.7 y PAutomóvil club británico=0.1. Dado que no tenemos
muchos datos, es difícil examinar las propiedades de este modelo. Sin embargo, usando nuestros
parámetros empíricos podemos ampliar nuestro conjunto de datos haciendo simulaciones de más

Copyright mayo de 2007, K Seefeld 122

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
valores para ver gráficos y otros detalles de la distribución. Más adelante en el capítulo 13
haremos tipos similares de simulaciones usando una técnica llamada bootstrapping.

Para realizar simulaciones, podemos escribir una función simple en R que genera valores de
las tres variables aleatorias (recuentos de genotipos) a partir de una distribución
multinomial dados los valores de los parámetros de las proporciones de cada genotipo:

# función para dibujar valores aleatorios


# de una distribución multinomial

# toma como parámetros


# # parámetro N número de simulaciones
# # el parámetro n es el número de ensayos simulados (tamaño de la muestra)
# # parámetro p es un vector de proporciones

función_rmnomial(N,n,p){
l<-longitud(p)
x<-rbinom(N,n,p[1])
si(l==2)
{cbind(x,-x+n)}
demás
{cbind(x,rmnomio(N,-x+n,p[2:1]/suma(p[2:1])))}

Para ilustrar el uso de esta función, realicemos 10 simulaciones de 20 individuos


usando nuestros parámetros empíricos para el vector de proporción.
> # # Definir N como 10 intentos
> N<-10
> # # Definir n a 20
> n<-10
> # # Definir nuestro vector p que contiene valores empíricos
> # pAA=0,2, pAa=0,7, paa=0,1
> p<-c(0.2,0.7,0.1)
> # # Función de llamada con estos parámetros, almacenar en resultados
> resultados<-rmnomio(N,n,p)

Esto produce la siguiente matriz de valores simulados de las tres variables aleatorias
que estamos modelando:
> resultados

[1,] 4 11 5
[2,] 4 13 3
[3,] 2 12 6
[4,] 3 13 4
[5,] 4 13 3
[6,] 6 11 3
[7,] 3 13 4
[8,] 4 15 1
[9,] 1 13 6
[10,] 7 7 6

Fácilmente podríamos escribir algún código para calcular las proporciones de los valores de
las variables aleatorias simuladas:

Copyright mayo de 2007, K Seefeld 123

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
> resultados2<-resultados/(resultados[,1]+resultados[,2]+resultados[,3])
> resultados2

[1,] 0,20 0,55 0,25 [2,]


0,20 0,65 0,15 [3,] 0,10
0,60 0,30 [4,] 0,15 0,65
0,20 [5,] 0,20 0,65 0,15
[6,] 0,30 0,55 0,15 [7,]
[0,10,2 0,6 8,] 0,20 0,75
0,05 [9,] 0,05 0,65 0,30
[10,] 0,35 0,35 0,30

Observar las proporciones deja más claro que los valores simulados se basan en los
parámetros de proporción empíricos (0,2,0.7,0.1) suministrados.

Podría escribir sus propias funciones como las anteriores para muestrear distribuciones
multinomiales, pero hay un paquete llamado combinat que contiene algunas funciones
preescritas para muestrear distribuciones multinomiales. Este paquete también contiene
una serie de otras funciones útiles en los cálculos combinatorios.

Tenga en cuenta que si estuviera interesado en realizar algunas pruebas estadísticas,


podría simular valores de distribuciones con parámetros alternativos y luego realizar
pruebas para determinar si los valores empíricos difieren de esta distribución teórica.
Por ejemplo, podría probar los valores empíricos contra una población teórica con
parámetros PAutomóvil club británico=0,25, PAutomóvil club británico=0.5, y PAutomóvil club británico=0,25. Esto
no se hará aquí porque requiere técnicas de estadística inferencial que aún no se han
discutido, pero se presenta aquí para ilustrar algunas de las poderosas aplicaciones
que puede realizar usando simulaciones de distribuciones.

Las distribuciones marginales para cada una de las variables aleatorias X, Y y Z pueden obtenerse
fácilmente a partir del multinomio. Supongamos que solo estamos interesados en la función de
masa de probabilidad marginal de la variable aleatoria X. Podríamos intentar encontrar la función
de masa de probabilidad marginal usando mucho álgebra desordenada o, en su lugar, considerar
el siguiente argumento.

Si solo estamos interesados en el número de resultados que dan como resultado el primer tipo, X,
luego simplemente agrupamos todos los otros tipos (Y y Z) en una categoría llamada "otros".
Ahora hemos reducido esto a una situación en la que tenemos dos resultados. Esto debería sonar
familiar, ya que ahora se ha convertido en un caso de juicios de Bernoulli. El número de veces que
aparece el genotipo X como resultado denorteensayos independientes sigue una distribución de
probabilidad binomial con parámetrosnorteypag1. Tenga en cuenta que la probabilidad de
"fracaso" = prob ("otro") = 1 -pag1=pag2+…+pagr(suma de todos los demás). Por tanto, la
distribución marginal unidimensional para una distribución multinomial es simplemente una
binomial:

Copyright mayo de 2007, K Seefeld 124

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
-norte- Xj −
pag
X j (X)j = - j(1−pag
-pag j )nxj
- Xj-
Para examinar esto más concretamente, continuemos con nuestro ejemplo y hagamos
algunas simulaciones ilustrativas. Solo que ahora preocupémonos de la primera variable, X.
En lugar de considerar las variables Y y Z, consolidémoslas en una variable W, que
representa "todo lo demás" que no es el genotipo AA, y hagamos W=X+Y=( norteAutomóvil club
británico+nAutomóvil club británico) y pW=(1-pAa-paa)=0,8. Ahora tenemos un modelo binomial que
modela X (contando las pruebas de AA como "éxitos" y todos los demás resultados como
"fracasos") solo. Usando R, simulemos esta distribución de dos maneras y comparemos los
resultados.

Primero simulemos 10,000 valores usando el modelo multinomial y las 3 variables


aleatorias. Para ello, repita la simulación descrita anteriormente pero cambiando el
parámetro N a 10.000.
> resultados<-rmnomial(10000,20,c(0.2,0.7,0.1))
> ## Cambiar resultados a proporciones
> resultados2<-resultados/(resultados[,1]+resultados[,2]+resultados[,3])
> # # Almacenar la columna 1 de resultados en X
> X<-resultados2[,1]
> # # Almacena los resultados de las columnas 2 y 3 en W
> W<-(resultados2[,2]+resultados2[,3])

Resuma los valores obteniendo las medias de X y W:


> media(X)
[1] 0.19913
> media(W)
[1] 0,80087

La media de X es aproximadamente 0,2 y la media (la proporción de "éxitos" en el


binomio) y la media de W es 0,8 (la proporción de "fracasos" en el binomio). Estos
valores deberían parecer lógicos.

Para ver el resultado visualmente, trazar las proporciones con un histograma es simple, como se
codifica a continuación y se muestra en la Figura 8-3.

> hist(X,nclass=10,main="Proposición simulada. AA usando Multinomial")

Copyright mayo de 2007, K Seefeld 125

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Figura 8-3

A modo de comparación, una simulación rápida del binomio de 10 000 valores usando p=0.2
es simple de codificar usando la función rbinom:

> # # Simular 10000 valores de binomial


> # # Simular rv para n=20 y p=0.2
> B<-rbinom(10000,20,0.2)
> # # Convertir a proporciones dividiendo por 20
> hist(B/20,nclass=10,main="Proposición simulada. AA usando Binomial")

El histograma que utiliza la simulación binomial se muestra en la figura 8-4. Debería ser
evidente a partir de los gráficos que las distribuciones en la Figura 8-3 y la Figura 8-4 son
virtualmente idénticas.

Figura 8-4

Copyright mayo de 2007, K Seefeld 126

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Distribución normal multivariante

La normal multivariada es una distribución favorita en las estadísticas multivariadas. A


menudo, los datos se transforman matemáticamente para ajustarse a un modelo
normal. Tal transformación de datos puede ser algo controvertida, porque a veces se
realizan por conveniencia y simplicidad y los resultados pueden ser engañosos o
difíciles de traducir a las variables originales. No obstante, la mayoría de las
estadísticas multivariadas inferenciales utilizan la normal multivariada. Es importante
comprender cómo se puede extender la distribución normal para incluir más de una
variable aleatoria.

Debido a que la mayoría de los aspectos matemáticos del manejo de la normal


multivariada involucran técnicas avanzadas de cálculo y álgebra matricial,
consideraremos los detalles de un solo ejemplo limitado de la normal multivariada.
Consideraremos el modelo normal bivariado, que modela la distribución conjunta de
dos variables aleatorias independientes normalmente distribuidas.

Recuerde, del capítulo anterior, la fórmula matemática para la distribución


normal:

( x−µ)2

1 2σ2
f(x) = mi
σ 2π

Podemos modelar su distribución conjunta de las dos variables aleatorias X e Y simplemente


mirando el producto de las distribuciones marginales de sus dos distribuciones marginales ya que
son variables independientes. Por lo tanto, el modelo para la distribución conjunta de dos
variables aleatorias independientes normalmente distribuidas X e Y (también conocido como: la
normal bivariada) es:

F(X,y) =FX(X)Fy(X)

Podemos escribir esto usando la ecuación de distribución normal para ambas


variables aleatorias y multiplicándolas:

( x−µ)2 ( y−µ)2
− −
1 2σ2 1 2σ2
f (x, y) = mi mi
σ 2π σ 2π

Ahora echemos un vistazo a cómo se ve esto gráficamente usando R. Reduzcamos el caso


aún más considerando solo una distribución normal bivariada estándar. Recuerde que la
distribución normal estándar tiene una media de 0 y una desviación estándar de 1. Por lo
tanto, podemos volver a escribir la ecuación anterior considerando X e Y como variables
aleatorias normales estándar, cada una con una media de 0 y una desviación estándar de 1:

Copyright mayo de 2007, K Seefeld 127

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
( x )2 ( y )2
1 −
2 1 −
2
f (x, y) = mi mi
2π 2π

Al realizar algo de álgebra, esto se puede simplificar a:

( x2 + y2 )
1 − 2
f (x, y) = mi

Esta es una ecuación bastante viable para trazar. Para hacer esto, podemos escribir una función en
R para simular extracciones de una normal estándar bivariada. En el siguiente código, creamos dos
vectores de longitud 20, x e y, y luego escribimos una función para calcular los valores de f(x,y). Los
resultados de la llamada a la función se almacenan en una matriz variable z. Luego, los datos se
pueden ver utilizando un diagrama de perspectiva tridimensional simple, presentado en la Figura
8-5.

> x<-secuencia(-2,2,longitud=20)
> y<-x
> función_bvn(x,y){
+ (1/2*pi)*exp(-0.5*(x̂ 2+y^2))
+}
> z<-x%*%t(y)
> para(i en 1:20){
+ for(j en 1:20){z[i,j]<-bvn(x[i],y[j])}}
> persp(x,y,z)

Figura 8-5: Gráfica de perspectiva de normal estándar bivariada


Distribución

La figura 8-5 tiene la forma de un cono invertido simétrico con su base en el plano XY.
A lo largo del eje X (vista frontal del gráfico), las líneas de perspectiva muestran un
patrón de distribución normal que refleja que cualquier "rebanada" del cono tendría la
forma de una distribución normal.

Copyright mayo de 2007, K Seefeld 128

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Una vez más, no tuvimos que escribir una función, porque también se pueden hacer
generaciones aleatorias de distribuciones normales multivariadas de cualquier dimensión
usando el paquete mvtnorm. Mvtnorm contiene funciones para generar valores aleatorios a
partir de todo tipo de distribuciones normales multivariadas y de distribuciones t
multivariadas relacionadas para cualquier modelo y con cualquier valor de parámetro, no
solo con valores de parámetro estándar. Usemos la función rmvnorm del paquete para
generar 1000 valores a partir de una distribución normal estándar bivariada:

> datos<-rmvnorm(1000,media=c(0,0))
> datos
[,1] [,2]
[1,] -0.9152555414 0.5950708803
[2,] -1.2240565493 0.3079036163
[3,] -1.2205942482 -0.9042616927

[999,] 2,0735458497 -1,7003787054
[1000,] -0,0962237236 0,0056516042

En nuestro resultado tenemos una matriz de datos donde la primera columna tiene valores
de variables aleatorias X de simulación normal estándar, y la segunda columna son valores
de variables aleatorias Y de una simulación normal estándar. Un diagrama de dispersión en
la figura 8-6 demuestra que la densidad conjunta tiene la forma que esperaríamos que
tuvieran los datos de una simulación normal bivariada.

Figura 8-6: Gráfica de dispersión de valores X e Y de dos variables


simulación normal estándar

Si queremos observar las distribuciones marginales de X e Y, podemos descomponer la


matriz de datos en una matriz X e Y y observar las distribuciones marginales de X e Y muy
fácilmente. Todo lo que tenemos que hacer es almacenar los valores X e Y en nuevas
variables (aunque técnicamente ni siquiera tenemos que hacer esto y podríamos haber
trazado las columnas de la matriz) y hacer un gráfico de histograma de la distribución
marginal de interés.

Copyright mayo de 2007, K Seefeld 129

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
> x<-datos[,1]
> y<-datos[,2]
> hist(x,nclase=20,principal
+ ="Distribución marginal de x")

Figura 8-7: Distribución marginal de X

Del histograma de la figura 8-7, la distribución marginal de X tiene una distribución bastante
normal. Si hiciéramos una simulación de 1000 valores de una distribución normal estándar
univariante obtendríamos un resultado prácticamente idéntico.

Distribución Dirichlet

El Dirichlet es la versión multivariable de la distribución beta. Recuerde que la


distribución beta es la distribución que a menudo se usa para modelar datos en forma
de proporciones, es decir, valores entre 0 y 1. Debería tener sentido que si está
modelando algo como las proporciones de nucleótidos en una secuencia de ADN, cada
proporción ( A, T, C, G) se pueden modelar con una variable aleatoria individual, y la
distribución conjunta de las proporciones de los cuatro nucleótidos se puede modelar
usando un Dirichlet.

Ahora denotamos por X1…Xkun conjunto de proporciones teniendo en cuenta que X1+…+Xk=
1 (y cada Xi> 0). Matemáticamente la fórmula de la distribución de Dirichlet, para k
proporciones aleatorias es:

k
Γ(∑αi) k
Xαi−1
F(X 1,X2,.. X k) = k
i=1
∏ i
∏Γ(α) i=1i
i=1

Copyright mayo de 2007, K Seefeld 130

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Aunque esta fórmula puede parecer intimidante, ¡no es tan complicada! El
Γes simplemente el símbolo de la función gamma presentada en el capítulo 6 y
utilizada en las distribuciones gamma y beta en el capítulo 7. Capitol sigma∑es el
símbolo de la suma (suma de), y el capitolio pi, Π es el símbolo de la
multiplicación. Los alfa son los parámetros para la variable aleatoria X.

La restricción sobre la distribución es que la suma de proporciones suma uno, que


k
es,∑Xi=1lo que debería parecer lógico ya que al modelar la articulación
i=1
proporciones de nucleótidos en una secuencia, por ejemplo, el total de todas las proporciones es
siempre 1. Esto sigue la ley habitual de que la probabilidad total de todos los eventos en un
espacio muestral es 1.

Como un ejemplo simple en el que podríamos usar Dirichlet, modelemos las


proporciones conjuntas de purinas (A o G) y pirimidinas (C y T) en una secuencia dada.
Usemos X1 para modelar la proporción de purinas y X2 para modelar la proporción de
pirimidinas. Usemos la elección arbitraria de alfa=1 como parámetro para X1 y alfa=2
para X2. Modelamos la proporción de purinas como p1 y la proporción de pirimidinas
como p2. Matemáticamente, con k=2 dado que se están modelando dos variables
aleatorias, el modelo de Dirichlet de distribución conjunta es:

2
Γ(∑ai)
2
F(X1,X 2) = yo=1 ∏Xα−
i i
1
2
∏Γ(αyo=1
i)
yo=1

Simplificando la expresión anterior sustituyendo los valores alfa y pi's y luego


realizar sumas y multiplicaciones produce una fórmula que no es muy
intimidante y solo involucra álgebra y el cálculo de algunas funciones
gamma:

Γ(3)
f(X ,1X 2) = (p1)1−1(pág. 2)2−1
Γ(1)Γ(2)

Tenga en cuenta que desde X2= 1-X1simplemente podríamos ver esto como una distribución
marginal de X1porque para cualquier X dado1, X2estaría completamente determinado.

Γ(3)
FX1(X)1 = (X1)1−1 (1− X1)2−1
Γ (1)Γ(2)

Copyright mayo de 2007, K Seefeld 131

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Notamos que esta es simplemente la distribución Beta para X1.con parámetros
α=α1=1, y β=α2=2. Por lo tanto, la distribución conjunta de Dirichlet para dos
proporciones aleatorias X1,X2(X1+X2= 1) es equivalente a la distribución Beta
univariante para X1solo. Aunque en este ejemplo solo se modelan dos variables
aleatorias y el modelo es bastante sencillo, cuando se modelan más variables
aleatorias, el Dirichlet puede volverse bastante complejo. Debido a que calcular las
funciones gamma en esta ecuación puede ser computacionalmente intenso (incluso
para computadoras de bastante alta potencia), a veces la distribución se evalúa
tomando logaritmos (lo que la hace más eficiente desde el punto de vista
computacional). En realidad, no importa qué base use para sus cálculos de registro,
siempre que sea consistente. El lado derecho del modelo de Dirichlet se puede calcular
usando logaritmos como este:

k k k
= registro (Γ( ∑αi))-registro (∏Γ(α )) +registro (∏X α
i
1
i −i )
i=1 i=1
yo=1

Otra peculiaridad de cálculo de la distribución de Dirichlet es que es más sencillo tomar


muestras de Dirichlet indirectamente mediante el uso de un método que extrae k muestras
gamma independientes y luego calcula proporciones aleatorias (Xi) como el valor de cada
muestra dividido por la suma de las k muestras. Se puede demostrar que las proporciones
X1,..,Xk tienen una distribución de Dirichlet. No discutiremos los detalles matemáticos de
esto aquí, pero en los programas de computadora y en la literatura verá que se simula a
Dirichlet utilizando sorteos de la distribución gamma, por lo que es interesante notar esto
aquí y este truco se usa en el ejemplo de código a continuación.

Para simular desde Dirichlet en R, podría escribir su propia función. El siguiente


código da un ejemplo de una función que simula n sorteos con un vector de
parámetros de p:
rDir_function(n,a){
l<-longitud(a)
m<-matriz(nrow=n,ncol=p)
for(i en 1:p){m[,i]<-rgamma(n,a[i])} sum<-
m%*%rep(1,p)
m/as.vector(suma)
}

Usar esta función para simular valores para n=20 con un vector de parámetros
(valores alfa) para 3 variables aleatorias donde alfa=1 para las tres variables produce
una matriz de resultados donde cada columna representa simulaciones para cada
variable aleatoria:
x<-rDir(20,c(1,1,1))
>x
[,1] [,2] [,3]
)

Copyright mayo de 2007, K Seefeld 132

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
De nuevo, no es necesario escribir una función para realizar simulaciones, porque el
paquete gregmisc contiene funciones escritas previamente para calcular la densidad o
generar valores aleatorios a partir de la distribución de Dirichlet. Realizar el mismo
cálculo que el anterior usando la función rdirichlet de este paquete produce lo
siguiente:
> x <- rdirichlet(20, c(1,1,1) )
>x
[,1] [,2] [,3]
[1,] 0.742226607 0.034630906 0.22310302 [2,]
0.61271253 0.359267638 0.02801983 [3,]
0.20446723 0.180993424 0.61453934 [4,]
0.77386208 0.004850972222222222220095.

Volvamos a nuestro ejemplo de modelar la distribución conjunta de la proporción


de purinas y pirimidinas y simulemos 1000 valores usando la función rdirichlet:

> x<-rdirichlet(1000,c(1,2))

Si observamos los valores medios simulados para p1 y p2, estas son las proporciones
simuladas de x1 purinas y x2 pirimidinas dado que nuestros parámetros alfa=1 y
alfa=2.
> media(x[,1])
[1] 0.3354725
> media(x[,2])
[1] 0,6645275

Cada proporción tiene una distribución marginal. Si graficamos el marginal de x[ ,1] obtenemos lo
siguiente como se muestra en la figura 8-8:

> hist(x[,1],nclass=20,main="Marginal de x[,1]")

Figura 8-8

Copyright mayo de 2007, K Seefeld 133

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
Del mismo modo, si trazamos el marginal de x[,2], obtenemos el gráfico de la figura 8-9

Figura 8-9

El Dirichlet a veces se usa solo, pero se usa ampliamente en las estadísticas


bayesianas junto con la distribución multinomial para formar modelos poderosos
para trabajar con conteos y datos de proporciones. Aquí es importante
comprender los conceptos básicos de Dirichlet y su modelo matemático y cómo
dibujar simulaciones de Dirichlet usando R.

Con base en las discusiones de los capítulos 6, 7 y 8, debe tener una comprensión de los
conceptos básicos de la teoría de la probabilidad y una sensación para trabajar con
distribuciones univariadas y algunas distribuciones seleccionadas de más de una variable. Si
puede comprender los diferentes modelos, para qué se usan, cómo realizar simulaciones y
cómo analizar gráficamente los resultados, debe estar preparado para utilizar estas
capacidades en algunas aplicaciones más avanzadas. Los siguientes capítulos contienen una
introducción a las estadísticas bayesianas y una descripción general de los métodos de la
Cadena de Markov, y las próximas discusiones se basarán en los conceptos y métodos
presentados hasta ahora.

Copyright mayo de 2007, K Seefeld 134

Permiso otorgado para reproducir para uso educativo sin fines de lucro.
9
Una introducción a los datos bayesianos
Análisis

El capítulo 6 introdujo la discusión de las estadísticas bayesianas al analizar las dos principales
escuelas de pensamiento en estadística. Hablamos de que las estadísticas frecuentistas son el tipo
histórico principal de estadística que generalmente se enseña en el curso de introducción a la
estadística y que el bayesiano es una escuela de pensamiento estadístico que se basa en los
métodos frecuentistas pero incorpora el pensamiento subjetivo y objetivo sobre la probabilidad.

Sobre la base de los conceptos de probabilidad y modelos presentados en los capítulos 6 a


8, este capítulo presenta la forma bayesiana de pensar sobre los modelos de datos y
presenta algunos ejemplos básicos de cómo trabajar con modelos bayesianos en R. La
cobertura aquí es principalmente conceptual y solo sirve como una breve introducción al
extenso mundo de la estadística bayesiana. El objetivo principal es proporcionar una base
para comprender los métodos computacionalmente intensos (usando R) presentados en el
Capítulo 10 que utilizan la teoría bayesiana y son de uso creciente en aplicaciones en
bioinformática. Estos métodos se aplicarán en los Capítulos 11 y 12 en el estudio de los
métodos de la Cadena de Markov.

A veces hay una ruptura, incluso en ocasiones denominada guerra santa, entre los estadísticos
para ser frecuentistas o bayesianos y luchar por la causa de sus creencias. Este libro no presenta
una visión sesgada de que ningún enfoque sea superior al otro, sino que presenta cada punto de
vista en términos de fortalezas y utiliza el enfoque que probablemente sea más útil en las
aplicaciones bioinformáticas discutidas. Para las aplicaciones de los capítulos 10, 11 y 12, los
métodos bayesianos se ven favorecidos por muchas razones, de las cuales se analizan los aspectos
más destacados. Sin embargo, después del Capítulo 12, volveremos a trabajar con estadísticas
frecuentistas para estudiar cómo usar R para

Copyright mayo de 2007, K Seefeld 135

Permiso otorgado para reproducir para uso educativo sin fines de lucro.

También podría gustarte