Está en la página 1de 47

Distribucion Conjunta y Marginal

MARCO TEÓRICO

La mayoría de las cuestiones económicas implican a dos o más


variables. ¿Tienen los graduados universitarios más probabilidad de
obtener un empleo que los no graduados? ¿Cómo es la distribución de la
renta de las mujeres comparada con la de los hombres? Estas preguntas
atañen a las distribuciones de dos variables aleatorias, considerándolas
de forma conjunta (educación y status laboral en el primer ejemplo, renta
y género en el segundo).
Las respuestas a esas preguntas requieren la comprensión de los
conceptos de distribuciones de probabilidad conjunta, marginal y
condicional.
DISTRIBUCIONES CONJUNTA Y MARGINAL

Distribución conjunta.
La distribución de probabilidad conjunta de dos variables aleatorias discretas, X e Y, es la
probabilidad de que las dos variables aleatorias tomen valores concretos de forma simultánea, x e y.
Las probabilidades de todas las posibles combinaciones (x, y) suman 1. La distribución de
probabilidad puede escribirse como la función Pr (X = x, Y = y). Por ejemplo, las condiciones
meteorológicas —si está lloviendo o no— afectan al tiempo de desplazamiento de la estudiante que
se desplazaba. Sea Y una variable aleatoria binaria que es igual a 1 si el desplazamiento es corto
(menos de 20 minutos) e igual a 0 en otro caso y sea X una variable aleatoria binaria que es igual a
0 si llueve y 1 si no. Entre estas dos variables aleatorias, existen cuatro posibles resultados: lluvia y
tiempo de desplazamiento largo (X=0, Y =0); lluvia y tiempo de desplazamiento corto (X=0, Y=1);
sin lluvia y tiempo de desplazamiento largo (X =1, Y =0); y sin lluvia y tiempo de desplazamiento
corto (X=1, Y=1).
La distribución de probabilidad conjunta es la frecuencia con la que ocurre cada uno de estos sucesos
a lo largo de muchas repeticiones de desplazamientos. Se ofrece un ejemplo de una distribución
conjunta de esas dos variables en la Tabla a continuación. De acuerdo con esta distribución, a lo largo
de muchos desplazamientos, el 15 % de los días llueve y los desplazamientos son largos (X=0, Y=0);
es decir, la probabilidad de un desplazamiento largo y con lluvia es del 15 %, o Pr (X=0, Y=0) = 0,15.
Además, Pr (X=0, Y=1) = 0,15, Pr (X=1, Y=0) = 0,07, y Pr (X=1, Y=1) = 0,63. Estos cuatro posibles
resultados son mutuamente excluyentes y constituyen el espacio muestral y por tanto las cuatro
posibilidades suman 1.
DISTRIBUCIÓN DE PROBABILIDAD MARGINAL.

La distribución de probabilidad marginal de una variable aleatoria Y es solo otro nombre para su distribución de
probabilidad. Este término se utiliza para distinguir la distribución de Y en solitario (la distribución marginal) de la
distribución conjunta de Y y otra variable aleatoria.
La distribución marginal de Y puede calcularse a partir de la distribución conjunta de X e Y sumando todas las
probabilidades de todos los resultados posibles para los cuales Y toma un valor particular. Si X puede tomar l
diferentes valores x1, x2, ..., xl, entonces la probabilidad marginal de que Y tome el valor y es

Por ejemplo, en la Tabla anterior, la probabilidad de un desplazamiento largo y lluvioso es del 15 % y la probabilidad
de un desplazamiento largo sin lluvia es del 7 %, por tanto, la probabilidad de un desplazamiento largo (lluvioso o no)
es del 22 %. La distribución marginal del tiempo de desplazamiento se recoge en la columna final de la Tabla antes
presentada. De forma similar, la probabilidad marginal de lluvia es del 30 %, como se muestra en la última fila de la
Tabla.
(WATSON, 2012)
PROPIEDADES
PROPIEDADES

lo cual es imposible ya que una probabilidad no puede ser negativa. Por lo tanto, es necesario añadir la
condición de que el segundo miembro de la relación, a continuación, no sea negativo para ninguna
colección de números a < b, c < d.
Teorema

Una función F (x, y) es la distribución conjunta de un par de variables aleatorias si y solo si


satisface las propiedades 1, 2 y 3 y además para cualesquiera a < b, c < d,

A partir de la función de distribución conjunta FX, Y de dos variables aleatorias


es posible obtener las funciones de distribución Fx y Fy correspondientes a las
variables X e Y. En efecto, para cualquier x ∈ R tenemos

y de manera similar, para cualquier y ∈ R


Las funciones FX y FY se conocen como las funciones de distribución
marginales de X e Y, respectivamente.

(ORTEGA, 2010)
EJEMPLOS
DISTRIBUCIÓN CONJUNTA
En una Financiera, se consideran variables aleatorias :
= Número de préstamos solicitados diariamente
= Número de solicitudes rechazadas diariamente, tal que su distribución de
probabilidad conjunta es:

Determine el número no esperado de solicitudes rechazadas


diariamente, cuando el número de préstamos solicitados en el día es
=0* +1* +2* +3* +4*
máximo.
E(y/x =3) = 0,9492
SOLUCIÓN:
Lo primero es definir el número de préstamos solicitados en el día
cuando este es máximo, esto se puede definir por simple inspección, Respuesta: El número esperado de solicitudes rechazadas
cuyo resultado es tres, por lo tanto, creamos una tabla con probabilidad diariamente, cuando el número de préstamos solicitados en el
de número de préstamos solicitados diariamente, dado que el número día es máximo, es igual a 0, 9492.
de solicitudes rechazadas diariamente sea igual a tres.
En seguida procedemos a determinar el número esperado de solicitudes
rechazadas diariamente:
Ejercicio 2

Sean X e Y variables aleatorias discretas con la distribución


conjunta siguiente:
Ejercicio 3:
Cierto supermercado tiene una caja de salida común y una caja rápida, Luego debemos representar la probabilidad de la
en que es el número de clientes que están esperando en la caja común, fila ?3 tenga por lo menos dos clientes más que la
en un momento particular del día, y es el número de clientes que están fila ?2 , lo que está dado por :
esperando en la caja rápida, al mismo tiempo, suponga que la función de
probabilidad conjunta de X1 y X2 es la siguiente:
P(?1≥ ?2 + 2) = P( ?1 = 2 ; ?2 = 0) + P( ?1=3 ; ?2 =0) +
P( ?1 =4 ; ?2=0) + P( ?1 =3 ; ?2= 1) +P( ?1= 4 ; ?2 = 1) +
P( ?1 = 4 ; ?2 = 2 )

Y el otro caso está dado por :

1) Calcule la probabilidad de que haya por lo menos dos clientes más P( ?1 + 2 ≤ ?2 ) = P ( ?1 =0 ; ?2 =2 ) + P( ?1 = 0 ; ?2 = 3 )


en una línea de espera que en la otra. + P( ?1 = 1 ; ?2 = 3 )
2) Si se sabe que en la caja común hay dos personas esperando, ¿Cuál
es el número esperado de clientes que están en la caja rápida? Finalmente calculando la suma de estas
Desarrollo probabilidades, tenemos:
3) Lo primero será definir las variables a utilizar:
?1 = número de clientes que esperan caja común P (?1 ≥ 7 ; ?2 + 2 ) + P( ?1 +2 ≤ ?2 ) = 0.05 + 0.03+
?2 = número de clientes que esperan caja rápida O.01 + 0.05 + 0.04 + 0.04 = 0.22
RESPUESTA: La probabilidad de que haya por lo menos dos clientes mas en una línea de espera que en
la otra corresponde a 0.22

Calculamos el valor esperado:


E(?2/?1 =2) = 0*0.20 + 1*0.16 + 2*0.40 + 3*0.24
= 1.68

Respuesta : si en la caja común hay dos personas esperando, entonces el numero esperado de clientes que
están en la caja rápida es 1.68
Distribución Condicional
En los temas anteriores estudiados establecimos que el valor x de la variable
aleatoria X representa un evento que es un subconjunto del espacio muestral. Si
utilizamos la definición de probabilidad condicional que la estudiamos con
anterioridad.

donde A y B son ahora los eventos definidos por X =x, y Y = y, respectivamente,


entonces

donde X y Y son variables aleatorias discretas.


No es difícil mostrar que la función que es estrictamente una función de y
con x, fija, satisface todas las condiciones de una distribución de probabilidad.
Esto también es cierto cuando son la densidad conjunta y la distribución
marginal, respectivamente, de variables aleatorias continuas. Como resultado
es muy importante que utilicemos el tipo especial de distribución de la forma
con la finalidad de ser capaces de calcular probabilidades condicionales de
manera eficaz. Este tipo de distribución se llama distribución de probabilidad
condicional; la definición condicional es la siguiente.
Sea X y Y dos variables aleatorias, discretas o continuas. La distribución condicional de la variable
aleatoria Y, dado que X=x, es:

De manera similar la distribución condicional de la variable aleatoria X, dado que Y=y, es:

Si deseamos encontrar la probabilidad de que la variable aleatoria X caiga entre a y b cuando se sabe
que la variable discreta Y=y, evaluamos:

Donde la sumatoria se extiende a todos los valores de X entre a y b. Cuando X y Y son continuas,
evaluamos:
EJEMPLO
Se seleccionan al azar 2 repuestos para un bolígrafo de una caja que contiene 3 repuestos
azules, 2 rojos y 3 verdes. Si X es el número de repuestos azules y Y es el número de repuestos
rojos seleccionados.
La función de probabilidad conjunta de este ejercicio es:

Con referencia al ejercicio anterior, encuentre la distribución condicional de X, dado que Y = 1, y


utilícela para determinar P (X = 0|Y = 1).
Necesitamos encontrar f(x|y), donde y = 1. Primero, encontramos que:

Por lo tanto,

Y la distribución condicional de X, dado que Y=1, es:


Finalmente,

Por lo tanto, si se sabe que 1 de los 2 repuestos seleccionados es rojo, tenemos una
probabilidad igual a 1/2 de que el otro repuesto no sea azul.
FUNCION DE DENSIDAD CONJUNTA

El estudio de variables aleatorias y su distribución de probabilidad, en lo


aprendido anteriormente ha estado restringido a espacios muéstrales
unidimensionales en los que registramos los resultados asumidos por una
sola variable en un experimento. Sin embargo habrá situaciones en las que
convenga registrar resultados simultáneos de diferentes variables
aleatorias.
Se dice que dos variables aleatorias X e Y tienen una distribución continua
conjunta si existe una función NO negativa f definida sobre todo el plano xy
tal que para cualquier subconjunto A del plano
Variables Conjuntas
Objetivo: conocerá el variable aleatoria conjunta y podrá analizar el comportamiento
probabilista, conjunta e individualmente, de las variables a través de su distribución, e
identificará relaciones de dependencia entre dichas variables.
1. Variables aleatorias conjuntas discretas: Función de probabilidad conjunta, su definición
y propiedades. Funciones marginales de probabilidad. Funciones condicionales de
probabilidad.
2. Variables aleatorias conjuntas continuas: Función de densidad conjunta, su definición y
propiedades. Funciones marginales de densidad. Funciones condicionales de densidad.
3. Valor esperado de una función de dos o más variables aleatorias. Valor esperado
condicional.
4. Variables aleatorias independientes. Covariancia, Correlación, y sus propiedades. Variancia
de una suma de dos o más variables aleatorias.
5. Distribución normal bivariada.
VARIABLES CONJUNTAS

Función de probabilidad conjunta,


su definición y propiedades.
VARIABLES CONJUNTAS
En muchas ocasiones se requiere analizar el comportamiento probabilístico
de dos o más variables aleatorias simultáneamente, esto es la probabilidad
de su intersección.

Consideremos la probabilidad de la intersección de los eventos A y B, si


asociamos X al evento A y Y al evento B respectivamente y X e Y son discretas,
la función de probabilidad conjunta se denota como

donde x e y son todos los posibles resultados del evento A y del evento B
respectivamente. Lo anterior puede extenderse a un número mayor de variables
aleatorias la función de probabilidad conjunta en tal caso se puede denotar como:

P(x1, x2, x3, …xn) donde n es el número de variables aleatorias involucradas


VARIABLES CONJUNTAS
Para que una función distribución de probabilidad conjunta de dos
variables aleatorias X y Y sea considerada como tal, debe cumplir lo
siguiente:

Si X e Y son discretas Si X e Y son continuas

i j

∞ ∞

i j
∀i ∀j –∞ –∞

d b

𝑃 𝑎 ≤ 𝑋 ≤ 𝑏, 𝑐 ≤ 𝑌 ≤ 𝑑 = ƒ ƒ 𝑓 𝑥, 𝑦
𝑑𝑥𝑑𝑦
c a
VARIABLES ALEATORIAS CONJUNTAS
Distribución de probabilidad acumulativa conjunta:

Si X e Y son discretas Si X e Y son continuas

y x

Σ Σ 𝑃
𝑡, 𝑢 –∞ –∞
∀u≤y ∀t≤x
VARIABLES ALEATORIAS CONJUNTAS
Distribuciones de probabilidad marginales:

Si X e Y son discretas Si X e Y son continuas

Σ 𝑃 x
𝑥, 𝑦 –∞
∀y

Σ 𝑃
𝑥, 𝑦 y
∀x –∞
VARIABLES ALEATORIAS CONJUNTAS
Ejemplo 1:

Un fabricante de bombas para agua, somete sus productos terminados a una revisión final. Se le han
presentado dos tipos de defecto: eléctrico (en 3 diferentes componentes) y mecánico (en 2 diferentes
componentes), el número de cada tipo de defecto corresponderá a una variable; X a la ocurrencia de defectos
eléctricos e Y a la ocurrencia de defectos mecánicos.

El resultado de la revisión de 20 bombas se muestra en la tabla siguiente:

x 0 1 2 3
f(x,y) y
0 8 3 2 1
8
20 20 20 20
20
1 3 1
20 20
3
2 2
3 20 2 20
20 1 20 1
2 20 20
X
20
1
0 1 2 3
a) Verificar que se trata de una distribución de probabilidad.
3
2
b) Encontrar la distribución marginal de X y la de Y.
c) Encontrar las distribuciones condicionales de X dado Y y de
Y
Y dado X.
VARIABLES ALEATORIAS CONJUNTAS
Ejemplo 2:
Una compañía distribuidora de música grabada, tiene para venta discos compactos y cintas. Considerando que X representa la
venta de discos compactos y Y representa la venta de cintas y suponiendo que f(x, y) representa la función distribución de
probabilidad de venta conjunta.:
La unidad representa la venta de

f (x, y) { 3xy, 0x1,


0yx 0, en
1000 discos durante un mes.

otro caso
= f(x,y)

(0,0,3)
a) Verificar que se trata de una
distribución de probabilidad.
(1,0,2)

b) Encontrar la distribución
marginal de X y la de Y.
(1,1,1
) c) Encontrar las distribuciones
(1,0,0)

0
X condicionales de X dado Y y de Y
(1,1,0)
dado X.
Y
y=x
VALOR ESPERADO DE UNA FUNCIÓN DOS VA CONJUNTAS

Si h(x, y) es una función de las VA conjuntas X e Y, entonces:

Si X e Y son discretas Si X e Y son continuas

∞ ∞

–∞ –∞
∀y ∀K

Valor esperado de la suma de dos funciones de las VA conjuntas X e Y

E {h(x, y)  g (x, y)} = E {h (x, y) }  E


{g (x, y)}
CURVA DE REGRESIÓN
Si X e Y son dos VA conjuntas, entonces, la curva de regresión de X nos muestra el grado de asociación existente entre
las dos variables, sin presuponer alguna relación causa efecto:

La curva de regresión se define como la esperanza matemática de Y dado X, esto es:


–∞
Donde es la función de densidad condicional de
Y dado X

Ejemplo 3:

Para el ejemplo de la distribuidora de música, encontrar y dibujar la curva de regresión:


COVARIANZA

La covarianza de dos VA conjuntas X e Y se define como:

Caso particular: si
entonces:

Y en este caso se dice que las VA X e Y son estadísticamente


independientes.
VARIANZA DE LA SUMA DE DOS VARIABLES ALEATORIAS
Sean X y Y dos variables aleatorias y f(x, y) su distribución de probabilidad conjunta, también
considérense a y b dos constantes.
Deseamos obtener la variancia de la función aX + bY

Aplicamos la definición de varianza: Var[aX + bY]=E[(aX +

bY)2]= ?

Ejercicio de clase: Desarrollar… y encontrar la expresión correcta:

Var[aX + bY]=a2V[X]+b2V[Y]+2Cov[X,Y]
Caso particular: si X y Y son independientes, entonces: Cov[X,Y]=0 y Var[aX + bY]=a2V[X]+b2V[Y]
Covarianza

Hacemos una gráfica de dispersión que nos muestra como se relacionan las dos variables.

Supongamos que tenemos dos variables y las graficamos, con los valores de una en el eje
horizontal y los valores de la otra en el eje vertical. Podemos ver que cuando aumenta el valor
de una, el de la otra también aumenta, esto se conoce como covarianza, es decir co-varian, o
varían juntas.
Covarianza:
La covarianza es importante por que nos permite analizar la relación lineal
entre dos variables. Es una medida de la asociación lineal entre las
variables. Cuando trabajamos con la covarianza lo que nos interesa es el
signo del resultado, pues nos indica el tipo de relación que existe. No
verificamos la fuerza de esa relación sólo su dirección.

La covarianza puede ser positiva,


como en la primera imagen. Pero
también podemos tener una
covarianza negativa, en este caso
mientras una variable aumenta su
valor, la otra lo disminuye
Si el valor del cálculo de la covarianza
es 0 o cercano a cero, entonces no
podemos definir si el cambio en una
variable provoca se relaciona con
algún tipo de cambio en la otra.
Las formulas para calcular la
covarianza son las siguientes:
Si calculamos la covarianza de todas las variables contra todas, obtenemos una matriz
conocida como matriz de covarianza. Aquí tenemos un ejemplo:
Matriz de covarianza

No debemos de olvidar que no lo que nos interesa es el signo y no la magnitud del valor.
La varianza y covarianza se usan en relaciones lineales, por lo que siempre es conveniente
hacer una gráfica para ver si existe o no una relación lineal.
Veamos algunas gráficas y es bueno compararlas contra signo, observamos que
gráficamente podemos distinguir bien si hay relación lineal o no. Hay que recordar que
valores cercanos a cero también nos indican como se relacionan las variables.
Correlación:
La covarianza tiene cierto parecido con la correlación. En la
correlación también observamos como se comportan
entres si dos variables pero con ésta tanto la dirección
como la magnitud nos dan datos útiles. La dirección la
obtenemos por medio del signo y el valor de la magnitud se
encuentra entre -1 a 1. Entre más grande sea el valor
absoluto de la correlación, nos indica que esas variables se
relacionan más fuertemente. No hay que olvidar que la
correlación solo se aplica a relaciones lineales.
En el mundo real no tendremos datos que se comporten exactamente como una línea recta,
la mayoría luce como la gráfica que tenemos a la izquierda.

Para calcular el coeficiente de correlación hacemos


uso de la covarianza y la desviación estándar

Existen varias formas de calcular la correlación, la más utilizada es el coeficiente de correlación de


Pearson. Si calculamos la correlación de todas las variables contra todas obtenemos una matriz
de correlaciones. Python tiene varias bibliotecas que nos pueden servir para desplegarlas y
hacerlas más fácil de leer. Veamos un par de ejemplos.
Matriz de correlación creada por Pandas
Matriz de correlación representada con Seaborn

La correlación nos indica una magnitud de la


relación entre las variables. Muchas veces se
considera que un valor de 0.7 en adelante indica
que hay una correlación que podemos tomar en
cuenta.
En otras ocasiones si el valor absoluto de la
correlación es mayor o igual 2 sobre raíz de n,
donde n es la cantidad de observaciones, se
considera que hay una correlación importante.

Encontrar una valor importante adentro de la


matriz, puede tomar algo de tiempo si tenemos
muchas variables, por lo que es mejor desplegarla
mostrando únicamente aquellos valores que nos
pueden resultar interesantes.
Observamos sólo los valores más interesantes
Otros tipos de correlación que se pueden
utilizar son Spearman y Kendall. Spearman
se usa para evaluar relaciones que
involucran variables ordinales.
También se usa para hacer el test de una
hipótesis nula de la independencia entre dos
variables, pero es difícil de interpretar cuando
se rechaza la hipótesis nula. La correlación
de Kendall, mejora esto por que muestra la
fuerza de la dependencia entre las variables
que se comparan.
Como ejemplo de los valores calculados,
veamos la matriz de correlación de Pearson,
Spearman y Kendall.
Conclusiones

Tenemos varias herramientas para conocer como se relacionan las


variables. Es importante hacer una exploración con una gráfica de
dispersión para identificar si hay una relación lineal, aunque existen otros
métodos, luego dependiendo de lo que necesitemos podemos usar el
cálculo de covarianza o de correlación si queremos saber que tan fuerte es
esa relación.
TRABAJO EN EQUIPO

ELABORAR UNA MAPA CONCEPTUAL DE DISTRIBUCION CONJUNTA,


MARGINAL Y CONDICIONAL, DEMOSTRANDO CON UN EJEMPLO

ELABORAR UNA MAPA CONCEPTUAL DE COVARIANZA Y


CORRELACION DEMOSTRANDO CON UN EJEMPLO

También podría gustarte