Está en la página 1de 166

Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Tema 1

Estructuras sobre las partes de un conjunto

En el momento de elaborar una teoría matemática, generalmente lo


primero que suele hacerse es definir unas estructuras, sobre las que
desarrollar la teoría. En Teoría de la Medida se definen unas
estructuras que por sí mismas tienen interés, pero fundamentalmente
lo tienen cuando son utilizadas precisamente en Teoría de la Medida.
Estas estructuras comienzan a definirse a partir de las operaciones
conjuntistas de unión, intersección, complementación, etc., luego con
operaciones analíticas como las de paso al límite y por último con la
utilización de propiedades topológicas.

Sucesiones de conjuntos

Sea Ω un conjunto fijo que en lo sucesivo se denominará espacio total.


Considérese el conjunto P(Ω ) de las partes de Ω.

Recibirá el nombre de sucesión de conjuntos toda aplicación de N en

P(Ω).

Se representará por {A n }n∈N ⊂ P(Ω).

Definición (Límite inferior)

Se denomina limite inferior de la sucesión {An }n∈ N y se representa por lim

1
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

inf An = lim An, al conjunto de puntos de Ω que pertenecen a todos los An,
excepto a lo sumo a un número finito de ellos.

También se puede definir como el conjunto de puntos de Ω cuyos


elementos pertenecen a todos los An desde un n en adelante.

Definición (Límite superior)

Se denomina limite superior de la sucesión {An }n∈ N y se representa por

lim sup An = lim An, al conjunto de puntos de Ω que pertenecen a infinitos


A n.

Obsérvese que las dos definiciones anteriores caracterizan a dos


conjuntos que pueden ser distintos. Así, por ejemplo, un punto que
pertenece solamente a los conjuntos {A2 n }n∈ N es un punto que pertenece
al lim sup An; pero que no pertenece al lim inf An, puesto que no
pertenece a un número infinito de An: a todos los {A2 n −1 }n∈ N .

Las definiciones de límite superior e inferior de una sucesión no son


muy operativas, por ello se va a caracterizar tanto el lim inf An como el
lim sup An en términos de las uniones e intersecciones de los conjuntos
An. Como más tarde se verá, serán muy útiles desde el punto de vista
del cálculo de probabilidades.

Proposición

Sea {An }n∈ N una sucesión de conjuntos. Se cumple:

∞ ∞
lim inf A n = UIA n
k =1 n = k
∞ ∞
lim sup A n = IUA n
k =1 n = k
2
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Proposición

Para toda sucesión {A n }n∈N ⊂ P(Ω) se verifica que

lim A n ⊂ lim An
n →∞ n →∞

Obsérvese que se puede demostrar a partir de la propia definición de


límite superior e inferior. Si un punto w pertenece al límite inferior de
An, pertenece a todos los An excepto quizá a un número ffinito de ellos.
Entonces pertenece a infinitos An y por tanto pertenece al límite
superior de An.

Definición (Sucesión convergente)

Se dice que la sucesión {An }n∈N ⊂ P(Ω) es convergente si y sólo si

limA = limA
n n
n→∞ n→∞

y en este caso, el límite de la sucesión {An }n∈N ⊂ P(Ω) es

lim A = lim A = lim A


n→∞
n
n→∞
n
n→∞
n

Definición (Sucesión monótona)

La sucesión {An }n∈N es monótona creciente o expansiva y se indica por

3
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

An ↑ si y sólo si ∀n ∈ N ,
An ⊂ An +1

La sucesión {An }n∈N es monótona decreciente o contractiva y se indica por

An ↓ si y sólo si ∀n ∈ N , An ⊃ An +1

Proposición
Toda sucesión monótona creciente o decreciente tiene límite.

Estructuras con subconjuntos

Estructura de Semianillo
Dado el espacio total Ω, una clase C ⊂ P(Ω) tiene estructura de
semianillo si y sólo si
a. ∅∈ C
b. ∀A, B ∈ C es A∩B∈ C
c. ∀A, B ∈ C , ∃ una sucesión finita C1, C2,…,Cn ∈ C con Ci ∩Cj = ∅, ∀i
≠j tal que A-B = ∪Cj

Propiedades
1. ∀B ∈ C y ∀ C1, C2,…,Cn ∈ C, ∃ A1, A2,…,Am ∈ C con Ai ∩Aj=∅, ∀i ≠j
n m
tales que B - UCi = UA j
i=1 j=1

2. Cualesquiera que sean C1, C2,…,Cn ∈ C, ∃ A1, A2,…,Am ∈ C con


Ai ∩Aj=∅, ∀i ≠j tales que
n m

UC = UA
i =1
i
j=1
j

4
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

3. Cualesquiera que sean C1, C2,…,Cn ∈ C se tiene que C1∩


C2∩…∩Cn ∈ C

Estructura de Anillo
Dado el espacio total Ω, una clase R ⊂ P(Ω) tiene estructura de anillo si
y sólo si
a. ∀A, B ∈ R es A∩B∈ R
b. ∀A, B ∈ R se tiene AΔB = (A-B)∪(B-A) ∈ R

Propiedades
1. ∀ A1, A2,…,An∈ R se tiene que ∪Ai ∈ R
2. ∀A, B ∈ R se tiene A-B ∈ R
3. Todo anillo es semianillo
4. La intersección de anillos es un anillo

Estructura de álgebra
Dado el espacio total Ω, una clase Q ⊂ P(Ω) tiene estructura de álgebra
si y sólo si
a. Ω ∈ Q
b. ∀A ∈ Q ⇒ Ac ∈ Q
c. ∀A, B ∈ Q ⇒A ∪B ∈ Q

Propiedades
1. ∀A, B ∈ Q se tiene que A∩B ∈ Q
2. ∀A, B ∈ Q se tiene que A-B ∈ Q
3. ∀A, B ∈ Q se tiene que AΔB ∈ Q
4. Para cualquier sucesión finita A1, A2,…,An con Ai ∈ Q , i=1,…,n, se

5
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

tiene que ∪Ai ∈ Q


5. Todo álgebra es un anillo

Estructura de σ-álgebra
Dado el espacio total Ω, una clase A ⊂ P(Ω) tiene estructura de σ-
álgebra si y sólo si
a. Ω ∈ A
b. ∀A ∈ A ⇒ Ac ∈ A

c. Dada cualquier sucesión {An }n∈N ∈ A se verifica ∪An ∈ A

Propiedades
1. ∅ ∈ A

2. Para cualquier sucesión {An }n∈N con An ∈ A para todo n ∈ N, se

tiene ∩ An ∈ A
3. Para cualquier sucesión finita A1, A2,…,An con Ai ∈ A , i=1,…,n, se
tiene que ∪ Ai ∈ A
4. Para cualquier sucesión finita A1, A2,…,An con Ai ∈ A , i=1,…,n, se
tiene que ∩ Ai ∈ A
5. Toda σ-álgebra es un álgebra
6. Todo álgebra con un número finito de elementos es σ-álgebra
7. Toda σ-álgebra es cerrada respecto de la operación paso al límite
para cualquier sucesión
8. La intersección de σ-álgebras definidas sobre el mismo espacio
total es una σ-álgebra
9. Dada una clase B ⊂ P(Ω) existe una mínima σ-álgebra que la
contiene. Ésta será la intersección de todas las σ-álgebras que
contengan a B. Se indicará por σ( B )

6
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Observación: La unión de dos σ-álgebras puede no ser σ-álgebra

Estructura de Clase Monótona


Dado el espacio total Ω, una clase M ⊂ P(Ω) tiene estructura de clase
monótona si y sólo si es cerrada bajo la operación paso al límite para
sucesiones monótonas de subconjuntos de M.

Propiedades
1. La intersección de dos clases monótonas, del mismo espacio total
es otra clase monótona
2. La intersección de una familia arbitraria de clases monótonas es
clase monótona
3. Dada una clase B ⊂ P(Ω) siempre existirá una mínima clase
monótona que contenga a B . Se denotará por M(B ). Será la
intersección de todas las clases monótonas que contengan a B.
4. Toda σ-álgebra es clase monótona
5. Toda clase monótona que sea álgebra , es σ-álgebra
6. A ⊂ P(Ω) es σ-álgebra si y sólo si A ⊂ P(Ω) es álgebra y clase
monótona

σ-álgebra engendrada por una clase


La σ-álgebra engendrada por una clase B ⊂ P(Ω) es la σ-álgebra más
pequeña que contiene a B que se representa por σ( B ).

Espacio medible
Al par (Ω, A), donde A ⊂ P(Ω) es una σ-álgebra se le denomina espacio
medible o espacio probabizable. A los elementos de A se les llama
conjuntos medibles.

7
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

σ-álgebra de Borel
Sea (Ω, T) un espacio topológico. Se llama σ-álgebra de Borel a la
σ-álgebra engendrada por los abiertos de la topología.

Sea Ω=R y C la clase formada por todos los intervalos de la forma (-


∞,a]. A la σ-álgebra engendrada por C, σ( C ), se la llama σ-álgebra de
Borel sobre la recta real y a sus elementos Borelianos. Se representa
por B.

Bibliografía:
“Teoría de la Probabilidad”. Pilar Ibarrola, Leandro Pardo y Vicente
Quesada. Editorial Síntesis S.A.
“Curso básico de Cálculo de Probabilidades”. V. Quesada y A. García
Pérez. Ediciones ICE.

8
Tema 2
Probabilidad

En la práctica, para estudiar los fenómenos


(informáticos, industriales, económicos, climáticos,..)
procedemos mediante experimentos (en laboratorio,
simulación por ordenador,...). Los experimentos se
pueden clasificar en deterministas o aleatorios.
Experimento aleatorio
Por experimento entendemos cualquier acción que
pueda dar lugar a resultados identificables.
Un experimento que da lugar siempre al mismo
resultado, recibe el nombre de experimento
determinista.
Un experimento que pueda dar lugar a varios
resultados, sin que sea posible anunciar con certeza
cuál de éstos va a ser observado, recibe el nombre de
experimento aleatorio.
Los experimentos aleatorios tienen tres propiedades:
1. Los posibles resultados del experimento aleatorio
son conocidos previamente.
2. No se puede predecir de antemano el resultado
del mismo.
3. Realizado en condiciones análogas puede dar
lugar a resultados distintos en cada experiencia
particular.
Ejemplo
Experimento aleatorio: lanzamiento de una moneda
Experimento determinista: el fenómeno de los días y
las noches

Al realizar un experimento aleatorio es fundamental


especificar qué aspectos del resultado nos interesan,
es decir, cuando vamos a considerar dos resultados
como distintos. Estas especificaciones se consiguen
por medio del espacio muestral.

Espacio muestral
Llamaremos espacio muestral, Ω, al conjunto de
todos los posibles resultados de un experimento
aleatorio.
Hay que tener en cuenta que un mismo experimento
puede dar lugar a diferentes espacios muestrales.
Ejemplo
Experimento aleatorio: lanzamiento de un dado
- Interés: resultado numérico, Ω=⎨1, 2, 3, 4, 5, 6⎬
- Interés: resultado múltiplo de 2, Ω=⎨par, impar⎬
Los espacios muestrales pueden ser finitos o infinitos.

Sucesos
Un suceso es un subconjunto del espacio muestral.
Los sucesos pueden se elementales o compuestos.
Los sucesos elementales son aquellos subconjuntos
del espacio muestral que están formados por un
único elemento, es decir, son cada uno de los
elementos del espacio muestral o lo que es lo mismo
cada uno de los resultados del experimento aleatorio.
Son sucesos que no se pueden descomponer en otros
más sencillos.
A los sucesos que son unión de sucesos elementales
se les llama sucesos compuestos o, simplemente,
sucesos.
Ejemplo
Lanzamiento de un dado:
- El suceso sale un 2 es un suceso elemental
- El suceso sale par es un suceso compuesto

OPERACIONES CON SUCESOS


Podemos definir como Partes de Ω, P(Ω), que reúne a
todos los subconjuntos del espacio muestral

Ejemplo
Todos los posibles subconjuntos de Ω al realizar una
tirada con el dado:

P(Ω)= {Φ,{l},...,{6}; {1,2}, {1,3},..., {5,6}; ...; {1,2,3,4,5}, ...,


{2,3,4,5,6};Ω }.

La estructura de P(Ω) agrupa a todos los posibles


subconjuntos de Ω, y de él forman parte el propio Ω,
llamado suceso seguro, y el suceso que no contiene
ningún resultado elemental, al que llamaremos
suceso imposible y designaremos por Φ.

Se pueden establecer relaciones entre los distintos


sucesos de P(Ω), definidas por las siguientes
operaciones:
• La intersección de dos sucesos A y B es otro
suceso que acontece cuando suceden
simultáneamente A y B, y se representa por A∩B.
Lo constituyen aquellos sucesos elementales que
forman a la vez parte de A y de B (Figura 2.1), y
viene definido por

A∩B = { ω∈Ω / (ω∈Α)∧(ω∈Β)}


Si no hay sucesos con esta propiedad, A∩B = Φ; se
dice que A y B son dos sucesos incompatibles
(Figura 2.2).
Ω A∩B
Ω
A B

A B

Figura 2.1 Figura 2.2

• La unión de dos sucesos A y B es un suceso que


tiene lugar cuando acontece al menos uno de
esos sucesos y se representa por A∪B (Figura
2.3). Viene definido por:

A∪B = {ω∈Ω/(ω∈Α)∨(ω∈Β)}.

• El contrario de un suceso A es un suceso que


tiene lugar cuando no ocurre A y se representa
por A, de forma que en cualquier realización del
experimento sucede A o A, pero nunca los dos a
la vez (Figura 2.4). Es decir,

A ={ω∈Ω/ω∉Α}

Se verifica que
A ∪Α=Ω; A ∩Α=∅
Ω Ω
A∪Β

A A

A B

Figura 2.3 Figura 2.4

Ω A-B
Ω ΑΔΒ

B
A B A B

Figura 2.5 Figura 2.6

• La diferencia entre A y B es un suceso que


acontece cuando sucede A pero no B y se
representará por A - B. Se puede expresar

también por A ∩ B (Figura 2.5). Viene definido


por:

A - B={ω∈Ω/(ω∈Α)∧(ω∉Β)}

• La diferencia simétrica entre A y B es el suceso


que acontece cuando ocurre uno de los sucesos A
o B pero no los dos simultáneamente y se
representa por AΔB (Figura 2.6). Viene definido
por:

ΑΔΒ={ω∈Ω/(ω∈Α∪Β)∧(ω∉Α∩Β)}

• Un suceso A contenido en otro B acontece


cuando siempre que ocurre A ocurre B y se
representa por Α⊂Β. (Figura 2.7)
Ω
A⊂B

Figura 2.7

Propiedades de la unión e intersección de sucesos

9 Asociativa: A∪(B∪C)=(A∪B)∪C
9

A∩(B∩C)=(A∩B)∩C
9 Distributiva: A∩(B∪C)=(A∩B)∪(A∩C)
9

A A∪(B∩C)=(A∪B)∩(A∪C)
Observación.- A efectos de simplificación en
desarrollos prácticos se utilizan las denominadas
leyes de Morgan:

1. A = A
2. A∩B= A∪B
3. A∪B = A∩B

Ejemplo
Sea el espacio muestral Ω=⎨1, 2, 3, 4, 5, 6⎬ asociado
a un experimento aleatorio y sean A=⎨1, 2, 3, 4 ⎬ y
B=⎨1, 2, 5, 6⎬ dos sucesos. Se tiene:
- A∪B= Ω=⎨1, 2, 3, 4, 5, 6⎬
- A∩B=⎨1, 2⎬
- Ac=⎨5, 6⎬
- A-B=⎨3, 4⎬
- AΔB=⎨3, 4, 5, 6⎬
La clase de sucesos asociada a un experimento
aleatorio tiene estructura de álgebra de Boole, que
llamaremos Algebra de Boole de sucesos. Si el
número de sucesos es numerable entonces este
álgebra recibe el nombre de σ-álgebra de sucesos
(contiene a la sucesión infinita de sucesos, a la unión
numerable y a la intersección numerable).
El par (Ω, A ) con Ω espacio muestral y A la clase de
sucesos con estructura de σ-álgebra, es un espacio
probabilizable.

AXIOMÁTICA DEL CÁLCULO DE PROBABILIDADES


El objetivo de la probabilidad es cuantificar la
incertidumbre con la que aparecen los distintos
sucesos de un fenómeno aleatorio.
La probabilidad es la medida del grado de
incertidumbre consustancial a cada suceso, de
manera que al no poder conocer de antemano y con
certeza cuál va a ser el resultado del fenómeno
aleatorio, al menos se intenta cuantificar qué
posibilidades tiene de presentarse cada uno de los
sucesos.
Numerosas aplicaciones tiene la probabilidad: en la
ingeniería, por ejemplo, la fiabilidad de sistemas. La
fiabilidad de un sistema (desde una simple resistencia
o condensador hasta complejos sistemas como un
ordenador o red de ordenadores) la mediremos como
la probabilidad de que dicho sistema funcione
correctamente durante un período de tiempo
determinado o tiempo de misión; en los sistemas
informáticos la transmisión de la información es un
fenómeno aleatorio y la probabilidad se encargará de
medirnos la incertidumbre con qué se pueden
presentar los distintos sucesos a considerar, en la
genética,…

AXIOMAS DE LA PROBABILIDAD
Son varios los autores que han establecido axiomas
susceptibles de tener un desarrollo matemático que
nos permitan construir un modelo adecuado para el
estudio de las regularidades que se observan en las
series de frecuencias correspondientes a los
fenómenos aleatorios.
Entre las axiomáticas establecidas será la de
Kolmogorov la que nos sirva de fundamento en toda
la teoría que posteriormente veremos.

Axiomática de Kolmogorov
Sea (Ω, A ) un espacio probabilizable. Definimos una
función de conjunto P mediante una aplicación de A
sobre R que cumple los siguientes axiomas:
Axioma 1: ∀Α∈ A , Ρ(Α)≥0
Axioma 2: Ρ(Ω)=1
Axioma 3: ∀Α,Β∈ A /Α∩Β=∅, Ρ(Α∪B)=Ρ(Α)+Ρ(Β)
Axioma 3 generalizado A1,...,An,.. ∈ A / Αi∩Αj=∅,
⎛∞ ⎞ ∞
P⎜⎜UAi ⎟⎟ = ∑P( Ai )
⎝ i=1 ⎠ i=1

Esta aplicación permite asociar a cada suceso A un


número real P(A), siendo P(A) la incertidumbre con
que ocurrirá el suceso A en el experimento aleatorio.
Se denomina medida de probabilidad sobre el espacio
probabilizable (Ω, A ).

El primer axioma establece que la probabilidad de


cualquier suceso debe ser mayor o igual que cero.
El segundo axioma establece que la probabilidad del
suceso seguro es uno.
Por último, el tercer axioma establece que para
sucesos incompatibles la probabilidad del suceso
unión es la suma de las probabilidades de cada uno
de los sucesos.

Observación.-Los axiomas no determinan las


probabilidades, éstas se asignan basándose en
nuestro conocimiento del sistema bajo estudio a
través de las probabilidades iniciales. Sin embargo los
axiomas permiten calcular las probabilidades de
algunos sucesos a partir de otras ya conocidas.

Consecuencias de los axiomas de la probabilidad:

1. P(∅)=0.

2. P(Ac)= 1 - P(A).

3. Si A,B ∈A , Α⊂Β (A implica B) ⇒P(A)≤ P(B).


A implica B (notado A⊂B) cuando ∀ω∈Α, ω∈Β

4. P (A)≤1, ∀Α ∈A.

Propiedades

Las siguientes propiedades fundamentales de la


probabilidad se deducen de los axiomas y sus
consecuencias.

Propiedad 1

Sea un experimento aleatorio cualquiera con espacio


muestral Ω y dos sucesos cualesquiera de este
experimento A, B∈A.. Entonces

P(A∪B) = P(A) + P(B) - P(A∩B). (2.1)

Demostración.

Para poder aplicar el axioma 3 es necesario expresar


la unión de estos dos sucesos compatibles como
unión de sucesos incompatibles, lo que nos lleva a
que

A∪B = (A - B) ∪ (A ∩ B) ∪ (B - A)

Por tanto, según el axioma 3 resulta que


P(A∪B) = P(A - B) + P(A ∩ B) + P(B - A)
(2
.2)

Por otra parte, se tiene que

A = (A - B) ∪ (A ∩ B) y B = (B - A) ∪ (A ∩ B)

es decir, se ha expresado cada uno de los sucesos A y


B considerados como unión de sucesos
incompatibles, lo que permite utilizar de nuevo el
axioma 3 para obtener

P(A) = P(A - B) + P(A ∩ B) y P(B) = P(B - A) + P(A


∩ B)

de donde se deduce que

P(A - B) = P(A) - P(A ∩ B)


(2.3)

P(B - A) = P(B) - P(A ∩ B)


(2.4)

Sustituyendo (2.3) y (2.4) en la expresión (2.2),


resulta que

P(A ∪ B) = P(A) - P(A ∩ B) + P(A ∩ B) + P(B) - P(A ∩ B)

= P(A) + P(B) - P(A ∩ B)

Propiedad 2
Sea un experimento aleatorio cualquiera con espacio
muestral Ω. Sean tres sucesos cualesquiera de este
experimento A, B, C∈A; entonces

P(A∪B∪C)=P(A)+P(B)+P(C)-P(A∩B)-P(A∩C)-P(B∩C)+P(A∩B∩C)

(2.5)

Demostración.

Hacedla como ejercicio, aplicando la propiedad Pl a


los sucesos A∪B y C. Después aplicar sucesivamente
esa propiedad a la unión de los pares de sucesos que
resulten al aplicar la propiedad distributiva de la
intersección respecto de la unión.
Propiedad 3

Sea un experimento aleatorio cualquiera con espacio


muestral Ω. Sean n sucesos cualesquiera de este
experimento Al,A2,...,An∈A; entonces

⎛ n ⎞
P ⎜⎜ U Ai ⎟⎟ = P1 − P2 + P3 − P4 + ... + (− 1) Pn (2.6 )
n −1

⎝ i =1 ⎠
donde
n
P1 = ∑ P ( Ai )
i =1

P2 = ∑ P (A
1≤i1 <i2 ≤ n
i1 ∩ Ai2 )
P3 = ∑ P (A
1≤i1 <i2 <i3 ≤ n
i1 ∩ Ai2 ∩ Ai3 )
KK K KK K KK K KK K K
Demostración.

Por inducción. Hacedla como ejercicio.

Propiedad 4

Sea un experimento aleatorio cualquiera con espacio


muestral Ω. Sean dos sucesos cualesquiera de este
experimento A, B∈A; entonces

P(A - B) = P(A) - P(A ∩ B) (2.7)

Demostración.

Se trata de la fórmula (2.3) que ha quedado


demostrada en la propiedad 1.

Propiedad 5
Sea un experimento aleatorio cualquiera con espacio
muestral Ω. Sean dos sucesos cualesquiera de este
experimento A, B∈A; entonces

P(A Δ B) = P(A) + P(B) - 2. P(A ∩ B) (2.8)

Demostración.

Se trata de la fórmula (2.3) y (2.4) que han quedado


demostradas en la demostración de la propiedad 1.

Ejemplo
Un fabricante de cables eléctricos para ordenadores
conoce de informaciones anteriores sobre la
producción de estos cables que el 1.5 % de todos los
cables fabricados son no conformes a especificaciones
de longitud, el 1.2 % son defectuosos en cuanto al
espesor y el 0.8 % son no conformes en ambas
medidas. Sean los sucesos

A: un cable seleccionado al azar es no conforme a


especificaciones por su longitud
B: un cable seleccionado al azar es no conforme a
especificaciones por su espesor

Expresar los siguientes sucesos en términos de A y B,


calculando sus probabilidades.

a) Alguna de las medidas de longitud o espesor de un


cable son no conformes a especificaciones.

b) En un cable ninguna de las dos medidas


consideradas se encuentra fuera de las
especificaciones.

c) En un cable la longitud es no conforme a


especificaciones, pero el espesor sí.

d) Un cable es no conforme a especificaciones en


cuanto a longitud o a espesor, pero no en cuanto a
ambas medidas.

a) Se trata del suceso A ∪ B. Su probabilidad será

P(A∪B)=P(A)+P(B)-P(A∩B)=0.015+0.012-0.008=0.019
lo que significa que el 1.9 % de los cables fabricados
por esta empresa son no conformes a especificaciones
en alguna de las dos medidas consideradas, longitud
o espesor.

b) En este caso el suceso a considerar es A ∩ B . Su


probabilidad se determinará utilizando la
consecuencia 2 de los axiomas de la probabilidad y la
segunda de las leyes de Morgan, resultando que

P( A ∩ B ) = 1 - P(A ∪ B) = 1- 0.019 = 0.981

lo que nos indica que hay una probabilidad de 0.981


de que en un cable ninguna de las dos medidas
consideradas se encuentra fuera de las
especificaciones.

c) Se trata del suceso A - B. Su probabilidad será

P(A - B) = P(A) - P(A ∩ B) = 0.0 15 - 0.008 = 0.007

lo que nos informa que en el 0.7 % de los cables


fabricados por esta empresa el espesor es conforme a
especificaciones, pero la longitud no.
d) Ahora el suceso a considerar es la diferencia
simétrica entre A y B, AΔB. Su probabilidad se
determinará utilizando la consecuencia 2 de los
axiomas de la probabilidad y la segunda de las leyes
de Morgan, resultando que

P(AΔB)=P(A)+P(B)-2P(A∩B)=P(A∪B)-P(A∩B)=0.019-0.00
8= 0.011
lo que nos indica que hay una probabilidad de 0.011
de que un cable sea no conforme a especificaciones
en cuanto a longitud o a espesor, pero no en cuanto a
ambas medidas.

ESPACIO PROBABILÍSTICO
El trío (Ω, A , P) donde Ω espacio muestral, A una σ-
álgebra de sucesos y P una medida de probabilidad
sobre A , recibe el nombre de espacio probabilístico o
espacio de probabilidad.

Sea (Ω, A , P) un espacio probabilístico, y sea una


sucesión An de A.

Proposición
Si An ↑, P(lim An)=limP(An)
Si An ↓, P(lim An)=limP(An)
Proposición
Para toda sucesión An de A se verifica que
P(lim inf An)≤lim inf An≤lim sup An≤P(lim sup An)

MÉTODOS PARA ESTABLECER LAS


PROBABILIDADES INICIALES

En términos generales, la teoría matemática de la


probabilidad pretende calcular nuevas probabilidades
tomando unas probabilidades iniciales dadas, sin
interesarse por la forma en que fueron obtenidas
dichas probabilidades. Para llegar a tales
probabilidades iniciales hay tres métodos o criterios
que pasamos a analizar.

1) Método de Laplace (basado en consideraciones


teóricas y lógicas)

Se utiliza en aquellos casos en que es plausible


admitir el siguiente postulado.

Postulado de Indiferencia.

Sea un experimento aleatorio cualquiera con espacio


muestral Ω. Si Ω se puede descomponer en n sucesos
elementales incompatibles dos a dos (A1,A2,...,An⊂Ω
n

tales que Ω= U Ai y Ai ∩ A j = ∅, i≠j) y equiprobables,


i =1

resultará que

⎛n ⎞ n
1 = P(Ω) = P ⎜⎜ U Ai ⎟⎟ = ∑ P( Ai ) = np
⎝ i =1 ⎠ i =1

de donde

p = P ( Ai ) =
1
, ∀Ai ⊂ Ω suceso elemental
n

Entonces se verifica que para cualquier B⊂Ω /


k

Β= U A i se tiene que
i =1

P (B ) =
k n º de sucesos elementale s en B
=
n n º de sucesos elementale s en Ω

que es la conocida regla que estableció el marqués de


Laplace, en 1812, para afirmar que "bajo el postulado
de indiferencia, la probabilidad de un suceso es el
cociente entre casos favorables a dicho suceso y casos
posibles del experimento, considerados éstos como
equiprobables e incompatibles dos a dos".

Por ejemplo, en el experimento aleatorio de lanzar un


dado y observar su resultado, resulta que
P ( par ) =
n º de sucesos elementale s favorables a par 3 1
= =
n º de sucesos elementale s en Ω 6 2

mientras que

a 3&
P (3& ) =
n º de sucesos elementale s favorables 2 1
= =
n º de sucesos elementale s en Ω 6 3

Una aplicación más compleja y, a la vez, más


interesante, se muestra en el siguiente ejemplo.

Ejemplo (Problema de los Cumpleaños)

En un grupo de N personas, ¿con qué probabilidad al


menos dos personas tienen la misma fecha de
cumpleaños? Evaluar y comentar dicha probabilidad
para N = 10, 20, 30, 40 y 50.
Sea el suceso

A: en un grupo de N personas al menos dos personas


tienen la misma fecha de cumpleaños
El suceso contrario será
Ac: en un grupo de N personas todas tienen fechas de
cumpleaños distintas.

Por tanto,
P (A ) =
n º de formas de presentarse en N personas fechas diferentes de cumpleañ
nº de formas de presentarse en N personas las fechas de sus cumpleaño

Es decir,

Card (A )
P (A ) =
Card (Ω )

Para obtener el cardinal de Ω pensamos en un


diagrama en árbol. La 1ª persona tiene 365 días para
su fecha de cumpleaños, por cada una de estas
formas hay, también, 365 días para la fecha de
cumpleaños de la 2ª persona y, así, sucesivamente.
Por tanto,

Card(Ω)= 365x365x .... x365 = 365 = RV365, N

En el caso del cardinal de A pensamos, también, en


términos de un diagrama en árbol. La 1ª persona
tiene 365 días para su fecha de cumpleaños, por cada
una de estas formas hay 364 días para la fecha de
cumpleaños de la 2ª persona. Luego, para que dos
personas tengan fechas de cumpleaños distintas hay
365.364 posibilidades. Por cada una de éstas, nos
encontraremos con 363 días para la fecha de
cumpleaños de la 3ª persona, de manera que así las
tres tengan fechas distintas. Siguiendo con este
razonamiento, resulta que

Card( A ) = 365.364 .... (365 - (N – l)) = V365, N

Por tanto,
365⋅ 364⋅ ...⋅ (365− (N −1))
P(A) =
365N

de donde se obtiene que la probabilidad pedida es

365 ⋅ 364 ⋅ ... ⋅ (365 − ( N − 1))


P(A) = 1 - P (A ) = 1 −
365 N

La evaluación de estas probabilidades para N = 10,


20, 30, 40 y 50; se puede ver en la siguiente tabla.

N 10 20 23 30 40 50
P(A) 0.12 0.41 0.51 0.71 0.89 0.97

2) Método Frecuencial u Objetivista (basado en la

interpretación frecuencial de la probabilidad)

La frecuencia absoluta de un suceso al realizar un


experimento aleatorio, repetido de forma
independiente N veces, es el número n de apariciones
del suceso. La frecuencia relativa del suceso es el
cociente entre la frecuencia absoluta, n, y el número
de veces que se ha repetido el experimento, N.
Se toma como probabilidad de un suceso la
frecuencia relativa del mismo en una serie de
experimentos suficientemente grandes. Es decir, al
ser

n( A)
P( A) = lim = lim fr( A)
N →∞ N N →∞

resulta que

P(A)≅fr(A),

a partir de un número suficientemente grande de


experiencias.
Este método excluye a todos aquellos sucesos que no
pueden repetirse. Además, a diferencia del método de
Laplace, no es necesario que los sucesos sean
equiprobables.
Ejemplo

Al lanzar un dado, calcular experimentalmente la


probabilidad de que el resultado sea 6.

Nº de
10 20 30 40 ... 200 300 400 500 600
lanzam.
fr(6) .07 .15 .19 .12 ... .15 .15 .14 .16 .16
3) Método Bayesiano o Subjetivista (basado en el

grado de certidumbre)

Se toma como probabilidad de un suceso una medida


subjetiva del grado de confianza en que se produzca
el suceso en cuestión, basada en la experiencia y
cantidad de información.
Se suele utilizar cuando el experimento no puede
repetirse o carece de sentido la repetición.
Cuando un experimento puede repetirse, suele
combinarse el método frecuencial con el bayesiano.

PROBABILIDAD CONDICIONADA

Introducción

Sea un experimento aleatorio consistente en lanzar


un dado 50 veces. Consideremos los siguientes
subconjuntos A: resultados múltiplos de 3 y B:
resultados pares, de los cuales se tiene la siguiente
información en términos de frecuencia absoluta

nA = 10, nB = 20, n{6}= 8 con A∩B={6}, n{3} = 2.


B
Veamos la frecuencia con que han aparecido
resultados múltiplos de 3, de entre los lanzamientos
con resultado par.

n A∩ B 8
f(A/B) = = = 0 .4
nB 20
Es decir, se considera un experimento aleatorio que
realizamos N veces, dados dos sucesos determinados
A y B, sea nA∩B el número de veces que han ocurrido
B

los dos sucesos, queremos determinar la frecuencia


relativa del suceso B teniendo en cuenta únicamente
las veces que ocurrió el suceso A, esta frecuencia
relativa la podríamos llamar frecuencia relativa de B
condicionada a la ocurrencia del suceso A, vendrá
dada por
n A∩ B
n A∩ B f
fB/ A = = N = A∩ B
nA nA fA
N

La frecuencia relativa de B condicionada a A es el


cociente entre la frecuencia relativa del suceso
intersección y la frecuencia relativa del suceso A,
siempre que ésta no sea cero.
El comportamiento anterior de la frecuencia relativa
condicionada nos indica la manera de definir la
probabilidad condicionada.
Consideremos ahora que lanzamos un dado y
tenemos las dos situaciones siguientes: acertar si el
resultado es 2, o acertar si el resultado es 2 sabiendo
que ha salido un número par. No cabe duda que las
dos situaciones son distintas en cuanto a nuestra
certidumbre de ganar, pues parece más fácil lograrlo
en la segunda situación que en la primera.
La probabilidad de obtener un 2 es 1/6. Si sabemos
que ha salido par, la probabilidad de 2 es 1/3.
La diferencia se debe que en el segundo caso existe
información adicional frente al primero en el que no
hay tal información. Si no existe información, el
espacio muestral es
1 2 3
4 5 6
Y si existe (saber que ha salido par), el espacio
muestral se reduce a
1 2 3
4 5 6
La presencia de información tiene como consecuencia
la reducción del espacio muestral: los 6 casos
posibles se convierten en 3.

DEFINICIÓN DE PROBABILIDAD CONDICIONADA.


PROPIEDADES

Sea un espacio muestral Ω, y un suceso B con P(B)>0.


Entonces ∀Α⊂Ω se define la probabilidad
condicionada de A por B, notándose por P(A/B), al
número real

P( A∩ B)
P( A/ B) = con P(B) > 0
P(B)

P( A∩ B)
Análogamente, P( B / A) = con P( A) > 0
P( A)
En la probabilidad condicionada P(A/B) el suceso A se
llama suceso condicionado, B se llama suceso
condicionante y representa la probabilidad de que
ocurra A sabiendo que ha ocurrido el suceso B.

Se puede observar que la probabilidad condicionada


cumple los axiomas de una probabilidad. En efecto:
P( A ∩ B)
1) P( A/ B) =
P(B)
con P(B) > 0 es el cociente de dos

números no negativos por lo que es no negativo.

P(Ω ∩ B) P(B)
2) P(Ω / B) = P(B)
=
P(B)
=1

3) Si A1, A2 son incompatibles, tenemos

P(( A1 ∪ A2 ) ∩ B) P(( A1 ∩ B) ∪ ( A2 ∩ B)) P( A1 ∩ B) + P( A2 ∩ B)


P( A1 ∪ A2 / B) = = =
P(B) P(B) P(B)
P( A1 ∩ B) P( A2 ∩ B)
= + = P( A1 / B) + P( A2 / B)
(
PB ) (
PB )

donde la segunda igualdad se debe a aplicar la


propiedad distributiva de las operaciones unión e
intersección de sucesos y la tercera por ser la unión
de dos sucesos incompatibles.

Ejemplo

La multinacional ELECTROWORLD fabrica placas de


circuito impreso para ordenadores. El Departamento
de Calidad de la empresa, en su último informe,
obtuvo los siguientes resultados:

A: placas no conformes a superficie y B: placas no


conformes a espesor.
P(A) = 0.015; P(B) = 0.012; P(A∩B) = 0.008

Se pide calcular las probabilidades condicionadas de


A/B y B/A e interpretarlas.

P( A ∩ B) 0.008
P( A / B) = = = 0.67
P(B) 0.012

El 67% de las placas no conformes en espesor


tampoco lo son en superficie.

P( A ∩ B) 0.008
P(B / A) = = = 0.53
P( A) 0.015

El 53% de las placas no conformes en superficie


también lo son en espesor. Por tanto, es más probable
ser defectuosa en superficie sabiendo que lo es en
espesor, que ser defectuosa en espesor sabiendo que
es defectuosa en superficie.

Propiedades

Sea un experimento aleatorio cualquiera con espacio


muestral Ω. Consideremos que ha ocurrido el suceso
B, con lo cual nos situamos en el experimento
aleatorio condicionado por B. Sean tres sucesos
cualesquiera A, B, C. Entonces se cumple:
1. P(B/B)=1

2. P(∅/B)=0

3. P(A/B)=1-P(A/B)

4. P(A∪C)/B)= P(A/B) + P(C/B) –


P(A∩C)/B).

PROBABILIDAD DE LA INTERSECCIÓN DE DOS


SUCESOS

Sea un experimento aleatorio con espacio muestral Ω


y sean A y B dos sucesos. Entonces

P(A∩B) = P(A)P(B/A) = P(B)P(A/B)

INDEPENDENCIA

Sucesos Dependientes e Independientes

Sea un experimento aleatorio con espacio muestral Ω.


Sean A,B dos sucesos.

DEFINICION

Si P(A/B) = P(A) se dice que A es independiente de B


(la información de que se ha dado el suceso B no
modifica la probabilidad que tiene el suceso A de
ocurrir sin conocer dicha información). Entonces
P(B/A) = P(B), con lo cual B es independiente de A, y
se dice que A y B son independientes.

Respectivamente, si P(A/B) ≠ P(A) se dice que A es


dependíente de B (la información de que ocurrió el
suceso B modifica la probabilidad que tiene el suceso
A de ocurrir sin conocer dicha información). Entonces
P(B/A) ≠ P(B), con lo cual B es dependiente de A, y
se dice que A y B son dependientes.

Ejemplo

Sea el experimento aleatorio de extraer al azar una


carta de la baraja española, de 40 cartas. Analizar la
independencia de los siguientes sucesos.

1) A: sacar copas y B: sacar figura.

P(A) = 10/40 = 0.25 P(A/B) = 3/12 =


0.25

El conocimiento de que ocurrió B no influye en la


probabilidad de A. Así, A y B son independientes.

2) B: sacar figura y C: sacar rey.

P(C / B) = 4/12 =1/3 =0.3 P(C) = 4/40=0.1


El saber que ha ocurrido el suceso B sí influye en la
probabilidad de C, luego C es dependiente de B.

PROPIEDAD (Caracterización de la independencia)

Sea un experimento aleatorio con espacio muestral Ω.


Sean dos sucesos A, B. Entonces

A y B independientes ⇔ P(A ∩ B)=P(A) P(B).


A y B dependientes ⇔ P(A ∩ B)≠P(A) P(B).

TEOREMA

Sea un experimento aleatorio con espacio muestral Ω.


Sean dos sucesos A, B. Entonces son equivalentes las
siguientes afirmaciones:

I. A y B son independientes.

II. A y B son independientes.

III. A y B son independientes.

IV. A y B son independientes.


Ejercicio

Demostrad alguna de las equivalencias en este


teorema. Poned un ejemplo práctico de utilización de
este teorema.

Conceptos de Independencia entre Más de Dos


Sucesos

Sucesos independientes por parejas

Sea un experimento aleatorio con espacio muestral Ω


y tres sucesos A, B, C. Se dice que A, B y C son
independientes por parejas o dos a dos cuando:

a. P(A∩B) = P(A) P(B) (A y B independientes)


b. P(A∩C) = P(A) P(C) (A y C independientes)

c. P(B∩C) = P(B) P(C) (B y C independientes)

Sucesos mutuamente independientes

Sea un experimento aleatorio con espacio muestral Ω


y tres sucesos A, B, C. Se dice que A, B y C son
mutuamente independientes o completamente
independientes o simplemente independientes
cuando:
a. A, B y C son independientes por parejas (3
condiciones).

b. Ρ(Α∩Β∩C)=Ρ(Α)Ρ(Β)Ρ(C) (1 condición).

Conclusiones

Si A, B y C son "mutuamente” independientes


⇒Α∪B y C son independientes. No se verifica si son
independientes por parejas.

La independencia mutua implica independencia


por parejas.

La independencia por parejas no implica la


independencia mutua.

Probabilidad de la Intersección de Varios Sucesos

Sea un experimento aleatorio cualquiera, con espacio


muestral Ω. Sean tres sucesos cualesquiera A, B, C.
Entonces se cumple:

P(A∩B∩C)=P(A)P(B/A)P(C/(A∩B)) con P(A∩B) > 0.

Por otra parte, para n sucesos tenemos

P(A1∩A2∩...∩An)=P(A1)P(A2/A1)P(A3/(A1∩A2))……...P(An
/(A1∩...∩An-1)),
con tal que P(A1∩...∩An-1 ) > 0.

De manera que

⎛ n ⎞ n
P⎜⎜ I Ai ⎟⎟ = ∏ P( Ai ) si y sólo si A1,...,An son sucesos
⎝ i =1 ⎠ i =1
mutuamente independientes.

TEOREMAS DE LA PROBABILIDAD TOTAL Y DE


BAYES

Teorema de la probabilidad total

Consideremos un conjunto de sucesos {Ai}i=1,...,n tales


que cumplen las dos condiciones siguientes:
n

a) U Ai = Ω
i =1

b) Ai ∩ Aj = Φ, i ≠ j, i, j = 1,...,n

Un conjunto de sucesos con estas dos propiedades


recibe el nombre de sistema completo de sucesos.

Sea ahora un suceso cualquiera B y un sistema


completo de sucesos {Ai}i=1,...,n tales que P(Ai)>0 para
todo valor de i, el Teorema de la probabilidad total
establece que:
n
P(B ) = ∑ P( Ai )P(B / Ai )
i =1

Es decir, si el suceso B puede ocurrir por alguna de


las causas Ai, la probabilidad de que ocurra es la
suma de las probabilidades de las causas por la
probabilidad del suceso B condicionado a la causa Ai.
El teorema puede extenderse a una sucesión
numerable de sucesos disjuntos.

Demostración

Se deja como ejercicio.)Con

Teorema de Bayes CC

Bajo las mismas condiciones del teorema anterior,


consideramos que estamos interesados en conocer la
probabilidad de que ocurrido el suceso B la causa que
lo haya producido sea la Aj. Expresado
analíticamente, queremos calcular P(Aj/B).
El Teorema de Bayes establece que:

P(A j )P(B / A j )
P(A j / B ) = n

∑ P( A )P(B / A )
i =1
i i

Demostración
Se deja como ejercicio.

Cuantifica cómo se modifican las probabilidades a


priori cuando se dispone de información en el
experimento. Tanto las probabilidades a priori como a
posteriori siempre suman 1. Se entiende por
probabilidades a posteriori a P(Ai/B), siendo las
probabilidades a priori P(Aj).

Ejemplo

La empresa Kassan Cars fabrica coches de gama


media, y en su fábrica de Madrid tiene 3 líneas de
producción:

- lª produce un 4% defectuosos; fabricando un 30%


del total.

- 2ª produce un 6% defectuosos; fabricando un 20%


del total.

- 3ª produce un 1% defectuosos; fabricando un 50%


del total.

Sean los sucesos Ai: un vehículo ha sido fabricado en


la línea i-ésima de esta fábrica, para i = 1, 2, 3.
P(A1) = 0.3; P(A2) = 0.2; P(A3) = 0.5; de forma que {A1,
A2, A3} son una partición o clasificación del espacio
muestral Ω.

Sea el suceso B: un automóvil fabricado en la factoría


es defectuoso.

P(B/A1) = 0,04 ; P(B/A2) = 0,06 ; P(B/A3) = 0,01 son


verosimilitudes (Iikelihood), al indicarnos lo verosímil
que es la ocurrencia del suceso B por cada una de las
tres causas Al, A2, A3

Las verosimilitudes no suman necesariamente 1.

a) Calculad la probabilidad de que un coche fabricado


por Kassan Cars sea defectuoso.

P(B) =
P(B∩Ω)=Ρ(Β∩(Α1∪Α2∪Α3))=Ρ((Β∩Α1)∪(Β∩Α2)∪(Β∩A3))

= ∑ P ( Ai ∩ B ) =0.029
i =1

P(B) = 2.9% = 0,029. Porcentaje total de coches


defectuosos fabricados en la factoría.

b) Sabiendo que un coche es defectuoso, calculad la


línea más probable donde se ha fabricado.
P(A1/B)=P(A2/B)=0.4138
P(A3/B)=0.1724

Sabiendo que un coche es defectuoso, tiene un 41%


de probabilidad de pertenecer a la primera línea, e
idéntica probabilidad a la segunda, y a la tercera sólo
un 17%.

Elementos Teóricos

Sea un experimento aleatorio con espacio muestral Ω.


Sea
{Al, ... An} una clasificación o partición de Ω (sucesos
incompatibles cuya unión es el espacio muestral) con
sus
probabilidades. Sea un suceso B del cual se dispone
de las probabilidades P(B/Ai), cuando i=1,...,n.
Entonces:

Teorema de Probabilidad Total:


n
P(B ) = ∑ P( Ai )P(B / Ai )
i =1

Teorema de Bayes:
P(A j )P(B / A j )
P( A j / B ) = n

∑ P( A )P(B / A )
i =1
i i
Probabilidades a priori: P(Aj), para i =1,...,n.

Probabilidades a posteriori: P(Ai/B), para i


=1,...,n.

Verosimilitudes: P(B/Ai), para i =1,...,n.

Observación.- El concepto de partición o clasificación


refleja formalmente el hecho habitual en la realidad
de clasificar o dividir los conjuntos de objetos,
personas, etc. por algún criterio como puede ser la
marca, el año de fabricación, la provincia de
nacimiento, el nivel de estudios alcanzado, etc.
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Tema 3
Variable aleatoria unidimensional

El modelo matemático que explica el comportamiento de los


resultados de un experimento aleatorio está compuesto por
tres elementos (Ω, A , P), donde Ω es un espacio muestral, A
una σ-álgebra de sucesos y P una medida de probabilidad
sobre A. Los elementos que integran Ω pueden ser
cualesquiera, conduciendo en muchas ocasiones a dificultar
su tratamiento matemático.
Para evitar estos posibles problemas se recurre a la
asignación de números a los elementos de Ω, de tal forma
que en muchos experimentos se sustituye el espacio
muestral Ω, por otro Ω´. Por un lado Ω se adapta bien al
aspecto físico del experimento aleatorio y por otro, Ω´ es más
adecuado para el estudio matemático.
Si, por ejemplo, se lanza una moneda el espacio muestral
está integrado por los sucesos elementales cara y cruz, pero
podríamos asignar el 1 a cara y el 0 a cruz.
Para llevar a cabo esta transformación de sucesos en
números reales se introduce el concepto de variable
aleatoria.
45
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Sea un fenómeno aleatorio con espacio muestral Ω. Se llama


variable aleatoria (v.a.) a una función X definida en Ω con
valores en el conjunto de números reales:

X: Ω→ℜ
ω→X(ω)∈ℜ

Pero además, queremos que esta aplicación conserve la


probabilidad asociada al experimento aleatorio y así
obtenemos la siguiente definición matemática.

DEFINICION

Sea (Ω, A , P) un espacio probabilístico y sea (ℜ,B) el espacio


probabizable formado por la recta real ℜ y la σ-álgebra de
Borel B.
Una aplicación X : Ω→ℜ es una variable aleatoria si y sólo
si X-1(B)∈A, ∀B∈ B.

El conjunto de las imágenes de esta función {X(ω);ω∈Ω}


define el conjunto de valores posibles de la variable y dado
un valor posible x, la probabilidad de que la variable tome
ese valor será igual a la probabilidad que ocurra el suceso

A={ω∈Ω;X(ω)=x}=X-1(x)

46
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Observación.

1. El concepto de variable aleatoria permite relacionar


cualquier resultado de un fenómeno aleatorio con un valor
numérico.
2. Cuando el experimento en sí mismo es numérico, el
propio resultado que pueda proporcionar el experimento es
la variable aleatoria. Por tanto, la aplicación a considerar
será la aplicación identidad con Ω=ℜ y X(ω) =ω.
Operaciones con variables aleatorias
En muchas ocasiones encontraremos funciones de una o
varias variables aleatorias, por lo cual, es fundamental saber
que una función real de una o varias variables aleatorias es,
a su vez, variable aleatoria. En particular, si X e Y son dos
variables aleatorias las operaciones siguientes dan lugar, en
cada caso, a una nueva variable aleatoria:
ƒƒ X+c ƒƒ X2
ƒƒ cX ƒƒ XY
ƒƒ X+Y ƒƒ X-Y
La extensión a más de dos variables aleatorias es inmediata.
FUNCIÓN DE DISTRIBUCIÓN
Una variable aleatoria, representativa de un experimento
aleatorio, queda definida cuando conocemos su campo de
variación y el conjunto de probabilidades con que toma
valores en ese campo.

47
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

DEFINICION

Sea una variable aleatoria X. La función de distribución de


esta v.a., notada por FX(x), viene definida por F: ℜ→[0,1]

FX(x)=P{(-∞,x]} = P(X≤x) para cada x∈ℜ,

indicándonos la probabilidad con que la v.a. X tomará


valores no superiores a x .

TEOREMA.- (Condiciones necesarias y suficientes para que


una función sea función de distribución)

Sea una variable aleatoria X y una función real de variable

real FX(x). Entonces FX(x) es la función de distribución de X

si y sólo si se verifica que

a) FX(-∞)=0

b) FX(+∞)=1

c) FX(x) es una función monótona no decreciente. Es decir,


si consideramos cualesquiera x1 < x2 se verifica que
FX(x1)≤FX(x2)
d) FX(x) es una función continua por la derecha. Es decir,

se verifica que lim|FX(x+ε)-FX(x)|=0.


ε →0

48
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

DEFINICION.- (Tipos de Variables Aleatorias)

a) Se dice que una variable aleatoria es discreta cuando


puede tomar un número finito o infinito numerable de
valores.

b) Se dice que una variable aleatoria es continua cuando


puede tomar cualquier valor de uno o varios intervalos de la
recta de los números reales.

DEFINICION.- (Función de Masa de Probabilidad de una v.


a. Discreta)

Se llama función de masa de probabilidad de una variable


aleatoria discreta X a una expresión pX(x) definida para cada
x que tome la v.a. X, verificando

1. pX(x)≥ 0, ∀x.

2. ∑ p (x) = 1
x
X

3. P(X=x)=pX(x)

Es decir, la función de masa en el punto x es la probabilidad

de que la v.a. X tome el valor x.

49
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

TEOREMA.- (Relación entre función de distribución y


función de masa)

Sea una variable aleatoria discreta X con función de


distribución FX(x) y fmp pX(x). Entonces se verifica que

1. F(x)=P(X ≤x)= ∑ pX(xi), para cada x∈ℜ


xi ≤ x

2. pX(x) = F(x) - F(x-), para cada x∈ℜ

Ejemplo
En un dado trucado la variable aleatoria puntuación tiene la
siguiente función de masa

xi 1 2 3 4 5 6
P(X=xi) 0.10 0.40 0.10 0.20 0.05 0.15

Se pide hallar la función de distribución.

⎧0 si x < 1
⎪0.10 si 1 ≤ x < 2

⎪0.50 si 2 ≤ x < 3

F ( x) = ⎨0.60 si 3 ≤ x < 4
⎪0.80 si 4 ≤ x < 5

⎪0.85 si 5 ≤ x < 6

⎩1 si x≥6

50
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

TEOREMA.- (Cálculo de probabilidades con la función de


distribución de una variable discreta)

Sea una variable aleatoria discreta X con función de


distribución FX(x) y función de masa de probabilidad pX(x).
Entonces se verifica que:

1. P[a < X ≤b]= F(b) - F(a)

2. P[a < X < b]= F(b-) - F(a)

3. P[a ≤X ≤ b]= F(b) - F(a-)

4. P[a ≤X < b]= F(b-) - F(a-)

con a, b ∈ℜ tales que a < b.


Ejemplo
Dada la siguiente función de distribución hallad la
correspondiente función de masa de probabilidad.

⎧0 x < −1
⎪0.20 − 1 ≤ x < 1
⎪⎪
F ( x) = ⎨0.50 1 ≤ x < 2
⎪0.80 2 ≤ x < 3

⎪⎩ 1 x≥3

xi -1 1 2 3
P(X=xi) 0.20 0.30 0.30 0.20

51
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

DEFINICION.- (Función de Densidad de una Variable


Aleatoria continua)
Se llama función de densidad de probabilidad (fdp) de una
variable aleatoria continua X a una función fx(x) real de
variable real que verifique:

1. f x (x) ≥ 0, ∀x ∈ R
+∞

2.
−∞
∫ f (x )dx = 1
x

Es decir, cualquier función no negativa que recoja un área


unidad puede actuar como densidad de una variable
aleatoria.

La importancia de la función de densidad es que a partir de


ella se puede determinar la probabilidad que asigna la v.a.
considerada a cada intervalo, según el siguiente resultado.

TEOREMA.- (Utilidad de la Función de Densidad)

Sea una variable aleatoria continua x con función de


densidad fx(x). Entonces se verifica que

P[a < X < b] = ∫ f (x )dx


a
x

con a, b∈ℜ números reales cualesquiera tales que a < b. Es


decir, la probabilidad con que la v.a. X toma valores en el
intervalo (a,b), lo que notamos por P[a < X < b], se obtiene
52
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

calculando el área bajo la función de densidad en dicho


intervalo. Además, lo anterior representa la proporción de
valores de esta variable que se encontrarán en dicho
intervalo.

TEOREMA

Sea una variable aleatoria continua x con función de


densidad fx(x). Entonces se verifica que

1. P[X = x0] = 0, ∀x0.


2.P[a≤X≤b]=P[a<X<b]=P[a≤X<b]=P[a<X≤b] con a, b∈ℜ
números reales cualesquiera tales que a < b.

TEOREMA.-(Relación entre función de distribución y de

densidad)

Sea una variable aleatoria continua X con función de


distribución FX(x) y fdp fx(x). Entonces se verifica que

1. F(x) = ∫ f (u )du
−∞
x , cada x∈ℜ.

dFX ( x )
2. f (x) = dx , para cada x∈ℜ donde F(x) es
derivable.

53
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Ejemplo
Dada la siguiente función hallad el valor de k para que sea
función de densidad de una variable aleatoria y calculad su
función de distribución.

a +1

f (x ) = kx a
si x ≥ 1; a > 0
Para que la función sea función de densidad debe cumplir:
f x (x) ≥ 0, ∀x ∈ R
+∞

∫ f (x )dx = 1
−∞
x

Así,

⎡ ⎤ −
1
a +1
+∞ ∞
− ⎢x ⎥ a

∫ f (x )dx = 1 = ∫ kx
x
a
dx = k ⎢
1⎥
= ak = 1
, por lo cual
−∞ 1 ⎢− ⎥
⎣ a ⎦1
k=1/a.
Por otro lado,

⎧⎪ 0 x <1
F ( x) = ⎨ −
1
⎪⎩1 − x a x ≥1

54
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

TEOREMA.- (Cálculo de probabilidades en v.a. continuas


mediante la función de distribución)

Sea una variable aleatoria continua X con función de


distribución FX(x) y función de densidad fx(x). Entonces se
verifica que:

P[a≤X≤b]= P[a<X<b]= P[a≤X<b]= P[a<X≤b]= F(b)-F(a)

con a, b∈ℜ números reales cualesquiera tales que a < b.


Ejemplo
Siguiendo con el ejemplo anterior para a=4, hallad P(X>3).

P(X>3)=1-P(X≤3)=1-F(3)=0.7598

Observación.- aunque no es frecuente es posible encontrar


variables aleatorias con distribuciones mixtas, es decir, con
un soporte donde una parte de él la variable es continua y
en otra discreta. En este caso, podemos exprsar la función
de distribución de la siguiente forma:

F(x)=λF1(x)+(1-λ)F2(x), para λ∈[0,1]

Siendo F1(x) la parte continua y F2(x) la parte discreta.

55
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

TRANSFORMACIONES DE VARIABLES ALEATORIAS


UNIDIMENSIONALES
En algunas ocasiones estaremos interesados en, conocida
laley de probabilidad de una variable X, encontrar si existe
la ley de probabilidad de una función Y de X.
Vamos a ir analizando los diferentes casos que se pueden
presentar.
Caso discreto
Teorema
Sea X una variable discreta con soporte DX y función de
masa pX. Sea ϕ:ℜ→ℜ una función medible e Y=ϕ(X) la
variable aleatoria transformada. Entonces Y es una variable
aleatoria discreta con soporte DY=ϕ(DX) y función de masa

⎧⎪ ∑ p X ( x ) si y ∈ DY
pY ( y ) = ⎨ x∈[{x∈R / ϕ ( x )= y}∩ DX ]
⎪⎩ 0 si y ∉ DY

Ejemplo
Sea X una variable aleatoria discreta con función de masa

e −λ λx
p X (x ) =
x!
y soporte DX=ℵ∪{0}. Sea Y la variable aleatoria definida por

⎧ 1 si X es par o cero
Y =⎨
⎩− 1 si X es impar

56
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Hallar la distribución de la variable aleatoria Y.

Su soporte será DY=ϕ(DX)={-1, 1}, y su función de masa

⎧⎪ ∑ p X ( x ) si y ∈ DY
pY ( y ) = ⎨ x∈[{x∈R / ϕ ( x )= y}∩ DX ]
⎪⎩ 0 si y ∉ DY
Con lo que determinar la función de masa de Y equivaldrá a
determinar su valor en los puntos y=-1 e Y=1.

e − λ λx e − λ λ2 z
pY(1)=P(Y=1)=

x par x!
=∑
z = 0 ( 2 z )!
ó x =0

e − λ λx e − λ λ2 z + 1
pY(-1)=P(Y=-1)= ∑
=∑
x impar x! z = 0 ( 2 z + 1)!

Caso continuo
En el caso de una variable aleatoria X continua con soporte
CX, la variable aleatoria Y=ϕ(X) puede ser continua o discreta
según que ϕ(CX) sea continuo o discreto.
Teorema
Sea X una variable aleatoria continua con soporte CX y
función de densidad fX. Sea Y=ϕ(X) una variable aleatoria. Si
ϕ(CX) es un conjunto discreto, entonces Y es una variable
aleatoria discreta con soporte DY⊂ϕ(CX) y función de masa

57
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu


⎪ ∫ f X ( x)dx si y ∈ ϕ (C X )
pY ( y ) = ⎨{x / p X ( x ) = y}
⎪⎩ 0 si y ∉ ϕ (C X )

Ejemplo
Sea X una variable aleatoria continua con función de
densidad
⎧ x2
⎪ 0< x<3
f X (x ) = ⎨ 9
⎪⎩ 0 resto
Sea Y=ϕ(X) la variable transformada
-1 si X<1
Y = 0 si X=1
1 si X>1
Hallad su distribución.
En este caso ϕ(CX)={-1,0,1} es un conjunto discreto, entonces
la variable Y es discreta y
1
1
pY (−1) =
−∞
∫ f X ( x)dx =
27
pY (0) = ∫{ } f
0
X ( x)dx = 0


26
pY (1) = ∫ f X ( x)dx =
1
27
De donde deducimos que su soporte es {-1,1}

58
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Teorema
Sea X una variable aleatoria continua con soporte CX y
función de densidad fX. Supondremos que CX es un
intervalo. Sea ϕ:ℜ→ℜ una función estrictamente creciente o
decreciente sobre CX y tal que la inversa ϕ-1 sobre ϕ(CX)
admite una derivada continua.
Entonces, Y=ϕ(X) es una variable aleatoria continua con
soporte CY=ϕ(CX) y función de densidad



f Y ( y) = ⎨
( )
⎪ f X (ϕ −1 ( y )) ϕ −1 ( y ) si y ∈ CY
⎪⎩ 0 si y ∉ CY

Ejemplo
Sea X una variable aleatoria continua con soporte CX=(0,3) y
función de densidad
⎧ x2
⎪ 0< x<3
f X (x ) = ⎨ 9
⎪⎩ 0 resto
Sea Y=ϕ(X)=X2 la variable transformada. Hallad su
distribución.
En este caso, ϕ es estrictamente creciente sobre CX=(0,3), y
la función inversa

ϕ −1 ( y ) = y es tal que (ϕ −1 ) ( y ) =
1
2 y

59
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Es continua, y está definida si y∈ϕ(CX)=(0,9). Así, pues, Y es


una variable aleatoria continua con soporte CY=(0,9) y
función de densidad
⎧ y

( )2
1
=
y
si 0 < y < 9
fY ( y ) = ⎨ 9 2 y 18

⎩ 0 resto
Teorema
Sea X una variable aleatoria continua con soporte CX y
función de densidad fX. Sea ϕ:ℜ→ℜ una función derivable
∀x∈CX tal que ϕ´es continua y ϕ´(x)≠0 salvo un número finito
de puntos. Suponemos que para cada y∈ℜ se cumple:
1. Existen exactamente m(y) puntos (m(y)>0), x1(y), x2(y),…,
xm(y) de CX tales que para k=1, 2, …, m(y) es
ϕ (xk ( y )) = y y ϕ ′(xk ( y )) ≠ 0
O bien,
2. Si no existe ningún punto x∈CX tal que ϕ(x)=y y ϕ´(x)≠0,
ponemos en este caso m(y)=0.

Entonces, Y=ϕ(X) es una variable aleatoria continua con


función de densidad

⎧m ( y )
⎪ ∑ f X ( xk ( y ))ϕ ′( xk ( y ))
−1
si m( y ) > 0
fY ( y ) = ⎨ k =1
⎪⎩ 0 si m( y ) = 0

60
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Ejemplo
1. Sea X una variable continua con función de densidad fX,
y sea Y=|X|. Se tiene m(y)=2 con x1(y)=y, x2(y)=-y para y>0.
Entonces

⎧ f ( y ) + f X (− y ) si y>0
f Y ( y) = ⎨ X
⎩ 0 si y≤0
2. Sea X una variable continua definida sobre CX=(-a,a) y
con función de densidad fX. Sea Y=X2. Aquí ϕ´(x)=2x es
estrictamente decreciente en (-∞,0) y creciente estrictamente

en (0, ∞). Para y∈(0,a2), m(y)=2, x1(y)= − y , x2(y)= y y para


y∉(0,a2), m(y)=0, con lo que

⎧ 1
⎪ (
f (− y ) + f X ( y )
fY ( y ) = ⎨ 2 y X
) si 0 < y < a 2
⎪⎩ 0 resto

CARACTERÍSTICAS DE LAS DISTRIBUCIONES DE


PROBABILIDAD
Esperanza matemática
DEFINICION
•• Caso discreto
Sea una variable aleatoria discreta X con función de masa
px(x).

a) Se llama esperanza, media, valor esperado o valor


medio de la v.a. X, notándose por E(X) o μ, al promedio de

61
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

los valores de X respecto a la distribución de probabilidad de


X, así

E(X)= ∑ xp (x )
x
X

b) Se llama esperanza o valor esperado de una función


g(X) de la v.a. X, notándose por E(g(X)), al promedio de los
valores de g(X) respecto a la distribución de probabilidad de
X, así

E(g(X))= ∑ g (x ) p (x )
x
X

•• Caso continuo
Sea una variable aleatoria continua X con función de
densidad fx(x).
a) Se llama esperanza o media o valor esperado de la v.a.
X, notándose por E(X) o μ, al promedio de los valores de X
respecto a la distribución de probabilidad de X, así

E(X) = ∫ xfx(x)dx.

b) Se llama esperanza o valor esperado de una función


g(X) de la v.a. X, notándose por E(g(X)), al promedio de los
valores de g(x) respecto a la distribución de probabilidad de
X, así
E(g(X))= ∫ g(x)fx (x)dx .

62
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

•• Caso mixto
Si el soporte de una variable X consta de una parte discreta,
D, y una parte continua, C, entonces

E(X)= ∑ xp (x ) + ∫ xf X ( x)dx
x ∈D
X
x∈C

Observación.- La esperanza existe siempre que:

•• Caso discreto: ∑ x p (x ) < ∞ ,


x
X es decir, si la serie

converge absolutamente.

•• Caso continuo: ∫xf


R
X ( x)dx < ∞ , es decir, si la integral

impropia es convergente absolutamente.


Propiedad 1

El valor esperado de una constante c es el valor de la

constante.

E(c)= c

Demostración

E(c)= ∑ cp (x ) = c ∑ p (x ) = c
x
X
x
X

Propiedad 2

Si a y b son dos constantes cualesquiera, el valor esperado


de aX+b es igual al producto de a por el valor esperado de X,
más b.
E(aX+b)=aE(X)+b
63
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Demostración

E(aX+b)= ∑ (ax + b ) p (x ) = a ∑ x p (x ) + b ∑
x
X
x
X
x
p X ( x ) =aE(X)+b

Propiedad 3

El valor esperado de la suma de dos variables aleatorias X e


Y es la suma de los valores esperados de X e Y.

E(X+Y)=E(X)+E(Y)

Demostración

Se plantea como ejercicio más adelante.


Momentos
Para el Cálculo de Probabilidades una variable aleatoria
puede resumirse mediante su valor esperado, concepto
equivalente al de centro de gravedad de un sistema físico.

Los momentos de una variable aleatoria son los valores


esperados de ciertas funciones de la variable. Constituyen
un conjunto de medidas que pueden emplearse para
caracterizar la distribución y especificarla si son todos
conocidos. Aunque pueden considerarse momentos referidos
a cualquier valor, generalmente se definen con respecto al
origen o con respecto a la media.
• Momentos respecto al origen
Se define el r-ésimo momento respecto al origen de una v.a.
discreta X como
64
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

αr=E(Xr)= ∑x r
p X (x )
x

En el caso de X sea continua

= ∫ f X ( x)dx
r
αr=E(Xr) x
R

• Momentos respecto a la media o momentos centrales


Se define el r-ésimo momento central de una v.a. discreta X
como

∑ (x − μ ) p X (x )
r
μr=E((X-μ)r)=
x

En el caso que X sea una variable continua

μr=E((X-μ)r) = ∫ ( x − μ ) f X ( x)dx
r

Como consecuencias de las definiciones de los momentos se


tiene:

1. α0=1
2. α1=μ
3. μ0=1
4. μ1=0

Especialmente importante es el momento central de orden


dos.

Teorema

Si el momento de orden t existe, existen todos los momentos


de orden s, inferiores a él.
65
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Varianza

DEFINICION

a) Sea una variable aleatoria discreta X con función de


masa pX(x). Se llama varianza de la v.a. X, notándose por
V(X) o σ2, al momento central de orden dos

∑ (x − μ ) p X (x )
2
V(X)=
x

b) Sea una variable aleatoria continua X con función de


densidad fx(x). Se llama varianza de la v.a. X
V(X)= ∫ (x - μ)2fx(x)dx

Es el promedio de las diferencias cuadráticas entre los


valores de X y su media respecto a su distribución de
probabilidad de X.

La varianza se interpreta como una medida de dispersión


alrededor de la media. Un valor pequeño de la varianza
indica una mayor concentración de la variable alrededor de
su valor medio, un valor grande representa una mayor
dispersión en torno a su media.

La varianza viene expresada en unidades de la variable al


cuadrado.
DEFINICIÓN

La desviación típica o estándar de la v.a. X, notada por


σ, es la raíz cuadrada de la varianza.
66
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

La desviación típica viene expresada en las mismas


unidades que la variable.

Propiedad 1

La varianza es igual a la diferencia entre el momento


respecto al origen de orden dos y el cuadrado de la media.

V(X)= α2-μ2

Demostración

V(X)=E((X-μ)2)=E(X2-2Xμ+μ2)=E(X2)-2μE(X)+ μ2=α2-2μμ+μ2=α2-
μ2

Propiedad 2

La varianza es invariante frente a los cambios de origen,


pero no frente a los cambios de escala, es decir, si a y b son
dos constantes cualesquiera

V(aX+b)=a2V(X)

Demostración

V(aX+b)=E((aX+b)2)-(E(aX+b))2=E(a2X2+b2+2abX)-(aE(X)+b)2

=a2E(X2)+b2+2abE(X)-a2E(X)2-b2-2abE(X)

=a2(E(X2)-E(X)2)=a2V(X)

Propiedad 3
Sean X e Y dos variables aleatorias, entonces
67
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

V(X+Y)=V(X)+V(Y)+2Cov(X,Y)

V(X-Y)=V(X)+V(Y)-2Cov(X,Y)

Donde Cov(X,Y)=E((X-μX)(Y-μY)).

Mediana y moda

DEFINICIÓN
Se dice que un valor x es la mediana, Me, de la
distribución de una v.a. X si se verifica que:

P(X≥x) ≥1/2 y P(X≤x) ≥1/2

DEFINICIÓN
La moda de una v.a. X discreta se define como el valor, o
valores, que hace máxima la función de masa de
probabilidad o si X es continua la función de densidad.

TEOREMA DE MARKOV: desigualdad de Chebichev

Teorema de Markov
Sea X una variable aleatoria y g(X) una función real de esa
variable, tal que g(X)≥0. Dada una constante k>0, se tiene

P( g ( X ) ≥ k ) ≤
E ( g ( X ))
K

68
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Desigualdad de Chebichev
Particularizando el teorema de Markov para la función no
negativa g(X)=(X-μ)2, se tiene

E (( X − μ ) 2 ) σ 2
P (( X − μ ) ≥ k ) ≤
2
=
K k

O bien
σ2
P( X − μ ≥ k ) ≤
k
Desigualdad conocida como desigualdad de Chebichev.

Observación.- si hacemos k = rσ , logramos otra versión


equivalente a la desigualdad de Chebichev
1
P ( X − μ ≥ rσ ) ≤
r2
Es decir, se trata de la probabilidad de que la variable
aleatoria esté fuera del intervalo [μ±rσ], dependiendo la cota
superior de probabilidad sólo de la constante r.
Ejemplo
Sabemos que E(X)=4 y V(X)=9, determínese los intervalos
alrededor de la media de esta variable aleatoria que
contengan al menos el 75% y el 80% de la probabilidad.
Por la desigualdad de Chebichev sabemos que

69
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

1
P ( X − μ ≥ rσ ) ≤
r2
P ( X − μ < rσ ) ≥ 1 −
1
r2
1
Así, 1 − = 0.75 ⇔ r = 2 y el intervalo de al menos el 75% de
r2
probabilidad será (μ±rσ)=(4-2x3; 4+2x3)=(-2;10).
1
Así, 1 − = 0.80 ⇔ r = 2.24 y el intervalo de al menos el 80%
r2
de probabilidad será (μ±rσ) = (4-2.24x3; 4+2.24x3) =
(-2.72;10.72).

FUNCIÓN CARACTERÍSTICA Y FUNCIÓN GENERATRIZ


La ley de probabilidad de una variable aleatoria puede darse
a través de la probabilidad inducida por dicha variable, por
su función de masa o densidad, o por su función de
distribución. A continuación vamos a definir una nueva
función que también nos va a permitir dar y caracterizar
dicha ley de probabilidad. Esta función es la función
característica.
DEFINICIÓN
La función característica de una variable aleatoria X se
define como:
•• Caso discreto:

ϕ (t ) = E (e itX ) = ∑ e
itx j
pj
j
70
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

•• Caso continuo:

ϕ (t ) = E (e itX
) = ∫ e f (x )dx
itx

−∞

Donde t es una variable real, no aleatoria e i es la unidad

imaginaria (i= − 1 ).
Propiedades de la función característica
Propiedad 1
La función característica de una variable aleatoria X siempre
existe.
Demostración
El número complejo eitX se expresa en forma binómica como
eitX=costX+i sentX
y
ϕ(t)=E(eitX)=E(costX)+i E(sentX)
Como las variables aleatorias costX y sentX están acotadas
entre -1 y 1, siempre existirá su esperanza metemática, t por
tanto, la función característica siempre se podrá calcular.
Propiedad 2
La función característica particularizada en t=0 es igual a la
unidad.
Demostración: ϕ(0)=E(ei0X)=E(e0)=E(1)=1
Propiedad 3
El módulo de ϕ(t) es siempre menor o igual que la unidad.
Demostración
Dado un número complejo a+bi, su módulo es
71
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

a + bi = + a 2 + b 2

Por lo cual,
|ϕ(t)|=|E(eitX)|≤E(|eitX|)=E(|costX+i sentX|)=

= E(+ cos tX + sen tX ) = E(1) = 1


2 2

Así, |ϕ(t)|≤1.
Propiedad 4
La función característica en-t es la conjugada de ϕ(t).
Demostración

ϕ(-t)=E(e-itX)=E(costX- isentX)=E(costX)-iE(sentX)= ϕ (t )
Propiedad 5
La función característica es uniformemente continua en
todo intervalo real de t.
Demostración
Puede verse en “Teoría de la Probabilidad”,P. Ibarrola, L.
Pardo, V. Quesada. Ed. Síntesis.
Propiedad 6
Si Y es una transformación lineal de la variable aleatoria X,
es decir, Y=aX+b, su función característica es
ϕY(t) =eItb ϕX(ta)
Demostración
ϕY(t)=E(eitY)=E(eit(aX+b))=E(eitaX eitb)=eItbϕX(ta)
Propiedad 7
Si X1, X2,…, Xn son variables aleatorias independientes, se
tiene
72
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

ϕX1+X2+…+Xn(t)= ϕX1(t) ϕX2(t)… ϕXn(t)


Demostración
Se deja para el tema siguiente.
Propiedad 8
Si en una variable aleatoria X existe el momento respecto al
origen de orden r, entonces la función característica es r
veces derivable, y estos momentos se pueden calcular a
través de
ϕ(n(0)= ir αr
Propiedad 9
Teorema de inversión
Si X es una variable aleatoria con función de distribución
F(x), donde x1<x2 son dos puntos de continuidad de esta
función, entonces

T e 1 −e 2
itx itx
F ( x 2 ) − F ( x1 ) = ϕ (t )dt
1
lim ∫−T
2π T → ∞ it

Si ϕ(t) es integrable para todo t real.


Además, si X es una variable aleatoria continua su función
de densidad se puede hallar como


e −itxϕ (t )dt
1
f ( x) =
2π ∫
−∞

73
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Observación.- estos resultados nos permiten calcular la


función de distribución o de densidad a partir de la función
característica.
Propiedad 10
Teorema de unicidad
A toda función característica le corresponde una y sólo una
función de distribución, y viceversa.
Propiedad 11
Teorema de continuidad o teorema de Levy-Cramer
Sea X1, X2, …, Xn, … una sucesión de variables aleatorias.
La condición necesaria y suficiente para que su
correspondiente sucesión de funciones de distribución F1(x),
F2(x), …,Fn(x), … converja hacia alguna función de
distribución F(x), es que la sucesión de funciones
características, asociada a la sucesión de funciones de
distribución, converja a una función característica ϕ(t) que,
por el teorema de unicidad, será la función característica de
la función de distribución límite F(x).

DEFINICIÓN
La función generatriz de momentos, representada por
M(θ), se define como:
•• Caso discreto:

( )
M (θ ) = E eθX = ∑ e
θ xj
pj
j

74
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

•• Caso continuo:

M (θ ) = E e ( ) = ∫ e f (x )dx
θX θx

−∞

Observación.- la función característica y la función


generatriz son similares, aunque la diferencia radica en que
la función característica al estar definida en el campo
complejo, existe siempre, mientras que la función generatriz
está sujeta a las condiciones de existencia de cualquier
esperanza. Por este motivo y por el mayor número de
propiedades que tiene la función característica, ésta es
preferible.
Propiedad
Si existen los momentos respecto al origen de orden r de
una variable aleatoria X, entonces la función generatriz
genera el valor de los momentos respecto al origende orden
s≤r, por medio de
M(r(0)=αr

Ejemplo
Sea X una variable aleatoria discreta con

xj -1 1 2
pj 0.1 0.7 0.2

Calcúlese su varianza a través de la función característica.


75
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

ϕ(t)=E(eitX)=eit(-1) 0.1+eit 0.7+eit2 0.2


ϕ´(t)=-0.1i e-it+0.7i eit+0.4i e2it
ϕ´´(t)=0.1i2 e-it+0.7i2 eit+0.8i2 e2it
ϕ´(0)=-0.1i+0.7i+0.4i=i
ϕ´´(0)=0.1i2+0.7i2+0.8i2=1.6i2
σ2=α2-α12=ϕ´´(0)/i2-(ϕ´(0)/i)2=1.

76
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Tema 4
Modelos de probabilidad

MODELOS DE PROBABILIDAD DISCRETOS

En este apartado vamos a estudiar las distribuciones de


algunas variables aleatorias discretas particulares.

Distribución uniforme

Una variable aleatoria discreta X que toma valores enteros 1,


2, ..., n con probabilidades

P(X=k)=1/n, k=1, 2, …, n

Recibe el nombre de variable uniforme discreta y su


distribución de probabilidad distribución uniforme
discreta.

En esta distribución discreta hay que observar:

 Depende sólo del parámetro n.


 Su media, varianza y desviación típica son

n +1 n2 −1 n2 −1
E(X)= ; V(X)= ; σ=
2 12 12

 Su función característica es
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

e it (e itn − 1)
ϕ (t ) =
n(e it − 1)

Ejemplo
Determínese la esperanza y la varianza de los posibles
resultados que se pueden obtener al lanzar un dado.
E(X)=(n+1)/2=7/2
V(X)=(n2-1)/12=35/12

Pruebas de Bernoulli. Distribución de Bernoulli

Se llama prueba de Bernoulli (Bernoulli trial) a todo


experimento aleatorio que conduzca a dos resultados
llamados éxito y fracaso, que se notarán por A y A ,
respectivamente, y que acontecen con probabilidades p y q,
siendo p + q = 1. Es decir,

p=P(Ocurra el suceso A)
q=P(Ocurra el suceso A )

De manera esquemática, una prueba de Bernoulli se indicará


de la forma siguiente

A con probabilidad p
Exp. Aleatorio q=1-p
A con probabilidad q
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
Ejemplo.- Prueba de Bernoulli cuando se analiza una pieza
para decidir si es defectuosa o correcta.
Se sabe que el 1 % de las piezas fabricadas por una máquina
son defectuosas.
Al analizar una pieza concreta nos encontramos ante una
prueba de Bernoulli. Es decir,

Defectuosa - A (éxito) con prob. 0.01

Analizar una pieza


Correcta - A (fracaso) con prob. 0.99

A efectos de poder cuantificar las pruebas de Bernoulli y de


extenderlas a una serie de repeticiones del experimento, es
necesario formalizar la definición de la correspondiente
variable aleatoria. Como el interés al analizar una prueba de
Bernoulli se centra en el suceso éxito, la v.a. asignará el valor
1 al éxito y el valor 0 al fracaso. Sea dicha v.a. X. Se tiene que

1 cuando ocurra A
X=
0 cuando suceda A

O, expresándolo en términos de probabilidades,

1 con prob. p
X= q=1-p
0 con prob. q

Es decir, p = P(X =1) y q = P(X = 0).

Para expresar una ley que recoja los valores de la v.a. X con
sus probabilidades, escribiremos
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

P(X = x) = px(1 - p)1-x, x = 0,1

Como esta v.a. se refiere a pruebas de Bernoulli, se conoce


con el nombre de distribución de Bernoulli. Observamos
que lo que varía de una de estas distribuciones a otra de este
tipo es la p, que será el único parámetro de esta distribución.

DEFINICIÓN

Se dice que una v.a. X sigue una ley de Bernoulli de


parámetro p, con 0 < p < 1, cuando su fmp sea

P(X = k) = pk(1 - p)1-k, k = 0, l

Notándose X ≡ Br (p).

La representación gráfica de esta fmp resulta una distribución


asimétrica a la derecha (resp. a la izquierda) si p<0.5 (resp.
p>0.5), y una distribución simétrica cuando p=0.5.

En esta distribución hay que observar:

 Depende sólo del parámetro p.


 Su media, varianza y desviación típica son

E(X) = p; V(X) = p(1- p); σ= p(1 - p)

 Su función característica es

ϕ(t)=q+peit
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
Distribución Binomial

Una generalización inmediata y fundamental de la


distribución de Bernoulli surge cuando un experimento
aleatorio con dos posibles resultados se repite varias veces.

Supongamos pruebas de Bernoulli de la forma

A con probabilidad p

Exp. Aleatorio q=1-p

A con probabilidad q

donde la probabilidad de éxito en cada prueba es p y se


desarrollan n pruebas independientes, de manera que el
resultado de cada prueba no tiene influencia sobre el
resultado de cualquier otra prueba.

La v.a. X: número de éxitos que aparecen al desarrollar éstas


n pruebas, podría tomar cualquier valor desde 0 hasta n.
Nuestro interés se centra en calcular la probabilidad de
obtener exactamente X = k éxitos en n pruebas.

DEFINICIÓN

Se dice que una v.a. X sigue una ley binomial de


parámetros n y p, con n natural y la probabilidad p
verificando que 0 < p <1 cuando su fmp sea
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

 n 
P(X = k) =  k  pk(1 - p)n-k , k = 0,1,---, n
 

Notándose X ≡ B(n,p).

En esta distribución hay que observar:

 Depende de los parámetros p y n.


 Su media, varianza y desviación típica son

E(X)=np; V(X)=np(1-p); σ= np(1 - p)

 Su distribución de probabilidad es, para n fijo, simétrica


si p=q. Si p<q presenta asimetría a la derecha; si p>q,
asimetría a la izquierda. Cuando n→∞ la distribución
tiende siempre a ser simétrica (distribución normal).
 Los valores de P(X=k) se encuentran tabulados para
algunos valores de p entre 0 y 0.5. Para su búsqueda se
considera
 n 
P(X = k) =  k  pk(1 - p)n-k
 
Si el valor de p es mayor que 0.5, entonces hay que tener
en cuenta
 n   n 
P(X = k) =  k  p q =  n - k  qn-kpk
  k n-k 
   
 Si el experimento consiste en extracciones de una urna,
éstas han de ser con remplazamiento para mantener la
probabilidad de éxito a lo largo de todas las pruebas.
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
 La variable binomial X asociada a n pruebas se puede
también considerar como suma de n variables de
Bernouilli, es decir, la variable

X=X1+X2+...+Xn
donde Xi (i=1,…,n) son variables de Bernouilli
independientes, es una variable binomial de parámetros
n y p.
 Es reproductiva respecto el parámetro p, es decir, si X es
B(n1; p) e Y es B(n2; p) y son independientes, entonces
Z=X+Y es B(n1+n2; p). Se puede generalizar a más de dos
variables.
 Su función característica es
ϕ(t)=(q+peit)n

Ejemplo
Distribución Binomial cuando se analiza una muestra de 20
piezas fabricadas por una máquina y se calcula la
probabilidad de que aparezca a lo sumo una defectuosa.
Se sabe que el 1 % de las piezas fabricadas por una máquina
son defectuosas. Si se seleccionan 20 piezas, la v.a. X:
número de piezas defectuosas entre las 20 analizadas, es tal
que X = B(20,0.01). Por tanto,

 20 
P(X = k) =  k  0.01k 0.99n-k
 

Así, se tiene que

P(X≤1) = P((X=0)∪(X=l)) = P(X=0)+ P(X=1)=0.9831


Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Esto significa, que si cada día se analizan 20 piezas, para


decidir si parar la producción cuando el número de
defectuosas sea superior a 1, resulta que la probabilidad de
no parar la producción durante un día será del 98.31 %. Es
decir, que a lo largo de un año de 300 días laborables se
espera que la producción se tenga que parar un total de 5
días (exactamente 300 - 0.0169 = 5.07).

Deducción de la fmp en la Distribución Binomial

Observamos que las n pruebas darán lugar a una sucesión de


n resultados, cada uno de los cuales será éxito (A) o fracaso
( A ). Por ejemplo, una sucesión con k éxitos y n - k fracasos
será

A, A,..., A ; A , A ,..., A

k veces (n - k) veces

Es decir, las k primeras pruebas resultan en éxito, mientras


el resto resultan en fracaso. Ahora, la probabilidad de éxito en
cada prueba es p y la probabilidad de fracaso es (1 - p).
Puesto que las n pruebas son independientes unas de otras,
la probabilidad de cualquier sucesión de resultados es el
producto de las probabilidades para los resultados
individuales. Por tanto, la probabilidad de observar la
sucesión específica de los resultados descritos anteriormente
es pk(1 - p)n-k
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
Análogamente la probabilidad de cualquier sucesión
específica con k éxitos y n - k fracasos será pk(1 - p)n-k.

Nuestro interés se centra en determinar la probabilidad de


obtener precisamente k éxitos, independientemente del orden
de los resultados, y no en la probabilidad de obtener una
sucesión concreta o especifica de k éxitos y n - k fracasos.
Hay varias sucesiones en las que k éxitos se podrían ordenar
entre n - k fracasos. Exactamente, tantas como el número de
formas diferentes de seleccionar k lugares entre los n
considerados, es decir, las combinaciones de n elementos
tomados de k en k. Además, estas sucesiones son
incompatibles, es decir, no pueden ocurrir a la vez. Por tanto,
recordando que la probabilidad de la unión de sucesos
incompatibles es igual a la suma de las probabilidades de
dichos sucesos, resulta que en nuestro caso estamos
n
sumando pk(1- p)n-k,  k  veces. Luego se obtiene que
 

 n 
P(X = k) =  k  pk(1 - p)n-k , k = 0,1,---, n
 

Distribución de Poisson

Es una de las distribuciones discretas más utilizadas en


ingeniería, siendo fundamental tanto en control de calidad
como en fiabilidad.
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
Formalmente, surge como la distribución límite de la B(n,p)
cuando n→∞, p→0 y λ=np se mantiene constante en el
proceso de tendencia al límite. Es decir, cada vez se considera
un número mayor de pruebas de Bernoulli (n→∞), pero con
una probabilidad para el suceso éxito cada vez menor (p→0 ),
y a lo largo de este proceso de tendencia al límite se mantiene
constante en λ , el número esperado de éxitos (λ = np
constante).

Por tanto, se demuestra que si X =B(n,p) entonces

k
 n  −λ λ
  pk(1 - p)n-k= e
lim P(X=k)= P(X = k) = lim
n→ ∞ n→ ∞  k  k!
p→ 0 p→ 0
λ = np λ = np

−λ λk
A su vez, es posible demostrar que la expresión e
k!

k = 0,1,2,... es una función de masa de probabilidad, donde


resulta que λ > 0 es el parámetro de esta nueva distribución
conocida como distribución de Poisson de parámetro λ.

DEFINICIÓN

Una v.a. X sigue una ley de Poisson de parámetro λ,con λ>


0 un número real positivo, cuando su fmp sea

−λ λk
P(X = x) = e
k ! , k = 0,1,2,...
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Notándose X ≡ P (λ).
En esta distribución hay que observar:
 Depende sólo del parámetro λ.
 Su media, varianza y desviación típica son
E(X)= λ; V(X)= λ; σ= λ
 Es una buena aproximación de la distribución binomial
cuando n es grande y p pequeña.
n→∞
k
 n  −λ λ
Si p→0  
entonces  k  p (1 - p) →
k n-k e
  k!
np→λ(finito)

En general, cuando n>50 y p<0.1 ó np<5 la distribución


de Poisson es una buena aproximación de la distribución
binomial.
 La distribución de Poisson presenta una asimetría hacia
la derecha. Cuando n→∞ la distribución tiende a ser
simétrica (distribución normal).
 Los valores de P(X=k) se encuentran tabulados para
diferentes valores de λ.
 Su función característica es

e ( )
λ e it −1
ϕ(t)=
 Es reproductiva, es decir, si X es P(λ1) e Y es P(λ2) y son
independientes, entonces Z=X+Y es P(λ1+λ2). Se puede
generalizar para el caso de n variables.
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
Ejemplo.- Distribución de Poisson como aproximación a la
Binomial.
Una empresa tiene 250 ordenadores personales. La
probabilidad de que uno cualquiera de ellos necesite ser
reparado durante una semana es 0.01. Calcular la
probabilidad de que menos de 4 ordenadores necesiten ser
reparados durante una semana, mediante la aproximación de
Poisson.

Sea la v.a. X: nº de ordenadores de esta empresa que


necesitarán ser reparados durante una semana. Por tanto, se
verifica que X ≡ B(250,0.01). Como se cumplen las
condiciones anteriores, se puede aproximar la distribución de
X por la de una v.a. X* ≡ P (λ), con λ= 250 x 0.01 = 2.5.
Entonces, el valor de probabilidad buscado será P(X* < 4) =
P(X* ≤ 3)= 0.758.

Distribución Hipergeométrica

Consideremos una población con N elementos de dos clases A


y A* excluyentes, de los cuales nA son de la clase A y nA* de la
clase A*, con nA+nA*=N.
Al tomar un elemento de esta población, las probabilidades de
que proceda de una u otra clase son

nA
P(A)= = p ⇒ n A = Np
N
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
nA*
P(A*)= = q ⇒ nA* = Nq, siendo q=1-p
N

Sea ahora el experimento consistente en tomar n elementos


consecutivos de esta población sin remplazamiento.
La v.a. X: número de elementos de la clase A de entre los n
extraídos, podría tomar cualquier valor desde 0 hasta el
mínimo {n, Np}. Nuestro interés radica en calcular la
probabilidad de obtener exactamente X=k elementos de la
clase A en las n extracciones sin remplazamiento.

DEFINICIÓN

Se dice que una v.a. X sigue una ley hipergeométrica de


parámetros N, n y p cuando su fmp sea

 n A  n A*   Np Nq  N = 1,2,...
     
 k  n - k  =  k  n - k  con n = 1,2,..., N
P(X=k)= 1 2
 N  N p = 0, , ,...,1
    N N
n
  n k = 0,..., min{n,Np}

Notándose X≡H(N,n,p)

En esta distribución hay que observar:

 Depende de los parámetros N, n y p.


 Su media, varianza y desviación típica son
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

nn A N - n nn A n A* (N - n )
E(X)=np= ; V(X)=npq N - 1 = N 2 (N - 1) ;
N

N- n nnAnA* (N - n)
σ= npq =
N -1 N2 (N -1)

 Su diferencia con la distribución binomial es que, en


aquélla, las probabilidades permanecían constantes a lo
largo de todas las pruebas (extracciones con
remplazamiento) mientras que en la distribución
hipergeométrica, las probabilidades varían de una
prueba a otra (extracciones sin remplazamiento).
 Sin embargo, si N es grande respecto a n, las
probabilidades varían muy poco de una prueba a la
siguiente, por lo que en estos casos se puede decir que la
variable hipergeométrica sigue aproximadamente una
distribución binomial, es decir

 Np Nq 
  
k
  n - k   n
→   p k q n−k
N →∞

P(X=k)=  N k
 
n

Se suele aproximar cuando n/N<0.1.

Deducción de la fmp en la Distribución hipergeométrica


La probabilidad de que X tome un valor k se calcula del modo
siguiente. X valdrá k si entre los n extraídos hay k elementos
de la clase A y n-k de la clase A*. Las formas posibles de
extraer n elementos de entre los N son las combinaciones de
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
N elementos tomados de n en n. A su vez, las formas posibles
de extraer k elementos de la clase A de los entre nA que hay
son las combinaciones de nA elementos tomados de k en k,
mientras que los restantes elementos, que son de la clase A*,
se pueden escoger de los nA* que hay de tantas formas
diferentes como combinaciones de nA* elementos tomados de
n-k en n-k. Es decir,

 n A  n A* 
  
k
  n - k 
P(X=k)=  N
 
n

Ejemplo.
Supongamos que un distribuidor recibe de un fabricante un
producto que viene en cajas de 1000 unidades. El fabricante
afirma que su proceso de fabricación garantiza que cada lote
lleva a lo sumo un 5% de piezas defecuosas. Para comprobar
esta afirmación el recepcionista abre una caja y examina
aleatoriamente tres unidades. ¿Cuál es la probabilidad de que
al menos una de las tres piezas sea defectuosa, supuesto que
la afirmación del fabricante es cierta?

En este caso se tien que N=1000, n=3 y p=0.05. Tenemos que


el número de piezas defectuosas en la muestra de 3 sigue una
distribución hipergeométrica H(1000, 3, 0.05). Así,
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

 Np Nq 
  
k
  n - k 
P(X≥1)=1-P(X=0)=1-  N
 
n
 50 950
  
0
  3 
=1- 1000 =0.14276
 
 3 

El recepcionista debe esperar que en 14 de cada 100 cajas se


encuentre alguna pieza defectuosa en la muestra de 3,
incluso aunque el proceso de fabricación tenga una garantía
del 95%. Podríamos aproximar esta probabilidad por medio de
una binomial, ya que n/N=3/1000=0.003

 3
P(X≥1)=1-P(X=0)=1-  (0.05) (0.95) =1-0.857375=0.142625
0 3

 0

Como podemos apreciar esta aproximación es satisfactoria.

Distribución Binomial Negativa

Consideremos un experimento de Bernoulli que se efectúa


repetidas veces. En lugar de fijar el número de repeticiones y
contar el número de éxitos obtenidos, estamos interesados en
obtener un determinado número de éxitos y contaremos el
número de repeticiones precisas para lograrlo.
La v.a. X: número de pruebas de Bernoulli, con probabilidad
de éxito p, en las que aparecen fracasos hasta alcanzar el n-
ésimo éxito, puede tomar valores 0, 1, 2, ... Nuestro objetivo
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
es calcular la probabilidad de obtener exactamente X=k
fracasos antes del n-ésimo éxito.

DEFINICIÓN

Se dice que una v.a. X sigue una distribución binomial


negativa de parámetros n y p cuando su fmp sea

k = 0,1,2,...
 n + k −1 n k
P(X=k)=  k  p q con n =1,2,3... q = 1− p

  0 < p <1

Notándose X≡BN(n,p)

En esta distribución hay que observar:

 Depende de los parámetros n y p.


 Su media, varianza y desviación típica son

nq nq nq nq
E(X)= p ; V(X)= p 2 ; σ= p2 =
p

 Su función característica es

ϕ(t)=pn(1-qeit)-n

 Si el experimento consiste en extracciones de una urna,


éstas han de ser con remplazamiento.
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
 Reproductiva, es decir, si X es BN(n1,p) e Y es BN(n2,p) y
son independientes, entonces Z=X+Y es BN(n1+n2,p). Se
puede generalizar para n variables.

Ejercicio.
Deducir la fmp de esta distribución.

Ejemplo

En los play-off de la NBA americana, el vencedor de cada


eliminatoria final es el equipo que logre primero la 4ª victoria
en un total de 7 enfrentamientos. ¿Cuál es la probabilidad de
que un equipo dispute como mucho 6 partidos, si su
porcentaje de partidos ganados es del 60%?

Sea X: número de derrotas hasta la 4ª victoria de los 7


partidos que hay en la eliminatoria, esta variable es
BN(n=4,p=0.60) y por tanto la probabilidad pedida es

P(X<3)=P(X=0)+P(X=1)+P(X=2)=0.54432

Distribución Geométrica.

Consideremos la repetición de pruebas de Bernoulli. Ahora


estamos interesados en el número de pruebas necesarias
hasta conseguir el primer éxito.

DEFINICIÓN

Se dice que la v.a. X sigue una distribución geométrica de


parámetro p cuando su fmp sea
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

K=1,2,3,...
P(X=k)=pqk-1, con 0<p<1
q=1-p

Notándose X≡G(p)

Hay que observar:

 Depende sólo del parámetro p.


 Su media, varianza y desviación típica son

1 q q
E(X)= p ; V(X)= p 2 ; σ= p

 Si el experimento consiste en extracciones de una urna,


éstas han de ser con remplazamiento.
 Su función característica es
ϕ(t)=peit(1-qeit)-1

Ejercicio

Deducir la fmp de una distribución geométrica.

PRINCIPALES DISTRIBUCIONES DE UNA VARIABLE


ALEATORIA CONTINUA

Distribución Uniforme

DEFINICIÓN

Se dice que una variable aleatoria continua X sigue una


distribución uniforme en el intervalo [a,b], con a, b
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
números reales cualesquiera tales que a < b; cuando su fdp
sea

 1
 si a ≤ x ≤ b
f(x) =  b - a
 0 si x ∉ [a, b]

Se notará X = U(a,b).

En esta distribución continua hay que observar:

 Depende de los parámetros a y b.


 Su función de distribución es

 0 x<a
x − a
F(x) =  a≤x<b
b − a
 1 x≥b
 Su media, varianza y desviación típica son:

E(X) =
a+b
, V(X) =
(b - a ) , σ = b - a 2

2 12 12

 Su función característica es
e itb − e ita
ϕ (t ) =
it (b − a )

 Transformación integral: sea X una variable continua


con función de distribución F(x) y sea Y otra variable,
obtenida mediante la transformación y=F(x), entonces la
función de distribución de Y es
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

G ( y ) = P (Y ≤ y ) = P ( F ( X ) ≤ y ) = P ( X ≤ F −1 ( y )) = F ( F −1 ( y )) = y
Siendo su función de densidad g(y)=G´(y)=1, función que
corresponde a una distribución uniforme en (0,1).

Distribución exponencial

Es un modelo de probabilidad apropiado para recoger el


comportamiento de algunos sistemas en cuanto a la duración
hasta el fallo, además de ser una distribución básica en otro
tipo de aplicaciones y el fundamento sobre el que se han
desarrollado otras distribuciones esenciales en la ingeniería.
Especialmente importante en los análisis de fiabilidad de
redes o de software.

DEFINICION.

Se dice que una variable aleatoria continua X sigue una


distribución exponencial de parámetro λ, con λ > 0;
cuando su fdp sea

 λe−λx , si x ≥ 0
f (x) = 
0, si x < 0

Se notará X≡exp(λ).

En esta distribución se puede observar:

 Depende de un parámetro λ.
 Su función de distribución es
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

0, si x < 0
F(x) =  −λx
1−e , si x ≥ 0
 Su media, varianza y desviación típica son:

1 1 1
E(X)= , V(X)= 2 , σ =
λ λ λ

 Su función característica es

−1
 it 
ϕ (t ) = 1 − 
 λ

La Distribución Normal (Gauss-Laplace)

La distribución normal es la distribución más importante


tanto en la teoría estadística como en sus aplicaciones. Fue
propuesta por Gauss y Laplace, en el siglo XIX, de manera
independiente uno de otro, como alternativa a la distribución
que se venía empleando hasta el momento para los errores de
medida, que se caracterizaba por ser una distribución
simétrica en torno a una media m, pero recogiendo en los
intervalos µ ± hσ, con h = 1, 2, 3; un porcentaje de errores de
medida muy inferior a los que aparecen habitualmente en la
realidad.

Por esta razón, Gauss y Laplace propusieron un modelo de


probabilidad simétrico y acampanado que refleja mejor el
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
comportamiento real de los errores de medida, y que se
conoce como distribución normal.

DEFINICION.

Se dice que una v.a. X sigue una distribución normal o de


Gauss-Laplace de parámetros µ y σ2, con -∞ < µ < ∞ y σ2>
0, cuando su función de densidad de probabilidad sea

2
1  x−µ 
1 −  
f (x) = e 2 σ 
, −∞ < x < ∞
σ 2π

Notándose X ≡ N(µ,σ2).

En esta distribución se puede observar:

 Depende de dos parámetros µ y σ2, donde el primero es


un parámetro de localización y el segundo de escala.
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Comparación de normales. Media fija.


0,04

Media, Desviación típica


f(x) 100,10
0,02 100,20
100,15

0
0 40 80 120 160 200

Comparación de normales. Desviación fija.

0,016
Media, Desviación típica
10,20
100,20
0,008 150,20

0
-90 10 110 210 310

 Su media, varianza y desviación típica son:

E(X)= µ, V(X)= σ2, σ=σ


Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
 Su función característica es

t 2σ 2
itµ −
ϕ (t ) = e 2

 La función de densidad presenta un máximo en x=µ, dos


puntos de inflexión en x=µ-σ y x=µ+σ, tiene al eje OX
como asíntota.
 La curva f(x) es simétrica respecto a la recta x=µ y por
tanto, la media, la mediana y la moda coinciden.
 La importancia de la distribución normal se debe
principalmente a que hay muchas variables, asociadas a
fenómenos naturales, que siguen aproximadamente una
distribución normal; también a que la distribución de
muchos estadísticos muestrales, tales como la media,
tienen una distribución aproximadamente normal;
además, es una buena aproximación de otras
distribuciones como la binomial o la de Poisson.
 Dadas dos variables normales independientes,
X1≡N(µ1,σ12) X2≡N(µ2,σ22), entonces X = aX1±bX2 ≡
N(µ=aµ1±bµ2, σ2=a2σ12+b2σ22). Esta propiedad se puede
generalizar a n variables normales independientes.
 Cramer demostró que si la distribución de la suma de n
variables independientes es normal cada una de las
variables sigue una distribución normal. Además, la
distribución normal nunca puede obtenerse exactamente
como suma de variables no normales.
 Su función de distribución es
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

2
x −1 s−µ 
1  


2 σ 
F(x)= e ds, x ∈ℜ
σ 2π −∞

esta integral no se puede expresar mediante funciones


elementales, aunque si es posible aproximar su valor
mediante áreas.

Para obtener los valores de F(x), para cada x > 0, se planteó la


construcción de una tabla de probabilidad, pero no para
cualquier distribución normal, sino para la llamada
distribución normal estándar (µ= 0 y σ2=l); ya que cualquier
v.a. X = N(µ,σ2) se puede convertir en una v.a. Z=N(0,1),
mediante la denominada tipificación o estandarización.

DEFINICIÓN
Si X es una v.a. con media µ y desviación típica σ, entonces la
v. a.
X-µ
Z=
σ
se llama variable tipificada o estandarizada de la v.a. X.
Se verifica que µZ=0 y σZ=l.
Además, si X = N(µ,σ2), entonces Z = N(0,1).
Si Z = N(0,1), entonces su función de densidad

1
1 − 2 z2
f ( z) = e , −∞ < z < ∞

Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

y su función de distribución viene dada por

z 1
1 − s2
F(z)= ∫
2π −∞
e 2 ds, z ∈ℜ

La representación de la función de densidad de la normal


estándar posee las mismas características que la de la normal
generalizada.

Densidad de una normal estándar.

0,4

Media, Desviación típ


f(x) 0,1
0,2

0
-5 -3 -1 1 3 5
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Función de distribución de una normal estándar


1

0,8

0,6
F(x)
0,4

0,2

0
-5 -3 -1 1 3 5
x

Cálculo de Probabilidades en una Normal mediante Tablas.

En algunos casos calculadoras y ordenadores proporcionan la


posibilidad de calcular probabilidades de una normal. No
obstante, se puede utilizar alguna de las tablas de
probabilidad normal para realizar dichos cálculos. En
fotocopia adjunta se encuentra la tabla de la distribución
normal estándar, que proporciona para cada valor z ≥ 0, la
probabilidad o porcentaje de valores en la distribución N(0,1)
cuyo valor no supera a z.

El cálculo de probabilidades para intervalos en la N(0,1)


según la tabla adjuntada se realiza considerando la simetría
de la distribución y utilizando las propiedades de la
probabilidad. Básicamente que
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

P(a≤Z≤ b) = P(a < Z < b) = P(a≤ Z < b) = P(a < Z≤b) =F(b)-F(a).

La probabilidad que asigna una v.a. X normal no estándar a


un intervalo cualquiera se calcula tipificando la expresión
sobre la que se quiere determinar la probabilidad, lo que
supone transformar dicho intervalo en un intervalo de la
distribución N(0,1). Esto es,

 a − µ X- µ b- µ   a − µ b- µ 
P(a < X < b) = P < <  
= P < Z < 
 σ σ σ   σ σ 
b- µ  a −µ
= FZ   − FZ  
 σ   σ 

para X≡N(µ,σ2), siendo Z≡N(0,1).

Distribución Gamma

Antes de entrar en el estudio de la distribución gamma,


vamos a estudiar una función que lleva el mismo nombre y
que nos será de mucha utilidad posteriormente.

DEFINICIÓN (función gamma)

Llamamos función gamma y la representamos por Γ(p) a la


integral


Γ (p) = ∫ x p −1 e − x dx
0
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
la cual, se puede demostrar que es continua, que converge
para p>0 y que converge uniformemente respecto a p.

A la integral que define la función gamma se le llama integral


euleriana de segunda especie, siendo p>0.

PROPIEDADES

1. Γ(1)=1
2. Γ(p)=(p-1) Γ(p-1)
3. Si p∈Z+, Γ(p)=(p-1)!
4. Si a∈C tal que a=b+ic, con b>0 entonces


Γ (p)
∫0 e dx
p −1 − ax
= x
xp
5. Γ(1/2)=π1/2

DEFINICIÓN (distribución gamma)

Se dice que una variable X sigue una distribución gamma


de parámetros p>0 y a>0 si su fdp es de la forma

a pe−axx p−1
f(x)= , si x > 0
Γ(p)
Se notará X≡γ(a,p)

En esta distribución hay que observar:

 Depende de dos parámetros a y p.


 Su media y varianza son:
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

E(X)=p/a, V(X)=p/a2

 Su función característica es
−p
 it 
ϕ (t ) = 1 − 
 a
 Si X1≡γ(a,p1) y X2≡γ(a,p2) independientes, entonces
X=X1+X2≡γ(a,p1+p2). Esta propiedad se puede generalizar
para n variables gammas independientes.
 En el caso de que p=n y a=nµ, la distribución gamma
recibe el nombre de distribución Erlang de parámetros n
y µ.
 La distribución exponencial es un caso particular de la
distribución gamma.

Distribución Beta

En primer lugar vamos a definir la función beta.


Para α>0, β>0 se define la función beta por la integral

1
B(α, β ) = ∫ xα −1 (1 − x) β −1 dx
0

Se puede demostrar que


Γ(α )Γ(β )
B(α, β ) =
Γ(α + β )
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
DEFINICIÓN

Una variable aleatoria X se dice que tiene una distribución


beta de parámetros α y β, α>0, β>0 si tiene como fdp la dada
por

 xα-1 (1 − x) β −1

f(x) =  B(α, β ) , si 0 < x < 1
0, resto

Se notará X≡B(α,β).

En esta distribución se puede observar:

 Depende de dos parámetros α y β.


 Su media y varianza son:

α αβ
E(X)= , V(X)=
β +β (α + β )2 (α + β +1)
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Tema 5
Variables aleatorias bidimensionales

En la mayoría de los fenómenos aleatorios se tiene interés a la


vez en dos o más variables aleatorias, dando lugar a lo que se
conoce como variables aleatorias multidimensionales. Para
simplificar los desarrollos vamos a considerar el caso
bidimensional donde el interés se centra en lo que se
denomina variable aleatoria bidimensional, que no es más que
dos variables aleatorias X e Y que cuando se consideran a
nivel bidimensional se representan por (X,Y).

DEFINICIÓN

Una variable aleatoria bidimensional (X,Y) es una función


definida sobre Ω que toma valores en ℜ2, es decir
(X,Y):Ω→ℜ2
ω →(X,Y)(ω) = (X(ω),Y(ω))∈ℜ2

DEFINICIÓN.- (Función de distribución))

Dada una v.a. bidimensional (X,Y), a la función definida en ℜ2


que toma valores en ℜ

F(x,y)=P(X≤x;Y≤y)

109
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
Se le denomina función de distribución de (X,Y).

Propiedades

1) F(+∞,+∞)=1
2) F(x,- ∞)=0, ∀x∈ℜ
3) F(-∞,y)=0, ∀y∈ℜ
4) F(x,y) es monótona no decreciente respecto a cada una
de las variables.
5) F(x,y) es continua por la derecha en cada una de las
variables.
6) Para ∀h, k>0;
ΔF(x,y)=P(x<X≤x+h;y<Y≤y+k)=F(x+h,y+k)-F(x+h,y)-
F(x,y+k)+F(x,y)>0

Variables aleatorias bidimensionales discretas

Una variable aleatoria bidimensional es discreta cuando las


dos variables que la componen siguen una distribución
discreta.
De manera análoga al problema de la distribución de
probabilidad de una v.a. unidimensional se plantea el de una
bidimensional, siendo habitual proporcionar dicha
distribución a través de la llamada función de masa de
probabilidad conjunta de (X,Y), notada por PX,Y(xi,yj), que
proporciona las probabilidades con que X e Y pueden
conjuntamente tomar los diferentes valores (xi,yj). Es decir,

110
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
PX,Y(xi,yj) = P[X=xi,Y=yj]=pij

donde
pij=P[X=xi,Y=yj] =P[(X=xi) ∩ (Y=yj)].

En este caso se tiene que

∑∑p i j
ij =1

Como en el caso unidimensional, estas probabilidades pueden


venir en forma de tabla como ocurre en la siguiente situación.

Ejemplo

Un determinado tipo de artículos se fabrica en dos fases o


etapas. La tabla siguiente muestra las probabilidades
conjuntas Pij = P[X = xi, Y = yj] con i = 1, 2, 3, 4; j =1, 2, 3, 4,
5 para las variables X: nº de defectos en la 1ª fase e Y: nº de
defectos en la 2ª etapa.

Y
X 0 1 2 3 4
0 0.14 0.13 0.10 0.04 0.03
1 0.14 0.12 0.08 0.03 0.03
2 0.04 0.02 0.02 0.01 0
3 0.03 0.02 0.01 0.01 0

En el ejemplo que estamos siguiendo puede resultar


interesante estudiar la distribución de cada una de las
variables por separado, ya que así conoceríamos la

111
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
distribución del nº de defectos en cada una de las fases,
obteniéndose las llamadas distribuciones marginales.

La distribución marginal de X (resp. Y) se obtiene


considerando los valores que toma dicha variable y
asignándoles las probabilidades siguientes:

Pi.=P(X=xi)=∑pij
j

p.j=P(Y=yj)= ∑pij.
i

Verificándose
∞ ∞

∑p
i =1
i. = 1; ∑p
j =1
.j =1

Ejemplo
Obtener las dos distribuciones marginales del ejemplo
anterior y dar su significado.
Y Pi.
X 0 1 2 3 4
0 0.14 0.13 0.10 0.04 0.03 0.44
1 0.14 0.12 0.08 0.03 0.03 0.40
2 0.04 0.02 0.02 0.01 0 0.09
3 0.03 0.02 0.01 0.01 0 0.07
p.j 0.35 0.29 0.21 0.09 0.06 1

112
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
Variable aleatoria bidimensional continua

Diremos que una variable aleatoria bidimensional (X,Y) es


continua si ambas variables son continuas.

DEFINICIÓN

Dada una variable aleatoria bidimensional continua (X,Y) una


función no negativa f(x,y) es una función de densidad si
+∞+∞

∫ ∫ f (x,y)dxdy=1
−∞−∞

Por tanto se pueden hallar probabilidades con la función de


densidad conjunta de la forma siguiente:
x2 y2

P(x1<X≤x2;y1<Y≤y2)= ∫ ∫ f (x, y)dxdy


x1 y1

DEFINICIÓN

o Caso discreto
Dada una v.a. bidimensional discreta (X,Y) a la función

acumulativa

F(x,y)=P(X≤x, Y≤y)= ∑∑P[X= x , Y = y ]


xi ≤x y j ≤ y
i j

Se la denomina función de distribución de (X,Y).

113
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
o Caso continuo
Dada una variable aleatoria bidimensional continua (X,Y) a la
función acumulativa
x y
F(x,y)=P(X≤x;Y≤y)= ∫−∞ ∫−∞ f ( x, y )dxdy

Se la denomina función de distribución de (X,Y).

Se tiene entonces que

x y

F(x,y)=P(X≤x;Y≤y)= ∫ ∫ f (u, v)dudv


−∞−∞
Si F(x,y) es absolutamente continua, entonces

∂2 F(x, y)
= f (x, y) .
∂x∂y

Ejemplo caso discreto


Sea (X,Y) una variable aleatoria bidimensional con función de
masa conjunta la siguiente:
P(X=1,Y=2)=P(X=1,Y=3)=P(X=2,Y=2)=P(X=2,Y=3)=1/6
P(X=3,Y=3)=1/3
Se pide hallar la función de distribución de (X,Y).

Si x<1 ó y<2 => F(x,y)=0=P(X≤x, Y≤y)= ∑∑P[X= x , Y = y ]


xi ≤x y j ≤ y
i j

Si 1≤x<2 y 2≤y<3 => F(x,y)= P(X=1,Y=2)=1/6

Si 1≤x<2 y y≥3 => F(x,y)= P(X=1,Y=2)+P(X=1,Y=3)=1/6+1/6

114
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Si 2≤x<3 y 2≤y<3 => F(x,y)= P(X=1,Y=2) +P(X=2,Y=2)=1/6+1/6

Si 2≤x<3 y y≥3 => F(x,y)= P(X=1,Y=2)+P(X=1,Y=3)+


P(X=2,Y=2)+ P(X=2,Y=3)=1/6+1/6+1/6+1/6

Si x≥3 y 2≤y<3 => F(x,y)= P(X=1,Y=2)+P(X=2,Y=2)+ P(X=3,Y=2)


=1/6+1/6+1/3

Si x≥3 y y≥3 => F(x,y)= P(X=1,Y=2)+P(X=1,Y=3)+ P(X=2,Y=2)+


P(X=2,Y=3)+P(X=3,Y=3)=1/6+1/6+1/6+1/6+1/3

Así,

⎧0 si x < 1 ó y < 2
⎪1 / 6 si 1 ≤ x < 2 , 2 ≤ y < 3

⎪2/6 si 1 ≤ x < 2 , y ≥ 3

F(x, y) = ⎨2/6 si 2 ≤ x < 3 , 2 ≤ y < 3
⎪4/6 si 2 ≤ x < 3 , y ≥ 3

⎪4/6 si x ≥ 3 , 2 ≤ y < 3
⎪1 si x ≥ 3 , y ≥ 3

Ejemplo caso continuo

Sea (X,Y) una variable aleatoria bidimensional con función de


densidad conjuta

⎧ ⎧0 < x < 1
⎪x + y si ⎨
f(x, y) = ⎨ ⎩0 < y < 1
⎪ 0
⎩ resto

Se pide hallar la función de distribución de (X,Y).

115
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Si x<0 ó y<0 => F(x,y)=0

xy(x + y)
x y

Si 0≤x<1, 0≤y<1 => F(x,y)= ∫ ∫ (u + v )dudv =


0 0
2
x 1
x2 + x
Si 0≤x<1, y≥1 => F(x,y)= ∫ ∫ (u + v)dudv = 2
0 0

1 y1
y2 + y
Si x≥1, 0≤y<1 => F(x,y)= ∫ ∫ (u + v)dudv = 2
0 0

1 1

Si x≥1, y≥1 => F(x,y)= ∫∫ (u + v)dudv = 1


0 0

Así,

⎧0 si x < 0 ó y < 0
⎪xy(x + y)/2 si 0 ≤ x < 1 , 0 ≤ y < 1


F(x, y) = ⎨(x 2 + x)/2 si 0 ≤ x < 1, y ≥ 1
⎪(y 2 + y)/2 si x ≥ 1, 0 ≤ y < 1

⎪⎩1 si x ≥ 1, y ≥ 1

Así, en ambos casos se tiene que para calcular probabilidades


con la función de distribución
P(x1<X≤x2;y1<Y≤y2)=F(x2,y2)-F(x1,y2)-F(x2,y1)+F(x1,y1).

116
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
Al igual que en el caso discreto, conocida la distribución
conjunta de una variable aleatoria bidimensional (X,Y), se
puede hallar la distribución de las variables aleatorias X e Y.

Sea (X,Y) una variable aleatoria continua con función de


distribución F(X,Y) y función de densidad f(x,y), las funciones
de distribución marginales serán:

x ∞ x

F1(x)=F(x,∞)= ∫ ∫ f (u, v)dudv = ∫ f (u )du


−∞−∞ −∞
1

Siendo


f1 (x) = ∫ f (x,y)dy
−∞

denominada función de densidad marginal de X.

∞ y y

F2(y)=F(-∞,y)= ∫ ∫ f (u, v)dudv = ∫ f (v)dv


−∞−∞ −∞
2

Siendo


f2 (y) = ∫ f (x,y)dx
−∞

denominada función de densidad marginal de Y.

117
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
VARIABLES ALEATORIAS BIDIMENSIONALES
CONDICIONALES

o Caso discreto

En el ejemplo que estamos analizando en el caso discreto


resultaría interesante conocer como se comporta una de las
variables cuando la otra se ha manifestado en un
determinado valor, ya que así conoceríamos, por ejemplo, la
distribución del nº de defectos que se presentarán en una fase
dentro de aquellos artículos que tienen un determinado
número de defectos en la otra fase. Se obtendrían, así, las
llamadas distribuciones condicionadas.

La probabilidad de Y condicionada por X = x se obtiene


considerando los valores que toma la variable Y con las
probabilidades siguientes (resultado de emplear el concepto
de probabilidad condicionada):

P[X = x, Y = y]
PY/X(Y=y/X=x)=
P[X = x]

Análogamente, la probabilidad de X condicionada por Y = y se


obtiene considerando los valores que toma la variable X con
las probabilidades siguientes (resultado de emplear el
concepto de probabilidad condicionada):

P[X = x, Y = y]
PX/Y(X=x/Y=y)=
P[Y = y]
118
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Las funciones de distribución condicionadas son por tanto

i j

P ( X ≤ xi ; Y ≤ y j ) ∑∑ p km
P ( X ≤ xi / Y ≤ y j ) = = k =1 m =1

P(Y ≤ y j ) j

∑p
m =1
.m

i j

P ( X ≤ xi ; Y ≤ y j ) ∑∑ p km
P (Y ≤ y j / X ≤ xi ) = = k =1 m =1

P ( X ≤ xi ) i

∑p
k =1
k.

o Caso continuo

Sea (X,Y) una variable aleatoria continua con función de


distribución F(X,Y) y función de densidad f(x,y).

Se define la función de distribución de X condicionada al


valor de Y=y como la función

∫ f (u,y)du
F(x/y) = P(X ≤ x/Y= y) = −∞
f2 (y)

Análogamente, la función de distribución de Y


condicionada al valor de X=x como la función

119
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
y

∫ f (x,v)dv
F(y/x) = P(Y ≤ y/X= x) = −∞
f1(x)

Las correspondientes funciones de densidad


condicionadas serán

dF(x/y) f(x, y)
f(x/y) = =
dx f 2 ( y)
dF(y/x) f(x, y)
f(y/x) = =
dy f1 ( x )

Las probabilidades condicionadas serán:

P ( X ≤ x; Y ≤ y ) F ( x, y )
P( X ≤ x / Y ≤ y ) = =
P (Y ≤ y ) F2 ( y )
P ( X ≤ x; Y ≤ y ) F ( x, y )
P (Y ≤ y / X ≤ x) = =
P( X ≤ x) F1 ( x)

VARIABLES ALEATORIAS INDEPENDIENTES

Por otra parte, cuando los sucesos asociados a dos v.a. X e Y


sean (resp. no sean) independientes diremos que dichas

120
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
variables aleatorias son independientes (resp.
dependientes). Por tanto, se verificará el siguiente resultado.

o Caso discreto

TEOREMA

Sea una variable aleatoria bidimensional discreta (X,Y) con


fmp conjunta PX,Y(x,y)=P[X=x,Y=y]. Entonces las siguientes
afirmaciones son equivalentes:

1) X e Y son v.a. independientes.

2) P[X = x, Y = y] = P[X = x] . P[y = y], ∀ (x,y).

3) PX,Y(x, y) = Px (x) . PY (y), ∀ (x,y).

o Caso continuo

TEOREMA

Sea (X,Y) una variable aleatoria continua con función de


distribución F(X,Y) y función de densidad f(x,y). Entonces las
siguientes afirmaciones son equivalentes:

1. X e Y son variables aleatorias independientes.


2. F(x,y)=F1(x)F2(y) ∀(x,y)∈ℜ2.
3. f(x,y)=f1(x)f2(y) ∀(x,y)∈ℜ2.

121
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
TRANSFORMACIÓN DE VARIABLES ALEATORIAS
BIDIMENSIONALES

TEOREMA

Sea una variable bidimensional continua (X,Y) con función de


densidad f.
1. Sea z=g1(x,y)
t=g2(x,y)
una transformación biunívoca de R2 en R2, es decir,
existe la transformación inversa definida sobre el
recorrido de la transformación,
x=h1(z,t)
y=h2(z,t)
2. Suponemos que tanto la transformación como su inversa
son continuas.
3. Suponemos que existen las derivadas parciales
∂x ∂x ∂y ∂y
, , , , y que son continuas.
∂z ∂t ∂z ∂t
4. Suponemos que el jacobiano de la transformación inversa
∂x ∂x
∂ (x, y) ∂z ∂t
J= =
∂ (z, t) ∂y ∂y es distinto de cero en el recorrido de
∂z ∂t
la transformación.
Pues bien, bajo estas hipótesis, la variable aleatoria
bidimensional (Z,T) es continua y tiene por función de
densidad
l(z,t)=f(h1(z,t),h2(z,t)) |J|
122
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Ejemplo
Sea (X,Y) una variable aleatoria bidimensional con función de
densidad conjunta f y sea Z=X+Y. Hállese la función de
densidad de la variable Z.
Tomamos Z=X+Y
T=Y
Así, se tiene que z=x+y y que t=y, la transformación inversa
resulta
x=z-t
y=t
y su jacobiano
1 −1
J= =1
0 1
La función de densidad conjunta de (Z,T) es
l(z,t)=f(h1(z,t),h2(t))
Una vez obtenida la función de densidad conjunta l(z,t)
hallamos la de la variable Z integrando la conjunta respecto a
la variable T

l(z) = ∫ l(z, t)dt


t

Supongamos que la función de densidad conjunta de (X,Y) es


f(x,y)=1 si 0≤x≤1 y 0≤y≤1.
En este caso tenemos que
l(z,t)=f(h1(z,t),h2(t))=1
con soporte, de acuerdo con el de (X,Y):
123
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

0≤z-t≤1, 0≤t≤1

Gráficamente T
t=z t=z-1

1 2 Z
Por tanto, para 0≤z≤1
z
l(z) = ∫ l(z, t)dt = ∫ 1dt = z
t 0

Para 1≤z≤2

1
l(z) = ∫ l(z, t)dt = ∫ 1dt = 2 - z
t z −1

Cuando la variable bidimensional es de tipo discreto la forma


de actuar es más sencilla como se puede ver en el siguiente
ejemplo.
Ejemplo
Sea (X,Y) una variable aleatoria bidimensional con función de
masa conjunta la siguiente:
P(X=0, Y=0)=P(X=0, Y=1)=P(X=1,Y=0)=1/3.
Se desea hallar la distribución de la variable Z=X+Y
P(Z=0)=P(X=0, Y=0)=1/3
P(Z=1)=P(x=0, Y=1)+P(X=1, Y=0)=2/3

124
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
CARACTERÍSTICAS

DEFINICION

o Caso discreto
Sea una variable aleatoria bidimensional discreta (X,Y) con
fmp conjunta PX,Y(x,y) = P[X=x, Y=y]. Se llama esperanza de
cualquier función g(X,Y) de estas variables aleatorias,
notándose por E[g(X,y)],al número real

E[g(X,Y)]= ∑∑g(x, y)PX,Y (x, y)


x y

o Caso continuo

Sea (X,Y) una variable aleatoria continua con función de


distribución F(X,Y) y función de densidad f(x,y). Se llama
esperanza de cualquier función g(X,Y) de estas variables
aleatorias, notándose por E[g(X,Y)], al número real

+∞+∞
E[g(X,Y)] = ∫ ∫ g(x,y)f(x, y)dxdy
−∞−∞

Casos particulares especialmente interesantes son:

1) g(X,Y) = X, da la media de la v.a. X, notada por μX.

2) g(X,Y) = Y, da la media de la v.a. Y, notada por μY.

125
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
3) g(X,Y) = XY, da la media de la v.a. producto.

4) g(X,Y)=(X-μX)(Y-μY), permite obtener la llamada


covarianza entre X e Y que suele ser habitual notarla por
Cov(X,Y).

Se puede demostrar que

Cov(X,Y) = E(X-Y) - E(X)E(Y)

expresión utilizada habitualmente para hallar la covarianza.

DEFINICIÓN

o Caso discreto

Sea una variable aleatoria discreta (X,Y). Se llama varianza

de una función g(X,Y) de la variable a la expresión

σ2g(X,Y)=E((g(X,Y)-E(g(X,Y)))2)

Propiedades

1) E(XY)=E(X)E(Y) si X e Y son independientes.


2) V(X+Y)=V(X)+V(Y) si X e Y son independientes.
3) V(X+Y)=V(X)+V(Y)+2Cov(X,Y).
4) V(X-Y)=V(X)+V(Y)-2Cov(X,Y).
5) Si X e Y son independientes, entonces Cov(X,Y)=0

D
126
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
DEFINICIÓN
Momentos respecto al origen
o Caso discreto

α rs = E ( X r Y s ) = ∑∑ x ir y sj p ij
i j

o Caso continuo
∞ ∞
α rs = E ( X r Y s ) = ∫ ∫ x y f(x, y)dxdy
r s

− ∞− ∞

Los momentos más habituales son:


ƒ α10=E(X)
ƒ α01=E(Y)
ƒ α20=E(X2)
ƒ α02=E(Y2)
ƒ α11=E(XY)
Desigualdad de Schwarz
Sea (X,Y) una variable aleatoria bidimensional, tal que α20 y
α02 existen, entonces
[E(XY)]2≤E(X2)E(Y2)
Demostración:
Sea t un número real
E(tX+Y)2=t2E(X2)+E(Y2)+2tE(XY)≥0
ƒƒ Si E(X2)=0, la solución es trivial, ya que E(XY)=0 puesto
que X sería una variable aleatoria degenerada, tal que
P(X=0)=1.
ƒƒ Sea el caso general, donde E(X2) ≥0, y tomemos
t=-E(XY)/E(X2)
127
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
de manera que
[-E(XY)/E(X2)]2E(X2)+E(Y2)+2[-E(XY)/E(X2)]E(XY) ≥0
[E(XY)]2/E(X2)+E(Y2)-2[E(XY)]2/ E(X2) ≥0
E(Y2) ≥[E(XY)]2/ E(X2)
Es decir,
[E(XY)]2≤E(X2)E(Y2)

DEFINICIÓN
Momentos respecto a las medias
o Caso discreto

μ rs = E[(X − α 10 ) r (Y - α 01 ) s ] = ∑∑ (x i − α 10 ) (y j − α 01 ) p ij
r s

i j

o Casos continuo

∞ ∞
μ rs = E[(X − α10 ) (Y - α 01 ) ] =
r s
∫∫ (x - α10 )r
( y − α 01 )s
f(x, y)dxdy
-∞ -∞

Los momentos respecto a las medias más frecuentes son:

ƒƒ μ10=0

ƒƒ μ01=0

ƒƒ μ20=V(X)

ƒƒ μ02=V(Y)

ƒƒ μ11=Cov(X,Y)

Generalización de la desigualdad de Schwarz

{E[(X-α10)(Y-α01)]}2≤E[(X-α10)2]E[(Y-α01)2]
128
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu
Es decir,

[Cov(X,Y)]2≤V(X)V(Y)

Propiedad

Si Z=a+bX y T=c+dY, entonces


Cov(Z,T)=bdCov(X,Y)
Demostración
Cov(Z,T)=E[(Z-E(Z))(T-E(T))]=E[(a+bX-(a+bE(X))(c+dY-(c+dE(Y))]
=E[b(X-E(X))d((Y-E(Y))]=bdE[(X-E(X))(Y-E(Y))]=bdCov(X,Y)

FUNCIÓN CARACTERÍSTICA BIDIMENSIONAL

DEFINICIÓN
o Caso discreto

ϕ (t1 ; t 2 ) = E (e it X +it Y ) = ∑∑ e
1 2
it1 xi + it 2 y j
pij
i j

o Caso continuo
∞ ∞
ϕ (t1; t2 ) = E (e it1 X + it 2Y
)= ∫ ∫ e it1 x + it 2 y
f ( x, y )dxdy
−∞ −∞

Propiedades
1. Al igual que en el caso unidimensional, como

eit1 X + it 2Y = cos(t1 X + t2Y ) + isen(t1 X + t2Y ) la función


característica siempre será convergente, con lo que queda
asegurada su existencia.
129
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

2. Para t1=t2=0, ϕ(0,0)=1


3. La función ϕ( t1,t2) está acotada, siendo |ϕ( t1,t2)|≤1, pues

eit1 X + it 2Y = cos 2 (t1 X + t2Y ) + sen 2 (t1 X + t2Y ) = 1

4. Si los momentos respecto al origen existen se pueden


calcular a partir de ϕ( t1,t2). Así,

∂ k ϕ (t1 ; t 2 )
k −s
= i k
α k − s ,s
∂t1 ∂t 2 t1 =0
s
t2 =0

5. La función característica es única. A cada función de


distribución bidimensional le corresponde una y sólo una
ϕ( t1,t2), y viceversa.
6. Si ϕ( t1,t2) es la función característica de (X,Y), dada la
variable aleatoria Z=X+Y entonces ϕZ(t)= ϕ(X,Y)( t,t).
Si además, X e Y son independientes, entonces ϕZ(t)=
ϕ(X,Y)( t,t)= ϕX(t) ϕY(t)

Funciones características marginales


Las funciones características marginales se pueden obtener
teniendo en cuenta que
ƒƒ ϕ( t1,0)= ϕ1( t1)
ƒƒ ϕ( 0,t2)= ϕ2( t2)
Si además, las variables son independientes
ƒƒ ϕ( t1,t2)= ϕ( t1,0) ϕ( 0,t2)= ϕ1( t1)ϕ2( t2)

130
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Tema 6
Regresión y correlación

Al estudiar una variable aleatoria bidimensional puede


pensarse que entre ambas exista algún tipo de relación. La
existencia de alguna forma de asociación entre las variables
aleatorias nos sugiere que las variables no son
independientes.
En el estudio de la posible relación entre variables aleatorias
tenemos dos objetivos básicos:
ƒƒ Determinar la función Y=h1(X) que mejor exprese el
comportamiento de Y para cada uno de los valores que
pueda tomar X, o X=h2(Y) para exprear la relación en el
sentido contrario. Esta función se llama función de
regresión o curva de regresión.
ƒƒ Medir la intensidad de la relación que pueda existir entre
las variables, es decir, la correlación entre X e Y.

DEFINICIÓN
Dada la variable aleatoria bidimensional (X,Y), se define la
esperanza matemática de la variable aleatoria X
condicionada a un valor determinado de la variable Y=y,
si existe, como
130
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

o Caso discreto

E(X/Y) = E(X/Y = y) = ∑ x i P(X = x/Y = y)


i

o Caso continuo

E(X/Y) = E(X/Y = y) = ∫ xf(x/y)dx


X

CURVA DE REGRESIÓN
Dada la variable aleatoria bidimensional (X,Y), llamaremos
curva de regresión de Y sobre X a la curva de ecuación
y=m1(x) donde m1(x)=E(Y/X=x).
Análogamente, llamaremos curva de regresión de X sobre Y
a la curva x=m2(y), donde m2(y)=E(X/Y=y).
DEFINICIÓN
Se llama Error cuadrático medio (ECM), a la dispersión de la
variable en torno a un origen cualquiera k
ECM(X)=E((X-k)2)

Este error se hará mínimo cuando coincida con la varianza, es


decir, cuando la dispersión se mida respecto a la media μ.
ECM(X)=E((X-k)2)=E((X-k+μ-μ)2)=E((X-μ)2)-2(k-μ)E(X-μ)+(k-μ)2=
= E((X-μ)2) +(k-μ)2
Ahora,
131
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

mink ECM(X)=mink E((X-μ)2)+mink(k-μ)2= E((X-μ)2)+ mink(k-μ)2=


= E((X-μ)2)=V(X)
Ya que (k-μ)2≥0.
Propiedad
Las curvas de regresión tal como han sido definidas,
proporcionan las funciones explicativas m1(x) o m2(y), según el
caso, que ofrecen la mejor representación o estimación posible
de la variable explicada en el sentido de menor error
cuadrático medio.
Demostración
minECM(Y)=minE((Y-h1(X)/X=x)2)=E((Y-E(Y/X=x))2)=
=E((Y-m1(x))2)
Ejemplo
Sea (X,Y) una variable aleatoria con función de densidad
conjunta
F(x,y)=x+y para 0≤x≤1; 0≤y≤1
Determínes la curva de regresión de Y sobre X.
En primer lugar se obtiene las densidad marginal de X
∞ 1
1
f 1 ( x ) = ∫ f(x, y)dy = ∫ (x + y )dy = x +
-∞ 0
2

Despúes la condicionada

f(x, y) x + y
f(y/x) = =
f1 ( x ) x + 1 para 0≤x≤1; 0≤y≤1
2

132
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Así,
x 1
∞ 1 +
m1 (x) = E(Y/X = x) = ∫ yf(y/x)dy = ∫ y
x+y
dy = 2 3 = 3x + 2
1 1 6x + 3
-∞ 0 x+ x+
2 2

3x + 2
y=
6x + 3

Cuando la curva de regresión es una recta, las funciones


m1(x) y m2(y) tienen la siguiente forma:
m1(x)=E(Y/X=x)=a+bx
m2(y)=E(X/Y=y)=c+dy
Para la determinación de los coeficientes de estas rectas, se
hará tan sólo para el caso m1(x), pues el otro es análogo se
tiene que:
∞ ∞
1
m1 (x) = E(Y/X = x) = ∫ yf(y/x)dy = ∫ yf(x, y)dy = a + bx
-∞
f 1 ( x ) -∞

Es decir,

∫ yf(x, y)dy = af ( x ) + bxf (x )


-∞
1 1

Integrando ambos términos de la igualdad en el campo de


variación de la variable X, y multiplicando por x ambos
términos antes de integrar, por segunda vez, tendremos,
respectivamente:

133
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

∞ ∞ ∞ ∞

∫ ∫ yf(x, y)dxdy = a ∫ f (x )dx + b ∫ xf (x )dx


-∞ -∞ -∞
1
-∞
1

∞ ∞ ∞ ∞

∫ ∫ xyf(x, y)dxdy = a ∫ xf (x )dx + b ∫ x f (x )dx


2
1 1
-∞ -∞ -∞ -∞

Sistema de ecuaciones que se puede expresar en términos de


momentos como:
α01=a+bα10
α11=aα10+bα20
Cuya solución resulta
α11 − α10 α 01 μ11 Cov(X, Y)
b= = =
α 20 − α10
2
μ 20 σ 2X
a = α 01 − bα10

REGRESIÓN MÍNIMO-CUADRÁTICA

Dos son los aspectos que diferencian la regresión mínima-


cuadrática con la curva de regresión:
1. En la regresión mínima-cuadrática de Y sobre X, en lugar
de aceptar que Y=h(X) adopte la forma funcional que
proceda, se selecciona a priori una determinada familia
de funciones que suponemos que es la que mejor
representa la relación existente entre X e Y. Por ejemplo,
rectas, parábolas, exponenciales,…A continuación se
trata de encontrar entre todas las funciones que

134
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

pertenezcan a la clase funcional elegida, aquella que


mejor represente a la variable Y.
2. Para hallar dentro de una clase funcional, la función
concreta que mejor se ajusta a Y, se utiliza lo que se
llama principio de mínimos cuadrados. Este método
busca la ecuación de la función de tal forma que el error
cometido de la regresión de Y sobre X sea mínimo.

Regresión lineal mínimo-cuadrática


La regresión mínimo-cuadrática es lineal si la familia de
funciones seleccionada incluye a todas las rectas y es por
tanto del tipo:

Ŷ = β 0 + β1 X

Que depende de los parámetros β0 y β1, se trata entonces de


hallar los valores de estos parámetros para los cuales sea
míninmo el error cometido, es decir,

min E((Y − Ŷ) ) = min E((Y - (β 0 + β1 X)) ) = min ψ(β 0 ; β1 )


2 2
β 0β1 β 0β1 β 0β1

Para determinar este mínimo:

135
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

ψ(β 0 ; β1 ) = E(Y 2 + β 02 + β12 X 2 + 2β 0β1 X − 2β 0 Y − 2β1 XY) =


= α 02 + β 02 + β12 α 20 + 2β 0 β1α10 − 2β 0 α 01 − 2β1α11

∂ ⎫
ψ(β 0 ; β1 ) = 2β 0 + 2β1α10 − 2α 01 = 0 ⎪
∂β 0 ⎪
⎬⇒

ψ(β 0 ; β1 ) = 2β1α 20 + 2β 0 α10 − 2α11 = 0⎪
∂β1 ⎪⎭

β 0 = α 01 − β1α10 ⎫
⎬⇒
2β1 (α 20 − α10
2
) + 2α10 α 01 − 2α11 = 0⎭

α11 − α10 α 01 μ11 cov(X; Y)


β1 = = =
α 20 − α10
2
μ 20 σ X2
μ11
β 0 = α 01 − α 01
μ 20

Así, pues la recta de regresión de Y sobre X es

μ 11 μ 11
y = α 01 − α 01 + x
μ 20 μ 20
O sea,

μ 11
y − α 01 = (x - α10 )
μ 20

Análogamente, la recta de regresión de X sobre Y es

136
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

μ11
x − α10 = (y - α 01 )
μ 02

Observaciones.-
o La intersección de las dos rectas de regresión mínimo-
cuadráticas, de Y sobre X y de X sobre Y, es el punto
(α10,α01), que recibe el nombre de centro de gravedad de
la distribución bidimensional.
o Las pendientes de las rectas reciben el nombre de
coeficientes de regresión de Y sobre X, y de X sobre Y,
respectivamente, y siempre tienen el mismo signo, pues
éste depende de la covarianza entre X e Y. Por tanto, las
dos rectas son decrecientes, o las dos son crecientes,
siempre que la covarianza sea distinta de cero.
o Si comparamos estos resultados con los de la curva de
regresión en el caso lineal, podemos ver que coinciden.
Es decir, cuando se obtiene la curva de regresión y
resulta una recta es igual a la recta de regresión mínima-
cuadrática.

CORRELACIÓN

137
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Una vez hallada la regresión entre dos variables es necesario


estudiar el grado de asociación que existe entre ellas, este
grado de asociación recibe el nombre de correlación.

A la diferencia, Y- Ŷ , se le llama error o residuo, este error


puede ser un buen indicador del grado de bondad de la

estructura de la dependencia que induce la función Ŷ con


respecto a Y, de forma que si, para los diferentes valores de X,
estas diferencias o errores son pequeños, querrá decir que la
variable Y presenta una cierta relación respecto a X y podrá

expresarse razonadamente mediante Ŷ .


La varianza residual o varianza de los errores definida
como

σ e2 = V(e) = E((Y − Ŷ) 2 )


puede considerarse como una medida inicial de correlación,
ya que cuanto menor sea V(e), menores serán los errores, y
por tanto, mayor la correlación entre las variables X e Y, y
viceversa.
Partiendo de V(e), Pearson propuso el coeficiente general de
correlación

σ e2
ρG = 1 − 2
σY
Con

σ e2 = σ 2Y (1 − ρ G2 )

138
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Siendo ρ G2 el llamado coeficiente general de


determinación.

Coeficiente de correlación lineal


La recta de regresión mínimo-cuadrática de Y sobre X tiene la
siguiente expresión

μ 11 μ 11
Ŷ = α 01 − α 01 + X
μ 20 μ 20 ,

Y por tanto,
2 2
μ cov ( X; Y )
σ e2 = V(e) = E((Y − Ŷ) 2 ) = σ 2Y − 11 = σ 2Y −
μ 20 σ 2X y

el coeficiente de correlación general se transformas en

cov 2 ( X; Y )
2
σ − 2
Y
σe σ 2X cov(X; Y )
ρ = 1− 2 = 1− =
σY σ 2Y σXσY
Es decir,
cov(X; Y)
ρ=
σ Xσ Y
que recibe el nombre de coeficiente de correlación lineal.
Observaciones.-
o Los coeficientes de regresión lineal y el coeficiente de
correlación lineal tienen siempre el mismo signo, pues éste
depende del que tenga la covarianza. Si la cov(X;Y)>0 las
rectas de regresión de X sobre Y y de Y sobre X son
139
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

crecientes y la correlación lineal es positiva o directa. Si


cov(X;Y)<0, ambas rectas son decrecientes y la correlación
lineal negativa o inversa.
o Dado que

cov(X; Y)
β1 =
σ 2X
cov(X; Y)
β1′ =
σ 2Y
Entonces

ρ = β1β1′
Es decir, el coeficiente de correlación lineal es la media
geométrica de los coeficientes de regresión lineal.
o Como
cov(X; Y) cov(X; Y) σ Y σY
β1 = = = ρ
σ 2X σXσY σX σX
cov(X; Y) cov(X; Y) σ X σX
β 1′ = = = ρ
σ 2Y σXσY σY σY
Las rectas de regresión se pueden escribir también de la
siguiente forma:

140
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

σY
y − α 01 = ρ (x - α10 )
σX
σX
x − α10 = ρ (y - α 01 )
σY
o -1≤ρ≤1 (de la desigualdad de Schwarz)
o La pendientede la recta de regresión de X sobre Y es
superior a la de Y sobre X.
o Si ρ=1, la varianza residual es cero y los valores de la
variable Y coinciden con los inducidos por la recta de

regresión Ŷ ,es decir, la distribución de probabilidad de


la variable Y toma sólo valores que se encuentran sobre
la recta. En este caso, la correlación lineal es perfecta
positiva, las rectas de regresión de Y sobre X y de X
sobre Y coinciden, y admás, esta única recta es
creciente.
o Si ρ=-1, la correlación lineal es perfecta negativa. Las
rectas de regresión también coinciden, pero la recta
obtenida es decreciente.
o Si ρ=0, la correlación lineal es nula y entonces se dicen
que las variables están incorrelacionadas o
incorreladas. En este caso las rectas de regresión son

Ŷ - α 01 = 0
X̂ - α10 = 0
Son dos rectas perpendiculares entre sí y paralelas
cada una de ellas a los ejes de coordenadas
141
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

cartesianas. Esta disposición de las rectas indica la


inexistencia de asociación lineal.
o Si -1<ρ<0, la correlación es negativa y las dos rectas de
regresión son distintas y ambas decrecientes.
o Si 0<ρ<1, la correlación es positiva y las dos rectas de
regresión son distintas y ambas crecientes.
TEOREMA
1. Si dos variables aleatorias son independientes, entonces
ρ=0 y son incorreladas.
Demostración
Si dos variables son independientes, entonces la covarianza
entre ellas es cero y por tanto, también lo es el coeficiente de
correlación.
Observación.-
El recíproco no es generalmente cierto, el hecho de que dos
variables sean incorreladas significa que no existe entre ellas
relación lineal, pero puede que exista otro tipo de relación
(parábolica, exponencial,…), por lo que no es condición
suficiente para concluir la existencia de independencia.
2. Si m1(x)=E(Y/X=x) es igual a una constante, las variables
aleatorias son incorreladas.
DemostraciónS
Si m1(x)=E(Y/X=x)=a+bx => b=0 y m1(x)=a
Pero como

142
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Cov(X, Y)
b= 2
= 0 ⇒ cov(X; Y) = 0 ⇒ ρ = 0
σX
y
i
a = α 01 − bα10 = α 01
REGRESIÓN Y DISTRIBUCIÓN NORMAL BIDIMENSIONAL
DEFINICIÓN
Una variable aleatria bidimensional (X,Y) sigue una
distribución normal bidimensional o bivariante, si su función
de densidad conjunta es
1 ⎡ ⎛ x −μ X
2 2⎤
⎞ ⎛ x −μ X ⎞ ⎛ y −μ Y ⎞ ⎛ y −μ Y ⎞
- ⎢⎜ ⎟⎟ − 2 ρ ⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟+⎜⎜ ⎟⎟ ⎥
1 2(1-ρ2 ) ⎢ ⎜⎝ σ X ⎠ ⎝ σX ⎠ ⎝ σY ⎠ ⎝ σY ⎠ ⎥
f(x, y) = e ⎣ ⎦

2π(σ X σ Y ) 1 − ρ 2

con -∞<x<∞; -∞<y<∞.


Siendo μX y μY las esperanzas marginales de las variables X e
Y, respectivamente, y σX y σY sus desviaciones típicas. El
parámetro ρ es el coeficiente de correlación entre estas
variables.
Las funciones de densidad marginales son, respectivamente:
2
1 ⎛ x −μ X ⎞
- ⎜⎜ ⎟⎟
1 2 ⎝ σX
f1 (x) = e ⎠

σ X 2π
2
1 ⎛ y −μ Y ⎞
- ⎜⎜ ⎟⎟
1 2 ⎝ σY
f 2 ( y) = e ⎠

σ Y 2π
Por otra parte, si se calculan sus esperanzas condicionadas,
se tiene:

143
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

σY
E(Y/X = x) = μ Y + ρ (x − μ X )
σX
σX
E(X/Y = y) = μ X + ρ (y − μ Y )
σY
Que son las curvas de regresión de Y sobre X y de X sobre Y.
Observación.-
o Las variables aleatorias X e Y generalmente no son
independientes. (f(x,y)≠f1(x)f2(y))
o Las distribuciones marginales son distribuciones normales
univariantes.
o El tipo de asociación que existe entre las variables X e Y es
lineal.
o Si ρ=0, la función de densidad conjunta es:
1 ⎡ ⎛ x −μ X
2 2⎤
⎞ ⎛ y −μ Y ⎞
- ⎢ ⎜⎜ ⎟⎟ +⎜⎜ ⎟⎟ ⎥
1 2 ⎢ ⎝ σX ⎠ ⎝ σY ⎠ ⎥
f(x, y) = e ⎣ ⎦
2π(σ X σ Y )
Que es el producto de las densidades marginales, es decir,
f(x,y)=f1(x)f2(y).
Este es el único caso en el que la independencia e
incorrelación puede considerarse equivalente.

144
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Tema 7
Convergencia de sucesiones de
variables aleatorias

CONVERGENCIA EN PROBABILIDAD

DEFINICIÓN
Sea ⎨Xn⎬n∈ℵ una sucesión de variables aleatorias no
necesariamente independientes, definidas sobre un
mismo espacio de probabilidad (Ω,A,P). Diremos que
⎨Xn⎬n∈ℵ converge en probabilidad hacia la variable
aleatoria X, definida en el mismo espacio de probabilidad,
si y sólo si

∀ε > 0, lim P(ω ∈ Ω : X n (ω) − X(ω) > ε) = 0


n →∞

O, considerando el suceso complementario

∀ε > 0, lim P(ω ∈ Ω : X n (ω) − X(ω) ≤ ε) = 1


n →∞

Denotaremos la convergencia en probabilidad como

Xn ⎯
⎯→
P
X
Observación.-
o La convergencia en probabilidad significa que la
diferencia entre Xn y X es verosílmente pequeña con gran
probabilidad para n suficientemente grande. Pero no

146
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

significa que Xn(ω)-X(ω) sea pequeña para cada ω, incluso


para n suficientemente grande.
o El límite no tiene que ser necerariamente una variable,
ya que puede ser una constante.
Ejemplo
Sea ⎨Xn⎬n∈ℵ una sucesión tal que P(Xn=1)=1/n y
P(Xn=0)=1-1/n.

⎧⎪ 1
P(X n = 1) = , si 0 < ε < 1
P(ω ∈ Ω : X n (ω) > ε) = ⎨ n
⎪⎩ 0, si ε ≥ 1

lim
Con lo que n → ∞ P(ω ∈ Ω : X n (ω ) > ε) = 0 ⇒ X n ⎯
⎯→
P
0

Propiedades

¾ Si
¾ Xn ⎯
⎯→
P
X,

ƒƒ Xn − X ⎯
⎯→
P
0

ƒƒ Si c es una constante distinta de 0, cXn ⎯


⎯→
P
cX

ƒƒ Si Y es una variable aleatoria, Xn Y ⎯


⎯→
P
XY

ƒƒ Si g una función real y continua, g(Xn ) ⎯


⎯→
P
g(X)

ƒƒ Si k es real y mayor que 0, X kn ⎯


⎯→
P
Xk

¾
¾ Si Xn ⎯
⎯→
P
X y Yn ⎯
⎯→
P
Y,

147
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

ƒƒ X n ± Yn ⎯
⎯→
P
X±Y

ƒƒ X n Yn ⎯
⎯→
P
XY
ƒƒ Si g es una función real y continua,

g(Xn ; Yn ) ⎯
⎯→
P
g(X; Y)
ƒƒ Si k y h son reales mayores que 0,

X kn Ynh ⎯
⎯→
P
Xk Yh

¾
¾ Si Xn ⎯
⎯→
P
X y Xn ⎯
⎯→
P
Y se verifica que P(X=Y)=1

¾
¾ Si Xn ⎯
⎯→
P
a y Yn ⎯
⎯→
P
b , siendo a y b constantes

ƒƒ X n Yn ⎯
⎯→
P
ab
Xn P a
ƒƒ

⎯→ , si b ≠ 0
Yn b
CONVERGENCIA CASI SEGURA

DEFINICIÓN
Sea ⎨Xn⎬n∈ℵ una sucesión de variables aleatorias,
definidas sobre un mismo espacio de probabilidad
(Ω,A,P). Diremos que ⎨Xn⎬n∈ℵ converge casi seguro hacia
la variable aleatoria X, definida en el mismo espacio de
probabilidad, si y sólo si
P(ω ∈ Ω : lim X n (ω) = X(ω)) = 1
n →∞

148
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Denotaremos la convergencia casi segura como

X n ⎯⎯→
cs
X

Propiedades

¾ Si
¾ X n ⎯⎯→
cs
X,

ƒƒ X n − X ⎯⎯→
cs
0

ƒƒ Si c es una constante distinta de 0, cXn ⎯⎯→


cs
cX

ƒƒ Si g una función real y continua, g(X n ) ⎯⎯→


cs
g(X)

ƒƒ Si k es real y mayor que 0, X kn ⎯⎯→


cs
Xk

¾
¾ Si X n ⎯⎯→
cs
X y Yn ⎯⎯→
cs
Y,

ƒƒ X n ± Yn ⎯⎯→
cs
X±Y

ƒƒ X n Yn ⎯⎯→
cs
XY
ƒƒ Si g es una función real y continua,

g(Xn ; Yn ) ⎯⎯→
cs
g(X; Y)
ƒƒ Si k y h son reales mayores que 0,

X kn Ynh ⎯⎯→
cs
Xk Yh
X n cs X
ƒƒ
⎯⎯→ ,
Yn Y siempre que los cocientes estén

definidos.

149
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

TEOREMA
Sea ⎨Xn⎬n∈ℵ una sucesión estrictamente decreciente de
variables aleatorias positivas y supongamos que

Xn ⎯
⎯→
P
0 , entonces X n ⎯⎯→
cs
0.

TEOREMA

Si X n ⎯⎯→
cs
X , entonces X n ⎯
⎯→
P
X
TEOREMA
Si ⎨Xn⎬n∈ℵ converge en probabilidad a X, existe una
subsucesión ⎨Xnj⎬j∈ℵ de la dada que converge casi
seguramente a X.

CONVERGENCIA EN DISTRIBUCIÓN O EN LEY

DEFINICIÓN
Sea ⎨Xn⎬n∈ℵ una sucesión de variables aleatorias,
definidas sobre un mismo espacio de probabilidad
(Ω,A,P). Diremos que ⎨Xn⎬n∈ℵ converge en distribución o
en ley hacia la variable aleatoria X, definida en el mismo
espacio de probabilidad, si y sólo si la correspondiente

150
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

sucesión de funciones de distribución de las Xn, ⎨Fn⎬n∈ℵ,


converge hacia la función de distribución F de la variable
aleatoria X en todo punto de continuidad de la función.
Es decir,
lim Fn (x ) = F(x )
n →∞

para todos los puntos de continuidad de F.


Denotaremos la convergencia en distribución como

Xn ⎯
⎯→
d
X

Observación.-
La convergencia puntual de Fn(x) hacia F(x) no es
suficiente para asegurar que exista convergencia, es
preciso además que la función límite sea una función de
distribución.

Propiedades

¾ Si
¾ Xn ⎯
⎯→
d
X,

ƒƒ Xn − X ⎯
⎯→
d
0

ƒƒ Si c es una constante distinta de 0, cXn ⎯


⎯→
d
cX

ƒƒ Si c es una constante, Xn + c ⎯
⎯→
d
X+c

ƒƒ Si g una función real y continua, g(Xn ) ⎯


⎯→
d
g(X)

151
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

¾
¾ Si Xn ⎯
⎯→
d
X y Yn ⎯
⎯→
P
c, donde c es una
constante

ƒƒ X n ± Yn ⎯
⎯→
d
X±c

ƒƒ X n Yn ⎯
⎯→
d
cX si c es distinta de 0

ƒƒ X n Yn ⎯
⎯→
P
0 si c=0

Xn d X
ƒƒ

⎯→ , si c ≠ 0
Yn c

TEOREMA

Si Xn ⎯
⎯→
P
X , entonces X n ⎯
⎯→
d
X.

TEOREMA
Sea ⎨Xn⎬n∈ℵ una sucesión de variables aleatorias, con
función de masa pn(k)=P(Xn=k), k=0,1 2,…, n=1,2,… Sea
p(k)=P(X=k), la función de masa de una variable aleatoria
X. Entonces

p n (k) → p(k), ∀k ⇔ X n ⎯
⎯→
d
X

TEOREMA
Sean Xn, n=1,2,… y X variables aleatorias continuas, con
funciones de densidad fn(x) y f(x) respectivamente.
Entonces

152
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

f n (x) → f(x), para casi todo x ⇒ X n ⎯


⎯→
d
X

TEOREMA

Si k es una constante. Entonces Xn ⎯


⎯→
d
k =>
Xn ⎯
⎯→
P
k

CONVERGENCIA EN MEDIA DE ORDEN r


DEFINICIÓN
Sea ⎨Xn⎬n∈ℵ una sucesión de variables aleatorias,
diremos que converge en media de orden r hacia la
variable aleatoria X si y sólo si

lim E(| X n − X |r ) = 0
n →∞

Siendo E(|Xn|r) y E(|X|r) finitas.


Denotaremos la convergencia en media de orden r como

X n ⎯⎯→
mr
X
Si existe el momento de orden r, sabemos que existen
todos los momentos de orden inferior, por tanto, si s≤r

X n ⎯⎯→
mr
X ⇒ X n ⎯⎯→
ms
X
Cuando r=2 da lugar a la convergencia en media
cuadrática: Sea ⎨Xn⎬n∈ℵ una sucesión de variables

153
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

aleatorias, diremos que converge en media cuadrática


hacia la variable aleatoria X si y sólo si

lim E(| X n − X |2 ) = 0
n →∞

Propiedades de la convergencia en media cuadrática


¾
¾ Si

X n ⎯⎯→
mc
X ⇒ E (X n ) ⎯⎯→
mc
E(X) y E(X2n ) ⎯⎯→
mc
E(X2 )
y de ambas se deduce que V(X n ) ⎯⎯→ V(X) .
mc

¾
¾ La sucesión ⎨Xn⎬n∈ℵ converge en media cuadrática a
una constante c, si y sólo si, se verifican las dos

condiciones siguientes: nlim E(X n ) = c y lim V(X n ) = 0


→∞ n →∞

¾
¾ Si X n ⎯⎯→
mc
X y Yn ⎯⎯→
mc
Y,

ƒƒ E(Xn Yn ) ⎯⎯→
mc
E(XY)
ƒƒ De esta propiedad y de la primera se tiene que

Cov(Xn Yn ) ⎯⎯→
mc
Cov(XY)

TEOREMA

Si X n ⎯⎯→
mc
X , entonces X n ⎯
⎯→
P
X

154
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Relación entre los distintos tipos de convergencia

Casi segura

En probabilidad En distribución

En media
cuadrática

CONVERGENCIA DE LAS FUNCIONES


CARACTERÍSTICAS
Sabemos que las funciones características proporcionan
otro medio para determinar la distribución de una
variable aleatoria. Vamos a ver que la convergencia en
distribución de la sucesión de variables aleatorias
⎨Xn⎬n∈ℵ a la variable aleatoria X, implica la convergencia
puntual de las funciones características y
recíprocamente.

En concreto:

1. Si Xn ⎯
⎯→
d
X ⇒ lim ϕn (t) = ϕ (t) ∀t ∈ R
n →∞

155
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

2. Si lim ϕn (t) = ϕ (t) ∀t ∈ R , y ϕ(t) es continua en el


n →∞

cero, entonces es Xn ⎯
⎯→
d
X, y ϕ(t) es la función
característica de X.

LEYES DE LOS GRANDES NUMEROS


Ley débil de los grandes números
Sea ⎨Xn⎬n∈ℵ una sucesión de variables aleatorias,
definidas sobre un mismo espacio de probabilidad
(Ω,A,P). Diremos que obedece a la ley débil de los grandes
números, si existen dos sucesiones de constantes ⎨An⎬n∈ℵ
y ⎨Bn⎬n∈ℵ con Bn>0 y Bn↑+∞ si n→+∞ tales que
B

Sn − A n P
→0
Bn n →∞

Con
Sn = ∑ X i
i =1

Los diferentes teoremas que vemos a continuación nos


van a asegurar cuándo una sucesión cumple la ley débil
de los grandes números.
TEOREMA DE CHEBYCHEV
Sea ⎨Xn⎬n∈ℵ una sucesión de variables aleatorias
independientes con E(Xn)<+∞ ∀n. Supóngase que existe
una constante γ>0 tal que V(Xn)≤ γ ∀n. Entonces

156
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Sn − E(Sn ) P
→0
n n →∞

TEOREMA DE MARKOV
Sea ⎨Xn⎬n∈ℵ una sucesión de variables aleatorias con
lim V(X n ) = 0
n →∞

Sn
Siendo X n = . Entonces
n
Sn − E(Sn ) P
→0
n n →∞

TEOREMA DE KHINTCHINE
Si ⎨Xn⎬n∈ℵ es una sucesión de variables aleatorias
independientes e idénticamente distribuidas de media
finita μ, entonces
Sn P
→μ
n n →∞

TEOREMA DE BERNOULLI
Si ⎨Xn⎬n∈ℵ es una sucesión de variables aleatorias
independientes, tales que Xn≡B(1,p) ∀n, entonces

Sn P
→p
n n →∞

157
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Ley fuerte de los grandes números


Sea ⎨Xn⎬n∈ℵ una sucesión de variables aleatorias,
definidas sobre un mismo espacio de probabilidad
(Ω,A,P). Diremos que obedece a la ley fuerte de los
grandes números, si existen dos sucesiones de
constantes ⎨An⎬n∈ℵ y ⎨Bn⎬n∈ℵ con Bn>0 y Bn↑+∞ si n→+∞
B

tales que
Sn − A n cs
→0
Bn n →∞

Con
Sn = ∑ X i
i =1

TEOREMA DE KOLMOGOROV
Si ⎨Xn⎬n∈ℵ es una sucesión de variables aleatorias
independientes con E(Xn)=0 y V(Xn)=σn2, ∀n, tales que

σ i2

i =1 i 2
<∞

Entonces
Sn cs
→0
n n →∞

TEOREMA DE KHINTCHINE

158
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Si ⎨Xn⎬n∈ℵ es una sucesión de variables aleatorias


independientes e idénticamente distribuidas de media
finita μ, entonces
Sn cs
→μ
n →∞
n

TEOREMA CENTRAL DEL LÍMITE


Sea ⎨Xn⎬n∈ℵ una sucesión de variables aleatorias,
definidas sobre un mismo espacio de probabilidad
(Ω,A,P), con media y varianzas finitas. Diremos que
obedece al teorema central del límite, si y sólo si
Sn − E(Sn ) d
Zn = → N(0,1)
V(Sn ) → ∞
n

TEOREMA DE DE MOIVRE
Si ⎨Xn⎬n∈ℵ es una sucesión de variables aleatorias
independientes e idénticamente distribuidas con
distribución Bernoulli de parámetro p, entonces

Sn − np d
→ N(0,1)
np(1 - p) →∞
n

TEOREMA DE LÉVY-LINDEBERG

159
Asignatura: Probabilidad y Estadística Profesora: Elena Landaburu

Si ⎨Xn⎬n∈ℵ es una sucesión de variables aleatorias


independientes e idénticamente distribuidas con media
m y varianza σ2 finitas entonces
Sn − nm d
→ N(0,1)
σ n →∞n

Se puede observar que el teorema de De Moivre es un


caso particular de éste.

160