Documentos de Académico
Documentos de Profesional
Documentos de Cultura
26 de julio de 2012
Índice
I Probabilidad 2
1. Introducción a la estadística y el análisis de datos 2
2. Probabilidad 2
3. Variables aleatorias y distribuciones de probabilidad 6
4. Representación mediante grácos 9
5. Media, varianza y covarianza de variables aleatorias 10
6. Procesos de Bernoulli, Poisson e hipergeométrico 12
7. Distribución uniforme, normal... y otras 16
8. Aproximaciones de distribuciones 21
9. Funciones de variables aleatorias 22
10.Simulación 25
II Estadística 26
11.Deniciones 26
12.Estadística inferencial 26
13.Estimadores puntuales 28
14.Estimación por intervalo 29
15.Test de hipótesis 33
16.Estadística Bayesiana 36
1
Parte I
Probabilidad
1 Introducción a la estadística y el análisis de datos
Sean x1 , x2 , ..., xn las observaciones en una muestra.
Media de una muestra: es un promedio numérico. Se dene como:
x1 + x2 + ... + xn
x̄ =
n
1
= x : FX (x) =
2
Mediana de una muestra: si las observaciones están ordenadas en orden creciente, la mediana
es:
(
x n+1 si n es impar
x̃ = 2
1
si n es par
x +x
2
n
2
n
2 +1
(
1
P (X < x̃) ≤ 2
= 1
P (X > x̃) ≥ 2
Moda de una muestra: es el valor que ocurre con más frecuencia en la muestra. Se dene como:
√
Desvío de la muestra: σ = σ2
2 Probabilidad
Probabilidad: estudio de los fenómenos aleatorios.
Espacio muestral discreto: contiene un número nito de posibilidades, o una serie inter-
minable con tantos elementos como números existen.
Espacio muestral continuo: contiene un número innito de posibilidades, tantas como el
número de puntos en un segmento de recta.
2.2 Eventos
Evento: subconjunto de un espacio muestral.
Denimos las operaciones sobre eventos:
2
Complemento: dado un evento A de un espacio muestral Ω, es el subconjunto de todos los
elementos de Ω que no están en A. Se representa con el símbolo Ā.
Unión: dados dos eventos A y B , se dene a la unión A ∪ B = todos los elementos que están
en A, o en B , o en ambos.
La relación entre eventos y el correspondiente espacio muestral Ω se puede ilustrar de forma gráca
usando diagramas de Venn.
Pn = n!
Ejemplo: las permutaciones posibles de las letras a,b,c (n = 3) son: abc, acb, bac, bca, cab y cba
(P3 = 3! = 6).
Permutación con repetición: número de permutaciones distintas de n objetos de los que n1 son
de una clase, n2 de una segunda clase,...,nk de una k-ésima clase.
n!
Pn[n1 ,n2 ,...,nk ] =
n1 !n2 ! · · · nk !
Ejemplo: un entrenador necesita tener a 10 jugadores parados en una la. Hay 1 jugador de primer
año, 2 de segundo año, 4 de tercer año y 3 de cuarto año. El número de formas diferentes para
formar la la es 1!2!4!3!
10!
= 12,600.
Particiones: número de formas de partir un conjunto de n objetos en r celdas con n1 objetos en
la primera celda, n2 objetos en la segunda, y así sucesivamente, es
n n!
=
n1 , n2 , . . . , nr n1 !n2 ! · · · nr !
donde n1 + n2 + ... + nr = n.
Ejemplo: la cantidad de formas de asignar 7 personas (n = 3) a una habitación triple y a 2 dobles
(r = 3) es 3,2,2
7 7!
= 210.
= 3!2!2!
3
Combinaciones simples: número de formas de seleccionar m objetos de n sin importar el orden.
Es un tipo especial de partición con 2 celdas: una con m elementos y la otra con los n − m objetos
restantes.
n n!
Cn,m = =
m (n − m)!m!
n!
Vn,m =
(n − m)!
Ejemplo: se tienen 7 libros y solo 3 espacios en una biblioteca. La cantidad de formas en las que
se pueden colocar 3 libros elegidos es V7,3 = (7−3)!
7!
= 210.
Variación con repetición: se llama variaciones con repetición de m elementos tomados de n a
los distintos grupos formados por m elementos de manera que sí importa el orden, y sí se repiten
los elementos.
V Rn,m = nm
Ejemplo: ¾cuántos números de 3 cifras se puede formar con los dígitos: 1, 2, 3, 4 y 5? La respuesta
es 53 = 125.
1. 0 ≤ P (A) ≤ 1
2. P (∅) = 0
3. P (Ω) = 1
4
Corolario 1: si A1 , ..., An son mutuamente excluyentes, entonces
P (A ∩ B)
P (B|A) =
P (A)
P (A ∩ B) = P (A) · P (B)
k
X k
X
P (A) = P (Bi ∩ A) = P (Bi ) · P (A|Bi )
i=1 i=1
5
Regla de Bayes: si los eventos B1 , ..., Bk constituyen una partición del espacio muestral Ω tal
que P (Bi ) 6= 0 para i = 1, ..., k , entonces para cualquier evento A de Ω tal que P (A) 6= 0:
Discreta: hay nitos resultados posibles, o innitos numerables resultados posibles. Repre-
sentan datos por conteo.
Continua: su conjunto de valores posibles es un intervalo de números. Representan datos
medidos (pesos, alturas, distancias, etc.)
Mixta.
Teorema : X e Y son variables aleatorias independientes sí y sólo si f (x, y) = f (x)f (y) ∀(x, y).
Condición necesaria (pero no suciente) para que X ,Y sean independientes : el soporte de f (x, y)
debe ser un rectángulo o un conjunto ordenado de ellos.
1. P (X = x) ≥ 0,
6
2. P (X = x) = 1.
P
∀x
7
3.5 Distribuciones de probabilidad conjunta
3.5.1 Caso discreto
Función de probabilidad conjunta: si X e Y son dos variables aleatorias discretas, la distribu-
ción de probabilidad para sus ocurrencias simultáneas se representa mediante una función P (x, y)
que verica:
3.
P P
∀x ∀y P (x, y) = 1
( P
P (X = x) = ∀y P (x, y)
Función de probabilidad marginal: P
P (Y = y) = ∀x P (x, y)
(
P (Y = y|X = x) = PP(X=x)
(x,y)
Función de probabilidad condicional:
P (X = x|Y = y) = PP(Y(x,y)
=y)
Función de probabilidad conjunta: P (x, y) = P (x) · P (y|x) = P (y) · P (x|y)
P (X ≤ x, X ∈ B)
FX|X∈B (x) = P (X ≤ x|X ∈ B) =
P (X ∈ B)
fX (x)1{x ∈ B}
fX|X∈B (x) =
P (X ∈ B)
8
3.7 Mezcla de variables aleatorias
Sean n variables aleatorias Xi , donde cada una se asocia a un resultado Pn Ri de un experimento
aleatorio. Si P (Ri ) es la probabilidad de ocurrencia de cada resultado, y i=1 P (Ri ) = 1, entonces:
fXM (x) = fX1 (x) · P (R1 ) + fX2 (x) · P (R2 ) + · · · + fXn (x) · P (Rn )
Propiedades:
Pn
E [XM ] = E [Xi ] · P (Ri )
i=1
Pn h i
2 2 2
σX M
= i=1 P (Ri ) · σX i
+ (E [Xi ] − E [XM ])
Entonces:
m
X pj
fx1 ,...,xn ;a0 ,...,am (x) = 1 {x ∈ (aj−1 , aj ]}
L
j=1 j
9
Un histograma es una aproximación a la función de densidad de prob-
abilidad, fX (x).
Cuantil-α de X : es cualquier número xα ∈ R, con α ∈ (0, 1) tal que
P (X < xα ) ≤ α y P (X ≥ xα ) ≥ α
si X es discreta
P
´ ∀x x · P (X = x)
+∞
µx = E [X] = x · f (x) dx si X es continua
−∞ ´
si X es mixta
P
∀x:P (x)6=0 x · P (X = x) + ∀x:f (x)6=0 x · f (x) dx
Teorema : sea X una variable aleatoria. El valor esperado de la variable aleatoria g(X) es:
si X es discreta
P
´ ∀x g(x) · P (X = x)
+∞
µg(X) = E [g(X)] = g(x) · f (x) dx si X es continua
−∞ ´
∀x:P (x)6=0 g(x) · P (X = x) + ∀x:f (x)6=0 g(x) · f (x) dx si X es mixta
P
Esperanza condicional: dada la función de densidad f (x) de una variable aleatoria X , y dado
un conjunto A, denimos:
(P P (X=x)
x· si X es discreta
E [X|X ∈ A] = ´ +∞
∀x P (x∈A)
f (x)
−∞
x· P (x∈A) dx si X es continua
Esperanza condicional: sean las variables aleatorias X , Y con función de densidad condicional
fY |X (y|x). La esperanza de X dado Y = y es una variable aleatoria tal que, para cada y ∈ R
10
(P
x · P (x|y) si X es discreta
E [X|Y = y] = ´ +∞
∀x
−∞
x · fX|Y (x|y) dx si X es continua
cov(X, Y )
Ŷ = (X − E [X]) + E [Y ]
var(X)
Teorema : sea X una variable aleatoria con densidad de probabilidad f (x). La varianza de la variable
aleatoria g(X) es:
(P 2
n 2 o ∀x g(x) − µg(X) P (X = x) si X es discreta
2
σg(X) =E g(X) − µg(x) = ´∞ 2
−∞
g(x) − µg(X) f (x) dx si X es continua
Teorema : σX
2
= E X 2 − E(X)2
Teorema de Pitágoras : σX
2
= σ 2 [E [Y |X]] + E σ 2 [Y |X]
Varianza condicional: σ2 (Y |X) = E Y 2 |X − (E [Y |X])2
√
Desviación estándar: σ = σ2
Covarianza: sean X e Y variables aleatorias con densidad de probabilidad conjunta f (x, y). La
covarianza de X e Y es:
(P
si X e Y son discretas
P
(x − µX )(y − µY ) · P (x, y)
cov(X, Y ) = E [(X − µX ) (Y − µY )] = ´ ∞∀x ´ ∞∀y
−∞ −∞
(x − µX )(y − µY ) · f (x, y) dx dy si X e Y son continuas
cov(X, Y )
ρXY =
σX σY
El coeciente de correlación mide el grado de linealidad entre dos variables aleatorias.
Teorema : |ρXY | ≤ 1
11
5.3 Medias, varianzas y covarianzas de combinaciones lin-
eales de variables aleatorias
Desigualdad de Cauchy-Schwartz: E [|XY |] ≤
p
E [X 2 ] E [Y 2 ]
Teorema : si X, Y son variables aleatorias, E[X] = E [E[X|Y ]]
Teorema : si X, Y son variables aleatorias, E [X · g(Y )|Y ] = g(Y ) · E [X|Y ]
Teorema : si X e Y son independientes, E [Y |X] = E [Y ]
(´ ∞
(1 − FX (x)) dx si FX (x) = 0 para x < 0
Teorema : E[X] = ´0∞ ´0
0
(1 − FX (x)) dx − −∞ FX (x) dx si FX (x) 6= 0 para x < 0
Teorema : si a ∈ <, entonces E[a] = a.
Teorema : si a ∈ <, entonces E [a|Y ] = a.
Teorema : si a, b ∈ < y X es una variable aleatoria, entonces E [aX + b] = aE[X] + b.
Teorema : si a, b ∈ < y X, Y, Z son variables aleatorias, entonces E [aX + bZ|Y ] = aE [X|Y ] +
bE [Z|Y ].
Teorema : E[g(X) ± h(X)] = E[g(X)] ± E[h(X)].
Teorema : E[g(X, Y ) ± h(X, Y )] = E[g(X, Y )] ± E[h(X, Y )].
Teorema : si X e Y son dos variables aleatorias independientes, entonces E(XY ) = E(X)E(Y ).
Teorema : si X e Y son dos variables aleatorias independientes, entonces cov(X, Y ) = 0. La recíproca
no es cierta.
Teorema : si a y b son constantes, entonces σaX+b
2
= a2 σX
2
.
Teorema : si X e Y son variables aleatorias con densidad de probabilidad conjunta f (x, y) entonces
2
σaX+bY = a2 σX
2
+ b2 σY2 + 2abσXY
Teorema : cov(X, X) = σX2
.
Teorema : cov(aX, bY ) = ab · cov(X, Y ).
Teorema : cov(X, Y + Z) = cov(X, Y ) + cov(X, Z).
Variable de Bernoulli: variable aleatoria dicotómica (0 es fracaso y 1 es éxito) que verica
(
x 1−x p si x = 1
P (XBE = x) = p (1 − p) =
1 − p si x = 0
Media: p
12
Varianza: p(1 − p)
Propiedades:
Variable binomial: variable aleatoria que representa la cantidad de éxitos obtenidos en n ex-
perimentos Bernoulli independientes, donde la probabilidad de éxito en un experimento es p. Su
distribución de probabilidad es:
(
n
x px (1 − p)n−x si x = 0, 1, . . . , n
P (XBI = x) =
0 ∀ otro x
Media: np
Varianza: np(1 − p)
Propiedades:
Ejemplo: la probabilidad de que una persona se cure de una enfermedad es 0, 4. Si se sabe que
15 contraen
5esa 10enfermedad, la probabilidad de que se curen exactamente 5 personas es P (XBI =
5) = 155 0,4 0,6 = 0, 186.
Variable geométrica: variable aleatoria que representa la cantidad de experimentos Bernoulli
independientes necesarios hasta obtener el primer éxito (incluyéndolo). Su distribución de proba-
bilidad es:
(
(1 − p)x−1 p si x = 1, 2, . . . , ∞
P (XG = x) =
0 ∀ otro x
Media: 1
p
Varianza: 1−p
p2
Propiedades:
13
Media: r
p
r(1−p)
Varianza: p2
Propiedades:
Teorema (distribución condicional de los tiempos de llegada) : dado un proceso Poisson de intensidad
λ sobre R+ . Si se sabe que en un tiempo t hubo n éxitos, entonces cada éxito tiene distribución
∼ f (0, t) independiente de los demás.
Variable Poisson: variable aleatoria que representa la cantidad de éxitos obtenidos en un proceso
Poisson. Su distribución es:
(λt)x −λt
(
x! e con x ∈ N
P (XP O = x) =
0 ∀ otro x
14
Media: λt
Varianza: λt
Propiedades:
1. Teorema de superposición : La suma de n variables Poisson de parámetros λ y t genera otra
variable Poisson de parámetros nλ y t.
2. Teorema de aditividad : si X ∼ P oisson (λ1 ) y Y ∼ P oisson (λ2 ), y X, Y son independientes,
enonces S = X + Y distribuye como S ∼ P oisson (λ1 + λ2 ).
3. Teorema del adelgazamiento : si X ∼ P oisson (λx , t) y Y |X ∼ Binomial(p) entonces Y ∼
P oisson (λy = λx · p, t) y además X − Y ∼ P oisson (λx−y = (1 − p) · λx ).
Variable exponencial: variable aleatoria que representa la cantidad de continuo t hasta obtener
el primer éxito en un proceso Poisson, o la cantidad de continuo t entre dos éxitos. Su distribución
es:
(
λe−λt si t > 0
P (XEXP = t) =
0 si t ≤ 0
Media: 1
λ
Varianza: 1
λ2
Propiedades:
1. Las variables aleatorias exponenciales no tienen memoria. Es decir: P XEXP >t+h
XEXP >t = P (XEXP > h).
2. Teorema : sea T una variable aleatoria continua a valores en R+ . Si T pierde memoria, entonces
T ∼ Exp (λ = − log [P (T > 1]).
3. Teorema de la competencia : si T1 ∼ Exp (λ1 ) y T2 ∼ Exp (λ2 ), y ambas son independientes,
entonces P (mı́n (T1 , T2 ) = T1 ) = λ1λ+λ
1
2
, y P (mı́n (T1 , T2 ) = T2 ) = λ1λ+λ
2
2
.
4. Teorema de la competencia generalizado : sean las variables aleatorias independientes T1 ∼
Exp (λ1 ), T2 ∼ Exp (λ2 ), ..., Tn ∼ Exp (λn ). Sea M = mı́n (T1 , T2 , . . . , Tn ). Entonces M ∼
λj
Exp (λ1 + λ2 + · · · + λn ) y P (M = Tj ) = λ1 +···+λ n
.
5. Teorema (suma geométrica de exponenciales independientes) : sean X1 , X2 , . . . variables i.i.d
PN
tales que Xi ∼ Exp (λ). Si S = i=1 Xi , donde N ∼ Geom (p), entonces S ∼ Exp (λp)
Variable Gamma: variable aleatoria que representa la cantidad de continuo t hasta obtener el
k-ésimo éxito en un proceso Poisson. Su distribución es:
( k−1
t
λk e−λt si t > 0
P (XΓ = t) = (k−1)!
0 ∀ otra t
Media: k
λ
Varianza: k
λ2
Propiedades:
1. La suma de n variables aleatorias exponenciales de parámetro λ es una variable aleatoria
Gamma de parámetros (n, λ).
2. Si X ∼ Γ (k1 , λ) y Y ∼ Γ (k2 , λ) entonces la variable Z = X + Y distribuye como Z ∼
Γ (k1 + k2 , λ).
3. Si X ∼ Γ(k, λ) entonces P (X > x) = P (Y < k) donde Y ∼ P O (λ, x).
15
6.3 Proceso hipergeométrico y variables asociadas
Proceso hipergeométrico: posee las siguientes propiedades.
1. Dados N artículos, se seleccionan aleatoriamente n de ellos.
2. k de los N artículos se clasican como éxito y N − k como fracaso.
3. El muestreo se realiza sin reemplazo.
Media: nk
N
Varianza: N −n k k
N −1 n N 1− N
Ejemplo: tenemos un lote de 100 artículos, de los cuales 12 están defectuosos. La probabilidad de
(12)(88)
que haya 3 defectuosos en una muestra de 10 artículos es P (X = 3) = 3 100 7 = 0, 08.
( 10 )
Variable hiperpascal: variable aleatoria que representa la cantidad de extracciones sin reposición
en un proceso hipergeométrico hasta obtener el r-ésimo éxito. Su distribución es:
k N −k
r−1 n−r k−r+1
P (XHP = x) = N
· con r ≤ x ≤ (N − k) + r
N −x+1
x−1
Ejemplo: 10 personas se usan para un estudio biológico. El grupo contiene 3 personas con sangre
tipo O, 4 con sangre tipo A y 3 personas con tipo B. La probabilidad de que una muestra aleatoria
de 5 personas contenga 1 persona con sangre tipo O, 2 personas con tipo A y 2 personas con tipo
(3)(42)(32)
B es f (1, 2, 2; 3, 4, 3; 10, 5) = 1 10 = 0, 214.
(5)
16
Pk
Varianza: 1
k i=1 (xi − µ)2
Media: a+b
2
(b−a)2
Varianza: 12
X − µX 1 1 2
Z= siendo fZ (z) = √ e− 2 z
σX 2π
Entonces, volviendo al cálculo anterior:
a − µX b − µX
P (a < X < b) = P <Z<
tabulado σX σX
Propiedades:
1. FZ (z) = φ(z)
2. φ(−z) = 1 − φ(z)
Pk
3. Si W = i=1 (ci Xi ) con ci ∈ R y Xi variables aleatorias con distribución normal de media
Pk
µXi y varianza σX 2
i
, entonces W es una variable aleatoria normal con µW = i=1 (ci · µXi )
k
y si las Xi son independientes entonces σW .
2
= i=1 c2i · σX 2
P
i
17
7.3 Distribución chi cuadrada
Distribución chi cuadrada: la variable aleatoria continua X tiene una distribución chi cuadrada,
con ν grados de libertad, si su función de densidad está dada por
ν x
· x 2 −1 · e− 2 si x > 0
( 1
ν
2 2 Γ( ν )
f (x; ν) = 2
0 ∀ otro x
Media: ν
Varianza: 2ν
18
1
Media: α− β · Γ(1 + β1 )
h i2
2
Varianza: α− β Γ(1 + β2 ) − Γ(1 + β1 )
β
Función de distribución acumulada: FX (x) = 1 − e−αx para x ≥ 0
Distribución Beta: la variable aleatoria continua X tiene una distribución Beta, con parámetros
α > 0 y β > 0, si su función de densidad está dada por
(
Γ(α+β) α−1
x (1 − x)β−1 si 0 < x < 1
f (x; α; β) = Γ(α)Γ(β)
0 ∀ otro x
´∞ √
donde Γ(α) = 0
xα−1 e−x dx, Γ(n) = (n − 1)! y Γ(0,5) = π.
Media: α
α+β
Varianza: αβ
(α+β)2 (α+β+1)
19
7.7 Distribución t de Student
Varianza: ν
ν−2 para ν > 2
h(x) es simétrica.
Teorema : conforme ν → ∞, tν → Z , siendo Z ∼ N (0, 1). En general basta con que ν ≥ 20.
Teorema : sean U y V dos variables aleatorias independientes tales que U ∼ χ2u y V ∼ χ2v . La
distribuci
pon de la variable aleatoria
U/u
F =
V /v
20
está dada por u+v u u/2
Γ[ 2 ]( v ) f (u/2)−1
si f > 0
h(f ) = Γ[ u
2 ]Γ[ 2 ]
v (1+uf /v)(u+v)/2
0 si f ≤ 0
Media: v
v−2 (para v > 2)
2v 2 (u+v−2)
Varianza: u(v−2)2 (v−4) (para v > 4)
8 Aproximaciones de distribuciones
8.1 Aproximación de la binomial mediante la normal
Si X ∼ BI(n, p), entonces cuando n → ∞ y p → 12 , X tiene aproximadamente una distribución
normal Y ∼ N µ = np, σ 2 = np(1 − p) , y además
P (X ≤ x) ≈ P (Y ≤ x + 0,5)
P (X = x) ≈ P (x − 0,5 < Y < x + 0,5)
P (X = x) ≈ P (Y = x)
P (X = x) ≈ P (Y = x)
21
9 Funciones de variables aleatorias
9.1 Transformación de variables aleatorias
9.1.1 Caso discreto
Teorema : sea X una variable aleatoria discreta con distribución de probabilidad f (x). Si tenemos
la transformación Y = u(X), que es una función inyectiva y = u(x) de la cual podemos resolver
para x en términos de y mediante x = w(y), entonces la distribución de probabilidad de Y es
g(y) = f [w(y)]
22
9.2 Extremos de n variables aleatorias
Sean las variables aleatorias independientes e idénticamente distribuídas X1 , . . . , Xn con función
de densidad fX (x) y función de distribución FX (x).
Máximo Mínimo
XM = máx {X1 , . . . , Xn } Xm = mı́n {X1 , . . . , Xn }
n−1 n−1
fXM (x) = nfX (x) [FX (x)] fXm (x) = nfX (x) [1 − FX (x)]
n n
FXM (x) = [FX (x)] FXm (x) = 1 − [1 − FX (x)]
23
La función de distribución de Y es:
FY (y) = P (Y ≤ y)
(
P [X ≤ y] si − 1 ≤ y < 1
=
P [1 ≤ y] si y ≥ 1
(´ y
2
1
9 (x + 1) dx si − 1 ≤ y < 1
= ´−1
1 1 2
−1 9
(x + 1) dx si y ≥ 1
0
si y < −1
= 1
27 (y + 1)
3
si − 1 ≤ y < 1
si y >≥ 1
1
La función de densidad
( de Y es:
1
(y + 1)2 si − 1 ≤ y ≤ 1
fY (y) = dFdy
Y (y)
= 9
0 ∀ otro y
i ∈ {1, 2}.
Como son independientes, la función de densidad conjunta es fU1 ,U2 (u1 , u2 ) = 1 para u1 , u2 ∈
− 12 , 12 .
Sea la variable aleatoria Z = U1 + U2 . Es claro que el rango posible de Z es z ∈ (−1, 1).
24
trapecio delimitado por las rectas U1 + U2 = 0 y U1 + U2 = z . O también puede pensarse como 1
menos el área del triangulo que está a la derecha y arriba de la recta U1 + U2 = z .
La función de distribución de Z es:
FZ (z) = P (Z ≤ z)
si z < −1
´0 z+0,5 ´ z−x
si −1≤z <0
1 dy dx
= ´ 0,5−0,5
−0,5 ´ 0,5
1 − z−0,5 z−x 1 dy dx si 0 ≤ z < 1
si z > 1
1
si z < −1
0
´ z+0,5 (z − x + 0,5) dx
si − 1 ≤ z < 0
= ´ 0,5
−0,5
1 − z−0,5 (0,5 − z + x) dx si 0 ≤ z < 1
si z > 1
1
si z < −1
0
0,5z 2 + z + 0,5 si − 1 ≤ z < 0
=
−0,5z + z + 0,5 si 0 ≤ z < 1
2
1 si z > 1
10 Simulación
Sea U una variable aleatoria tal que U ∼ f(0, 1). Sea X una variable aleatoria tal que su función
de distribución es FX (x). Si
(
−1
FX (U ) si FX es creciente
X =
sup {x ∈ < : FX (x) < u} en otro caso
fX (x) = e−x
FX (x) = 1 − e−x
−1
x = FX (u)
x = − ln (1 − u)
25
Parte II
Estadística
Objetivo : a partir de las observaciones de un fenómeno aleatorio, hacer inferencias sobre la dis-
tribución de probabilidades subyacente.
11 Deniciones
Población: totalidad de las observaciones en las que estamos interesados, de número nito o
innito.
Muestra: subconjunto de una población.
Muestra aleatoria: sean X1 , X2 , . . . , Xn variables aleatorias independientes, cada una con la mis-
ma distribución de probabilidad fX (x). Denimos X1 , X2 , . . . , Xn como una muestra aleatoria de
tamaño n de la población fX (x), y su distribución de probabilidad conjunta es f (x1 , x2 , . . . , xn ) =
f (x1 ) f (x2 ) · · · f (xn ).
Estadístico: variable aleatoria que es función de variables aleatorias que forman una muestra
aleatoria.
Estimador: estadístico que se usa para estimar el valor de un parámetro desconocido de una
distribución de probabilidad.
12 Estadística inferencial
12.1 Propiedades de los estimadores
Sea X una variable aleatoria que depende de un parámetro desconocido θ. Sea θ̂ un estimador de
θ basado en una muestra aleatoria de tamaño n.
1. Sesgo: B θ̂ = E θ̂ − θ
h i h i
Varianza: var
h i h i
2. θ̂ = E (θ̂ − θ)2
26
b ) Consistencia fuerte:
P lı́m θ̂ = θ = 1
n→∞
5. Eciencia: si var θ̂1 < var θ̂2 entonces θ̂1 es mejor estimador que θ̂2 .
h i h i
Es insesgado.
2
ECM X̄ = σn
σ2
Distribución muestral de X̄ : X̄ ∼ N µX̄ = µ, σX̄
2
= n .
(Si X 6∼ N (µ, σ 2 ), la distribución anterior vale sólo para n sucientemente grande).
Varianza de la muestra:
n
2 1 X 2
S = Xi − X̄
n − 1 i=1
!2
n n
1 X X
= n Xi2 − Xi
n (n − 1) i=1 i=1
Es insesgado.
Teorema : si S 2 es la varianza de una muestra aleatoria de tamaño n que se toma de
2
una población normal que tiene varianza σ 2 , entonces el estadístico U = (n−1)·S
σ2 =
Pn (Xi −X̄ )2
i=1 σ2 tiene una distribución chi cuadrada con ν = n − 1 grados de libertad.
Proporción de la muestra:
X
P̂ =
n
donde X es la cantidad de éxitos en n experimentos.
Distribución muestral de P̂ : P̂ ∼ N p, p(1−p)
n
27
13 Estimadores puntuales
Sea X una variable aleatoria cuya distribución pertenece a la familia paramétrica F = {Fθ (x) : θ ∈ Θ}.
Sean los valores x̄ = (x1 , x2 , . . . , xn ) de una muestra aleatoria X̄ = (X1 , X2 , . . . , Xn ).
Familia regular: la familia F = {Fθ (x) : θ ∈ Θ} es regular si cumple que:
Estimador puntual del parámetro θ: variable aleatoria θ̂(X̄) que depende de la muestra aleato-
ria pero no del parámetro.
Esta condición es necesaria pero no suciente. Para asegurarse que θ es un máximo, debe vericarse
las condiciones de segundo orden, y vericar que sea un máximo absoluto.
Dada una muestra aleatoria X = (X1 , X2 , . . . , Xn ) de tamaño n:
Distribución Estimador de máxima verosimilitud
X ∼ f (0, θ) θ̂mv (X) = máx (X1 , X2 , . . . , Xn )
X ∼ Bernoulli(p) p̂mv (X) = X̄
X ∼ Binom (n, p) p̂mv (X) = X n , X = cantidad éxitos
1
X ∼ Geom(p) p̂mv (X) = X̄
r
X ∼ P ascal(r, θ) θ̂mv (X) = X̄
X ∼ P oisson (λt) ˆ mv (X) = X̄
λt
1
X ∼ Exp (λ) λ̂mv (X) = X̄
X ∼ Gamma (λ, k), k conocido λ̂mv (X) = Pnnk Xi
i=1
∼ N µ, σ 2 , σ 2 > 0 conocida
X µ̂mv (X) = X̄
σˆ2 mv (X) = n1 i=1 (Xi − µ)
Pn 2
∼ N µ, σ 2 , µ conocida
X
µ̂mv (X) = X̄
X ∼ N µ, σ 2 2
σˆ2 mv (X) = n1 i=1 Xi − X̄
Pn
28
una función biunívoca de Θ sobre Λ. Si θ̂mv es un estimador de máxima verosimilitud para θ,
entonces el estimador de máxima verosimilitud para λ = g(θ) es
λ̂mv = g θ̂mv
Cota inferior de conanza para θ de nivel 1 − α: variable aleatoria a(X) que depende de una
muestra aleatoria X, tal que
P (a(X) ≤ θ) = 1 − α
Cota superior de conanza para θ de nivel 1 − α: variable aleatoria a(X) que depende de
una muestra aleatoria X, tal que
P (θ ≤ a(X)) = 1 − α
Pivote: dada una variable aleatoria Xθ y dada una muestra X = x, un pivote es una variable
aleatoria de la forma Q(X, θ) cuya distribución es conocida, y no depende de θ.
Método de construcción de intervalo de conanza: sea la variable aleatoria X que depende
de un parámetro θ. Sea una muestra X = x. Para construir un intervalo de conanza para θ,
P (θ ∈ I(X)) = 1 − α, los pasos a seguir son:
1. Obtener un estimador puntual del parámetro, θ̂, en general por máxima verosimilitud.
3. Hallar un pivote de θ.
en la estimación.
Teorema llave : sea Xi ∼ N µ, σ 2 . Sea la muestra aleatoria X = (X1 , X2 , . . . , Xn ). Valen las
siguientes armaciones:
√
n(X̄−µ)
1. Z = σ tiene distribución Z ∼ N (0, 1).
Pn 2
2. U = n−1 2 1
σ2 S = σ2 i=1 Xi − X̄ tiene distribución U ∼ χ2v=n−1 .
29
3. Z y U son variables aleatorias independientes.
Teorema : sean X1 , X2 , . . . , Xn variables aleatorias independientes tales que X ∼ N (µ, σ). Sean los
estadísticos
n
1X
X̄ = Xi
n i=1
n
1 X 2
S2 = Xi − X̄
n − 1 i=1
30
Tenemos las muestras X1 , X2 , . . . , Xn . Notar que [a ∓ b] = [a − b, a + b].
Dist de muestra Parámetro Pivote para el parámetro Dist del pivote I. de C. de nivel 1 − α Error
X(n) = máx (Xi ) fY (y) = ny n−1
h i
X(n)
Xi ∼ f(0, θ) θ X X(n) , √
n α
Y = θ(n) y ∈ [0, 1]
h i
Xi ∼ N µ, σ 2 , σ 2 X̄−µ √σ ≤ z(1−α/2) √σn
µ Z= √
σ/ n
Z ∼ N (0, 1) X̄ ∓ n
· z(1−α/2)
conocida P
Pn 2 n 2 Pn 2
i=1 (Xi −µ) i=1 (Xi −µ) i=1 (Xi −µ)
Xi ∼ N µ, σ 2 , µ
σ2 U= σ2 U ∼ χ2v=n χ2n,(1−α/2)
, χ2n,(α/2)
conocida q
1
Pn 2 h i
2
S= n−1 i=1 Xi − X̄ I(X)µ = X̄ ∓ tv=n−1,(1−α/2) √sn
Xi ∼ N µ, σ Y ∼ tv=n−1
µ, σ 2 X̄−µ
µ, σ 2 desconocidos Y = S/ √
U ∼ χ2v=n−1 2 2
(n−1) 2
n I(X)σ2 = χ2 (n−1)s , χ2 (n−1)s
U = σ2 S "
v=n−1,(1−α/2) v=n−1,(α/2)
#
√
q
2
Xi ∼ Bernoulli(p) n(X̄−p) 2
z(1−α/2) +2nX̄ z(1−α/2) z(1−α/2) +4nX̄(1−X̄) 2
z(1−α/2)
p Z = √n(1−p) Z ∼ N (0, 1) 2
2z(1−α/2) +2n
∓ 2
2z(1−α/2) +2n
n≥ 2
n >> 1
Con conanza (1q− α)100 %:
31
T ∼ tν
2
Ai ∼ N µA , σA 2
2
2
σA 1 SA
Bi ∼ N µB , σB R= 2
σB
F = R 2
SB
F ∼ FnA −1,nB −1
µA , µB desconocidas
Xi ∼ Bern (p1 )
" r #
X̄−Ȳ −∆ X̄ (1−X̄ ) Ȳ (1−Ȳ )
Yi ∼ Bern (p2 ) ∆ = p1 − p2 Z= Z ∼ N (0, 1) X̄ − Ȳ ∓ z(1−α/2) +
32
q
X̄(1−X̄) Ȳ (1−Ȳ ) n1 n2
+ n
n1 ≈ n2 , grandes n1 2
15 Test de hipótesis
Objetivo : formar un procedimiento de decisión que se base en datos muestrales, para ofrecer una
conclusión acerca de una conjetura. Dicho procedimiento de decisión debe hacerse con la noción
de la probabilidad de una conclusión errónea.
15.1 Deniciones
Hipótesis estadística: conjetura con respecto a una o más poblaciones. En toda conjetura hay
dos hipótesis:
H0 : θ ∈ Θ0
H1 : θ ∈ Θ1
Tipos de hipótesis:
Test / Regla de Decisión: función δ : Rn → {0, 1} que le asigna a cada posible realización de la
muestra x una y solo una de las hipótesis.
( (
rechazamos H0 si X ∈ R 1 si X ∈ R
δ(X) = =
aceptamos H0 si X ∈
/R 0 si X ∈
/R
R = {x ∈ Rn : δ(x) = 1}
33
15.2 Errores
Situaciones posibles al probar una hipótesis estadística:
Propiedades:
Si H0 es falsa, β es máximo cuando el valor real del parámetro se aproxima al valor hipotético.
Nivel de signicancia del test: sea δ un test para decidir entre las hipótesis H0 : θ ∈ Θ0 contra
H1 : θ ∈ Θ1 . El nivel de signicación del test es la máxima probabilidad de rechazar la hipótesis
H0 cuando ésta es verdadera.
Función de potencia:
β(θ) = P [rechazar H0 |θ]
Potencia del test: es la probabilidad de NO cometer error de tipo II. Lo ideal es que tienda a
ser 1. La potencia se ve afectada por tres factores:
3. El verdadero valor del parámetro que está bajo prueba. Cuanto mayor es la diferencia entre
ese valor y el valor especicado por H0 , mayor potencia, mayor potencia.
34
15.3 Construcción de reglas de decisión
1. Si θ1 (X) es una cota inferior de conanza de nivel 1 − α para θ, entonces
(
1 si θ0 < θ1 (X)
δ(X) =
0 si θ0 ≥ θ1 (X)
H0 : θ ≤ θ0 contra H1 : θ > θ0
H0 : θ ≥ θ0 contra H1 : θ < θ0
H0 : θ = θ0 contra H1 : θ 6= θ0
H0 : θ = θ0 contra H1 : θ > θ0
es
1 si Q θ̂(X), θ0 > q1−α
δ(X) =
0 si Q θ̂(X), θ0 ≤ q1−α
35
2. Dividir el rango de la variable aleatoria X en una cantidad k de conjuntos disjuntos (clases
Ci ) tales que
pi = P [x ∈ Ci |H0 es verdadera]
k
X
pi = 1
i=1
pi > 0
npi ≥ 5 (regla de Fisher)
Para evitar que haya clases sub o sobre dimensionadas, utilizar el criterio pi ≈ pj para
Ci 6= Cj .
3. Agrupar los datos de la muestra según las clases establecidas, y contar las frecuencias obser-
vadas (ni , i = 1...k ).
4. Calcular el valor del estadístico:
k 2
X (ni − npi )
D2 =
i=1
npi
5. Test: n o
δ(X) = 1 D2 > χ2ν=k−r−1,(1−α)
16 Estadística Bayesiana
Objetivo : sea X una variable aleatoria cuya función de densidad es conocida y depende de un
parámetro θ. La esencia del enfoque Bayesiano consiste en realizar estimaciones acerca de θ
suponiendo que θ es una variable aleatoria con cierta función de densidad de probabilidades a
priori.
Regla de Bayes:
P (E|A)P (A)
Caso discreto: P (A|E) = P (E|A)P (A)+P (E|Ā)P (Ā)
f (x)·fY (y)
Caso continuo: fY |X=x (y) = ´ +∞ X|Y =y
f (x)·fY (y) dy
−∞ X|Y =y
Función de densidad a posteriori : sea la variable aleatoria X con función de densidad f (x|θ),
donde la función de densidad a priori de θ es πθ (t). La densidad del parámetro desconocido θ
después de obtener una muestra x es:
f (x|t) · πθ (t)
πθ (t|x) = ´
Θ
f (x|t) · πθ (t) dt
Tener en cuenta que el espacio paramétrico Θ puede cambiar luego de realizar el experimento.
Ejemplo: sea X ∼ f(0, θ). A priori, θ ∼ f(2, 3). El espacio paramétrico a priori es Θ ∈ (2, 3). Si
la muestra obtenida es x = 8, entonces el espacio paramétrico a posteriori es Θ = (8, ∞).
36
Distribuciones predictivas: sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribución
indexada por θ. Se observa que X = x y se quiere predecir el comportamiento de una nueva
observación Y ∼ g (y|θ), donde Y depende de θ. La función de densidad predictiva (o incondicional )
de la nueva observación Y será:
ˆ
g (y|x) = g (y|t) · π (t|x) dt
π (t|x) ∝ L (t|x)
c ) Estimadores bayesianos:
1
Pn
θ̂(x) = n+2 (1 + i=1 xi )
k
θ̂map (x) = n = x̄
√
d ) Estimación por intervalo: [0, 1 − n+1
α]
2 2
σ 2 ρ2
a ) Distribución a posteriori de θ: ∼ N nρnρx̄+σ µ
2 +σ 2 , nρ2 +σ 2
nρ2 x̄+σ 2 µ
µ∗ = nρ2 +σ 2 y
2 2
σ ρ
ρ2∗ = nρ2 +σ 2
nρ2 x̄+σ 2 µ
c ) Estimadores bayesianos: θ̂ = nρ2 +σ 2
37
d ) Estimación por intervalo:
3. Si X ∼ P oisson(θ) y la distribución a priori de θ es ∼ Γ (ν, λ)...
c ) Estimadores bayesianos:
P n
xi +ν
θ̂ = i=1
n+λ
Pn
xi +ν−1
θ̂map = i=1n+λ
χ22ν(x),α/2 χ22ν(x),1−α/2
d ) Estimación por intervalo: 2(n+λ) , 2(n+λ)
38