Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Resumen: EYP1113
12 de noviembre de 2022
Índice general
Definiciones importantes
Espacio muestral: Conjunto de todos los resultados posibles (Discreto o Continuo)
Evento certeza: Denotado por S u Ω, es un evento que contiene a todos los puntos muestrales
Evento complemento: Denotado por E, contiene todos los puntos muestrales de S que no están
contenidos en un evento E
Unión de eventos: Para dos eventos E1 y E2 , su unión forma un nuevo conjunto que contiene los
puntos muestrales de E1 y los contenidos en E2 que no se encuentran en E1 (E1 ∪ E2 ).
Intersección de eventos: Para dos eventos E1 y E2 , su intersección forma un nuevo evento que
contiene los puntos muestrales contenidos en E1 y en E2 a la vez (E1 ∩ E2 ).
Eventos mutualmente excluyentes (Disjuntos): Son eventos en los que su intersección en vacı́a
(E1 ∩ E2 = ϕ).
Eventos colectivamente exhaustivos: Son eventos que unidos conformas el espacio muestral
(E1 ∪ E2 = S).
Partición: Son eventos que conforman un evento colectivamente exhaustivo y a la vez son mutua-
mente excluyentes por pares (E1 ∩ E2 = ϕ y E1 ∪ E2 = S).
A∪S =S y A∩S =A
Conjunto complemento
Con respecto a un evento E y su complemento E, se observa que
E∪E =S y E∩E =ϕ
Finalmente
E=E
Ley Conmutativa
La unión e intersección de conjuntos son conmutativas, es decir, para dos conjuntos A y B se cumple que
A∪B =B∪A
A∩B =B∩A
Ley Asociativa
La unión e intersección de conjuntos es asociativa, es decir, para 3 conjuntos A, B y C se cumple que
(A ∪ B) ∪ C = A ∪ (B ∪ C) = B ∪ (A ∪ C)
(A ∩ B) ∩ C = A ∩ (B ∩ C) = B ∩ (A ∩ C)
Ley Distributiva
La unición e intersección de conjuntos es distributiva, es decir, para 3 conjuntos A, B y C se cumple que
(A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C)
(A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C)
Ley de De Morgan
Ésta ley relaciona conjuntos y sus complementos.
Para dos conjuntos (eventos), E1 y E2 , la ley de De Morgan dice que
(E1 ∪ E2 ) = E1 ∩ E2
(E1 ∩ E2 ) = E1 ∪ E2
Generalizando
(E1 ∪ E2 ∪ · · · ∪ En ) = E1 ∩ E2 ∩ · · · ∩ En
(E1 ∩ E2 ∩ · · · ∩ En ) = E1 ∪ E2 ∪ · · · ∪ En
P (E) ≥ 0
P (S) = 1
Ley Aditiva
Sea dos eventos E1 y E2 cualquiera, la ley aditiva dice que
N N
!
X X X \
P (E) = P (Ai ) − P (Ai ∩ Aj ) + P (Ai ∩ Aj ∩ Ak ) − · · · (−1)N −1 P Ai
i=1 i,j|i<j i,j,k|i<j<k i=1
Probabilidad clásica
Si se tiene un espacio muestral S finito
S = {ω1 , ..., ωN }
y la probabilidad de que ocurra cada evento en S es
#A
P (A) =
#S
El problema ocurre al momento de contar la cantidad de casos posibles de A cuando es muy grande, para
esto se utilizan las técnicas de conteo
#S = n1 × n2 × · · · × nk
Permutación
Considerando un conjunto de objetos
C = {c1 , ..., cm }
y se quiere seleccionar una muestra de r objetos, ¿de cuantas maneras se puede hacer?, para responder
a esta pregunta se tomas los siguientes dos casos
Muestreo CON reemplazo: nr
n!
Muestreo SIN reemplazo : n × (n − 1) × (n − 2) × · · · × (n − r + 1) =
(n − r)!
Nota: En las calculadoras cientı́ficas, es común encontrar el botón nPr para la permutación
Combinación
Combinación sin reemplazo
Considerando un muestreo SIN reemplazo. Si interesa obtener una muestra del conjunto total, la cantidad
de muestras distintas de tamaño r son
n n!
=
r r! × (n − r)!
Nota: En las calculadoras cientı́ficas, es común encontrar el botón nCr para la combinación
R: En R se utiliza choose(n,r)
Observación: Para ambos casos, combinación con o sin reemplazo; el orden con el cuál son
seleccionados los elementos NO importa.
R: En R se utiliza choose(n+r-1,r)
Probabilidad condicional
Cuando la ocurrencia de un evento (o no ocurrencia) depende de otro evento, es relevante ver la proba-
bilidad como una probabilidad condicional.
Se define la probabilidad condicional que un evento E1 ocrurra bajo el supuesto que otro evento E2
ocurre con certeza es
P (E1 ∩ E2 )
P (E1 |E2 ) =
P (E2 )
P (E ∩ S)
P (E|S) = = P (E)
P (S)
P (E1 ∩ E2 )
P (E1 |E2 ) =
P (E2 )
P (E1 ∩ E2 )
P (E1 |E2 ) =
P (E2 )
si se suman se tiene que
P (E1 |E2 ) = 1 − P (E1 |E2 )
Independencia estadı́stica
2 eventos E1 y E2 se dice que son estadı́sticamente independientes si la ocurrencia de un evento no
depende de la ocurrencia del otro, es decir
Ley multiplicativa
Propiedades
Si E1 y E2 son eventos estadı́sticamente independientes, entonces E1 y E2 también lo son
Si E1 y E2 son eventos estadı́sticamente independientes dado un evento A, entonces
Teorema de Bayes
Si cada evento Ek de la partición de S y el evento A son posibles, entonces por ley multiplicativa se tiene
que
P (A|Ej ) · P (Ej ) = P (Ej |A) · P (A)
Es decir
P (A|Ej ) · P (Ej )
P (Ej |A) =
P (A)
Aplicando teorema de probabilidades totales se tiene que
P (A|Ej ) · P (Ej )
P (Ej |A) = n
X
P (A|Ei ) · P (Ei )
i=1
Variables aleatorias
Variable aleatoria discreta:
Si X es una variable aleatoria discreta, entonces su función de probabilidad “puntual” es
pX (x) = P (X = x)
Curiosidad: Para el caso continuo, la función generadora de momentos es en esencia una trans-
formada de Laplace con −s = t.
Z ∞
L{f (x)} = f (x)e−sx dx
−∞
Valores centrales
Valor esperado: Centro de masa de la distribución.
X
x · pX (x), Caso discreto
x∈ΘX
µX = MX ′
(0) = E(X) =
Z ∞
x · fX (x)dx, Caso continuo
−∞
Moda: Valor mas frecuente o con mayor probabilidad. Para una variable continua, la moda se
obtiene mediante,
d d
fX (xModa ) = 0 o fX (xModa ) = ∄
dx dx
Mediana: Valor tal que se acumula un 50 % de probabilidad
1 1
FX (xmed ) = o P (X ≥ xmed ) =
2 2
Medidas de dispersión
Varianza: Representa el grado de variabilidad de los datos respecto a la esperanza.
X
(x − µX )2 · pX (x), Caso discreto
x∈ΘX
2
σX = Var(X) = E[(X − µX )2 ] =
Z ∞
(x − µX )2 · fX (x)dx, Caso continuo
−∞
2
σX = E(X 2 ) − µ2X
Desviación estándar: Su interpretación es similar a la varianza.
σX = Var(X)
p
Medida de kurtosis
Permite conocer el grado de concentración de los datos alrededor de la media.
X
(xi − µX )4 · pX (xi ), Caso discreto
xi ∈ΘX
E[(X − µX )4 ] =
∞
Z
(x − µX )4 · fX (x)dx, Caso continuo
−∞
En el caso discreto, el cálculo de probabilidades acumuladas será la suma de las probabilidades puntuales
hasta el valor x deseado:
X ∼ pX (x)
x
X
FX (x) = P (X ≤ x) = pX (xi ) = pX (x0 ) + pX (x0 + 1) + · · · + pX (x)
xi =x0
donde ΘX ∈ [x0 , xf ] (x0 y xf dependerá de cada distribución), entonces, para poder calcular fácilmente
la probabilidad acumulada en una calculadora, el intervalo [x0 , x] de la suma es tal que involucre pocos
elementos a sumar. En el caso que la suma involucre demasiados términos, entonces se tendrá que hacer
una aproximación a una distribución Normal para poder utilizar la tabla Normal(0,1) y facilitar el cálculo,
esto se explicará al introducir el Teorema del Lı́mite Central.
X ∼ fX (x)
Z x
FX (x) = P (X ≤ x) = fX (x)dx
x0
donde Θ ∈ [x0 , xf ] (ΘX dependerá de la distribución), entonces, si fX (x) es sencillo de integrar entonces
el cálculo de FX (x) es directo y exacto, por otro lado, si fX (x) es difı́cil o imposible de integrar, entonces
se tendrá que hacer una aproximación a una distribución Normal para poder utilizar la tabla Normal(0,1)
y facilitar el cálculo, esto se explicará al introducir el Teorema del Lı́mite Central.
Si se está trabajando mediante software (R, Wolfram, Python, etc.), entonces no es necesario realizar
las aproximaciones antes mencionadas ya que se pueden obtener valores exactos de cualquier distribu-
ción.
Propiedades:
Varianza: Var(X) = σ 2
σ 2 t2
Función generadora de momentos: MX (t) = exp µt +
2
1 1
fX (x) = √ exp − x2 , ΘX ∈ R
2π 2
Φ(−x) = 1 − Φ(x)
Propiedades:
Varianza: Var(X) = 1
t2
Función generadora de momentos: MX (t) = exp
2
Se puede relacionar la distribución normal con la normal estándar de la siguiente forma:
Si X ∽ Normal(µ, σ), entonces
x−µ
FX (x) = Φ
σ
Distribución Log-Normal
X ∼ Log-Normal(λ, ζ)
Su función de densidad es
" 2 #
1 1 ln(x) − λ
fX (x) = √ exp − , ΘX ∈ (0, ∞)
ζx 2π 2 ζ
Propiedades:
ζ2
Valor esperado: E(X) = exp λ +
2
2
Varianza: Var(X) = µ2X eζ − 1
q
Relación ζ - c.o.v.: ζ = 2 )
ln(1 + δX
Mediana: eλ
Observación: Esta relación, entre log-normal y normal estándar, es muy útil en especial si se
desea obtener los parámetros λ y ζ mediante un percentiles dados. Además, esto ayuda a calcular
probabilidades acumuladas solamente con el uso de una tabla de probabilidades Normal(0,1).
Distribución Bernoulli
X ∼ Bernoulli(p)
X: Número de éxitos en un único experimento (o intento) independientes
Su función de probabilidad es
pX (x) = px (1 − p)1−x , ΘX = 0, 1
Propiedades:
Función generadora de momentos: MX (t) = pet + 1 − p
Valor esperado: µX = p
2
Varianza: σX = p(1 − p)
Momento m-ésimo: E(X m ) = p
Distribución Binomial
X ∼ Binomial(n, p)
X: Número de éxitos en “n” experimentos Bernoulli independientes
Su función de probabilidad es
n x
pX (x) = p (1 − p)n−x , ΘX = 0, 1, 2, ..., n
x
Propiedades:
Función generadora de momentos: MX (t) = (pet + (1 − p))n
Valor esperado: µX = np
2
Varianza: σX = np(1 − p)
Distribución Geométrica
N ∼ Geométrica(p)
N : Número de experimentos Bernoulli independientes hasta obtener el 1er éxito
Su función de probabilidad es
pN (n) = p(1 − p)n−1 , Θ N ∈ N0
Observación: En este texto se utiliza la notación N0 para indicar al conjunto de números naturales
sin incluir el cero (N0 = {1, 2, 3, ...}).
Una de sus aplicaciones tiene que ver con el Tiempo de recurrencia o periodo de retorno:
Si T : tiempo transcurrido hasta observar el primer evento exitoso
T ∼ Geométrica(p)
Entonces el número de intervalos ocurridos hasta observar el primer evento exitoso se denomina tiempo
medio de recurrencia
∞
X 1
T = E(T ) = t · p(1 − p)t−1 =
t=1
p
n−1 k
pNk (n) = p (1 − p)n−k , ΘNk = k, k + 1, k + 2, ...
k−1
Propiedades:
k
pet
F. generadora de momentos: MNk (t) = , t < −ln(1 − p)
1 − (1 − p)et
k
Valor esperado: µNk =
p
k(1 − p)
2
Varianza: σN =
k
p2
Distribución de Poisson
Xt ∼ Poisson(νt) o Xt ∼ Poisson(λ)
Su función de probabilidad es
Propiedades:
Distribución Exponencial
X ∼ Exponencial(ν)
Su función de densidad es
fX (x) = νe−νx , ΘX ≥ 0
fX (x) = νe−ν(x−a) , ΘX ≥ a
Su función de distribución de probabilidad acumulada es
FX (x) = 1 − e−ν(x−a) , ΘX ≥ a
Propiedades:
eat ν
Función generadora de momentos: MX (t) = , t<ν
ν−t
1
Valor esperado: µX = +a
ν
1
2
Varianza: σX =
ν2
1
c.o.v.: δX =
1 + νa
Skewness: θX = 2
Kurtosis: κX = 6
Se puede obervar que las medidas de dispersión (exceptuando al coeficiente de variación) no se ven
alteradas al desplazar la distribución en a.
El evento (T1 > t) implica que en el intervalo [0,t] no ocurren eventos, es decir
(νt)0 e−νt
P (T1 > t) = P (Xt = 0) = = e−νt
0!
Por lo tanto la función de distribución de probabilidad acumulada de T1 está dada por
Distribución Gamma
X ∼ Gamma(k, ν)
Su función de densidad es
ν k k−1 −νx
fX (x) = x e , ΘX ≥ 0
Γ(k)
Esta distribución contiene a la función Gamma Γ(α), la cual tiene las siguientes propiedades:
Z ∞
Γ(α) = uα−1 e−u du
0
Γ(α + 1) = αΓ(α)
Γ(n + 1) = n! si n ∈ N0
√
Γ (1/2) = π
Propiedades:
k
ν
Función generadora de momentos: MX (t) = , t<ν
ν−t
k
Valor esperado: µX =
ν
k
2
Varianza: σX =
ν2
1
c.o.v.: δX = √
k
EYP1113 Probabilidades y Estadı́stica Página 15 de 121
R: En R se utiliza [p,d,r,q]gamma(x, shape = k, rate = nu)
El evento (Tk > t) implica que en el intervalo [0,t] ocurren a lo más k − 1 eventos, es decir
k−1
X (νt)x e−νt
P (Tk > t) = P (Xt ≤ k − 1) =
x=0
x!
Por lo que la función de distribución de probabilidad acumulada es
k−1
X (νt)x e−νt
FTk (t) = 1 −
x=0
x!
y su función de densidad es
d ν k k−1 −νt
fTk (t) = FTk (t) = t e , ΘTk ≥ 0
dt Γ(k)
Sugerencia: En modalidad de prueba online, esto no tiene mucha utilidad ya que R puede hacer
el calculo directo, en modalidad de prueba presencial se recomienda saber utilizar la función de
distribución acumulada de la distribución Poisson para calcular probabilidades de una variable
con distribución exponencial, como se mostró anteriormente.
Nota: Esta distribución es especialmente útil en los capı́tulos de inferencia estadı́stica y bondad
de ajuste. El parámetro de la distribución chi-cuadrado se denomina grados de libertad. En R se
utiliza el comando [p,d,r,q]chisq(x, df = n).
νk
fX (x) = (x − γ)k−1 e−ν(x−γ) , ΘX ≥ γ
Γ(k)
Su función de distribución de probabilidad acumulada es
Z x k
ν
FX (x) = (x − γ)k−1 e−ν(x−γ) dx
γ Γ(k)
Propiedades:
k
Valor esperado: µX = + γ
ν
k
Varianza: σX 2
= 2
ν
El evento Tn es la suma de todos los tiempos entre los eventos i e i + 1 mas los eventos i + 1 e i + 2 hasta
i + n − 1 e i + n, es decir:
X n
Tn = Ti + Ti+1 + · · · + Ti+n = Ti+j
j=0
Tn ∼ Gamma(k = n, ν)
Distribución Hipergeométrica
X ∼ Hipergeométrica(n, N, m)
Considere una población finita dividida en 2 grupos: m éxitos y N − m fracasos, si se toma una muestra
aleatoria de tamaño n al azar, la probabilidad de que x sean éxitos está dada por la función de probabilidad
m N −m
x n−x
pX (x) = , ΘX ∈ [i, f ]
N
n
Propiedades:
m
Valor esperado: µX = n ·
N
N −n m m
Varianza: 2
σX = ·n· · 1−
N −1 N N
pY (n − x) = P (Y = n − x) = p
es decir:
P (X = x) = P (Y = n − x)
En el caso de las probabilidades acumuladas, se cumple lo siguiente:
P (X ≤ x) = P (Y ≥ n − x)
P (X ≥ x) = P (Y ≤ n − x)
Caso Binomial: Con la distribución Binomial sucede lo mismo que con la distribución Hiper-
geométrica. Si se realizan n experimentos Bernoulli con una probabilidad de éxitos p y de fracasos
1 − p (evento X), la probabilidad de observar x éxitos es:
pX (x) = P (X = x) = p
pY (n − x) = P (Y = n − x) = p
es decir:
P (X = x) = P (Y = n − x)
En el caso de las probabilidades acumuladas, se cumple lo siguiente:
P (X ≤ x) = P (Y ≥ n − x)
P (X ≥ x) = P (Y ≤ n − x)
Distribución Beta
X ∼ Beta(q, r)
Su función de densidad es
1 (x − a)q−1 (b − x)r−1
fX (x) = · , ΘX ∈ [a, b]
B(q, r) (b − a)q+r−1
Distribución Weibull
X ∼ Weibull(η, β)
Su función de densidad es
β−1 " #
β
β x x
fX (x) = exp − , ΘX > 0
η η η
Φ−1
Weibull (p) = ln[−ln(1 − p)]
1
ln(xp ) = ln(η) + · Φ−1
Weibull (p)
β
Observación: Mediante esta ecuación para calcular un percentil xp es posible determinar los
parámetros de β y η de acuerdo a percentiles dados.
Propiedades:
m
m-ésimo momento: E(X m ) = η m Γ 1 +
β
1
Valor esperado: µX = ηΓ 1 +
β
2 1
Varianza: σX = η Γ 1 +
2 2
−Γ 1+
2
β β
1
x−µ
fX (x) = ϕLogı́stica , ΘX ∈ R
σ σ
xp = µ + σΦ−1
Logı́stica (p)
Observación: Mediante esta ecuación para calcular un percentil xp es posible determinar los
parámetros de µ y σ de acuerdo a percentiles dados.
Propiedades:
Valor esperado: µX = µ
σ2 π2
2
Varianza: σX =
3
Distribución Log-Logı́stica
X ∽ Log-Logı́stica(µ, σ)
Su función de densidad es
1 ln(x) − µ
fX (x) = ϕLogı́stica , ΘX > 0
σx σ
ln(x) − µ
FX (x) = ΦLogı́stica , ΘX > 0
σ
donde eµ es un parámetro de escala y σ > 0 es un parámetro de forma.
ln(xp ) = µ + σΦ−1
Logı́stica (p)
Propiedades:
R: En R se utiliza:
plogis((log(x)-mu)/sigma, location = 0, scale = 1) (Para probabilidad acumulada)
Distribución t-Student
X ∼ t-Student(ν)
Su función de densidad es
− ν+1
Γ ν+1
x2 2
fX (x) = √ 2
1 + , ΘX ∈ R
πν Γ ν2
ν
FX (x) = √ 2
1+ dx
πν Γ 2
ν
−∞ ν
Propiedades:
ν
Varianza (µ > 2): σX
2
=
ν−2
Distribución Fisher
X ∼ Fisher(η, ν)
Su función de distribución es
η
Γ η+ν
η η2 x 2 −1
fX (x) = 2 , ΘX > 0
Γ η2 Γ ν η+ν
ν
νx + 1
η 2
2
2ν 2 (η + ν − 2)
Varianza (ν > 4): σX
2
=
η(ν − 2)2 (ν − 4)
1
n , x = x1 , x2 , ..., xn
pX (x) =
0, En otro caso
Propiedades:
n
1X
Valor esperado: µX = xi = x
n i=1
n
1X
2
Varianza: σX = (xi − µX )2
n i=1
n
1X n
N-ésimo valor esperado: E(X n ) = x
n i=1 i
n
1 X txi
F. generadora de momentos: MX (t) = e
n i=1
1
fX (x) = ΘX ∈ [a, b]
b−a
Sea X un fenómeno aleatorio con una distribución de probabilidad desplazada y sea Y una varia-
ble aleatoria con la misma distribución pero sin desplazamiento, entonces, la relación entre X e Y es la
siguiente:
X =Y +α
con α ∈ R el desplazamiento. La distribución de X en función de la distribución de Y es la siguiente (ver
capı́tulo 3: Funciones de Variables Aleatorias):
fX (x) = fY (x − α) o pX (x) = pY (x − α)
FX (x) = FY (x − α)
Medidas estadı́sticas como la media, moda, mediana y coeficiente de variación SI se ven alteradas por el
desplazamiento, pero medidas como la varianza, desviación estándar, rango e IQR NO se ven alteradas
por el desplazamiento.
El tiempo de desplazamiento entre su casa y el campus San Joaquin se puede modelas mediante
2 distribuciones, Normal y Log-Normal, las dos trasladadas. Usted desea evaluar la probabilidad
que, en un dı́a cualquiera, el tiempo que le toma de llegar desde su casa hasta el campus sea mas
de 30 minutos.
Para evaluar la probabilidad, utiliza la información obtenida en los viajes previos, la cual
se presenta a continuación:
Min. Median Mean Max.
6 18 20 73
Nota: Para la Normal considere la media y mediana igual a 20 y una desviación estándar de 5 min.
Solución:
T ∼ Normal(µ, σ, α)
con α el desplazamiento. Sea X una variable aleatoria auxiliar con distribución Normal sin tras-
ladar, X ∼ Normal(µ, σ), por lo que T = X + α. Mediante los datos proporcionados se tiene
que:
α = Min. = 6
Se debe encontrar µ y σ, para eso se tiene lo siguiente:
Var(T ) = Var(X) = σ 2 = 52 −→ σ = 5
Entonces,
T ∼ Normal(µ = 14, σ = 5, α = 6)
T ∼ Log-Normal(λ, ζ, α)
con α el desplazamiento. Sea X una variable aleatoria auxiliar con distribución Normal sin tras-
ladar, X ∼ Log-Normal(λ, ζ), por lo que T = X + α. Mediante los datos proporcionados se tiene
que:
α = Min. = 6
Se debe encontrar λ y ζ, para eso se tiene lo siguiente:
ζ2
E(T ) = E(X) + α = exp λ + + α = Mean −→ ζ = 2 ln(Mean − α) − 2λ = 0.555249
p
2
Entonces:
T ∼ Log-Normal(λ = 2.48491, ζ = 0.5552, α = 6)
Se pide P (T > 30):
(X = x, Y = y) = (X = x ∩ Y = y) = (A ∩ B)
" n # n
!
\ \
(X1 = x1 , ..., Xn = xn ) = (Xi = xi ) = Ai
i=1 i=1
FX,Y (x, y) = P (X ≤ x, Y ≤ y)
FX,Y (−∞, y) = 0 → P (ϕ ∩ A)
FX,Y (∞, ∞) = 1 → P (S ∩ S)
pX,Y (x, y) = P (X = x, Y = y)
Además
b X
X d
P (a ≤ X ≤ b, c ≤ Y ≤ d) = pX,Y (x, y)
x=a y=c
∂2
fX,Y (x, y) = FX,Y (x, y)
∂x∂y
Además
Z b Z d
P (a ≤ X ≤ b, c ≤ Y ≤ d) = fX,Y (x, y) dxdy
a c
Distribuciones Marginales
La distribución marginal de una variable aleatoria se puede obtener utilizando la distribución conjunta y
gracias al teorema de probabilidades totales.
Caso discreto
La distribución marginal de X, pX (x), es
X
pX (x) = pX,Y (x, y)
y∈ΘX,Y
Distribuciones Condicionales
Sean X, Y variables aleatoria, la probabilidad de (X = x) condicionado a (Y = y) tiene asociada una
función de distribución de probabilidad condicional, que es la siguiente
P (X = x, Y = y) Probabilidad Conjunta
P (X = x | Y = y) = =
P (Y = y) Probabilidad Marginal
pX,Y (x, y)
pX|Y =y (x) =
pY (y)
La función de distribución de probabilidad condicional de Y dado la ocurrencia previa de X = x es
pX,Y (x, y)
pY |X=x (y) =
pX (x)
fX,Y (x, y)
fX|Y =y (x) =
fY (y)
La función de densidad condicional de Y dado la ocurrencia previa de X = x es
fX,Y (x, y)
fY |X=x (y) =
fX (x)
Caso mixto
Si X es discreta e Y es continua, entonces las respectivas marginales son
Z
pX (x) = pX|Y =y (x) · fY (y) dy
y∈ΘX,Y
X
fY (y) = fY |X=x (y) · pX (x)
x∈ΘX,Y
Sea X e Y dos variables aleatorias con soportes ΘX ∈ [a, b] y ΘY ∈ [c, d], entonces el soporte con-
junto del par aleatorio X e Y es aquél subconjunto de intersección entre ambos soportes. Suponiendo que
los soportes mostrados anteriormente coinciden, entonces:
ΘX,Y = {(x, y) ∈ R2 | a ≤ x ≤ b, c ≤ y ≤ d}
El soporte de las variables condicionadas es el mismo que el de las variables conjuntas pero fijando el valor
a la variable que se está condicionando (el evento previo). Los soportes de las variables condicionadas
X|Y = y y Y |X = x son los siguientes:
ΘX|Y =y = {(x, y) ∈ R2 | a ≤ x ≤ b, y = y}
ΘY |X=x = {(x, y) ∈ R2 | x = x, c ≤ y ≤ d}
Nota: Es importante tener cuidado en la siguiente notación ya que no siempre es válido la igualdad:
x ∈ ΘX ̸= x ∈ ΘX,Y
y ∈ ΘY ̸= y ∈ ΘX,Y
Sea Xt una variable aleatoria que sigue un proceso Poisson y modela la ocurrencia de un cierto
evento con una tasa ν por unidad de tiempo, además; Sea Yt una variable aleatoria que modela
la ocurrencia de un éxito o sub-eventos asociados al evento en Xt con una probabilidad p de que
ocurra dicho éxito o sub-evento, entonce, Yt distribuye Poisson de parámetro λ = νpt:
Xt ∼ Poisson(νt) −→ Yt ∼ Poisson(νpt)
Lo que en realidad hace Yt es que de la tasa de ocurrencia ν total, al ser multiplicada por p se
realiza una selección de los casos favorables, por lo que νp es la tasa de ocurrencia de éxitos o
sub-eventos. Como se acaba de demostrar, esto se debe a la existencia del evento condicionado
Yt |Xt = x ∼ Binomial(x, p).
P (X ≤ x, Y ≤ y) = P (X ≤ x) · P (Y ≤ y)
La independencia es un concepto muy importante al tratar con variables aleatorias, la presencia o ausencia
de ésta puede generar cambios significativos en el comportamiento de un suceso aleatorio conjunto.
Normal Bivariada
Dos variables aleatorias X e Y tienen distribución conjunta Normal-Bivariada si su función de densidad
conjunta está dada por
2 2
1 1 x − µx y − µY x − µX y − µY
fX,Y (x, y) = exp − + − 2ρ
− ρ2 )
p
2πσX σY 1 − ρ 2 2(1 σX σY σX σY
A partir de esto se puede deducir cómo distribuyen X e Y por separado y cual es la distribución de la
variable condicionada Y |X = x:
X ∽ Normal(µX , σX ) Y ∽ Normal(µY , σY )
ρσY p
Y |X = x ∽ Normal µY + (x − µX ), σY 1 − ρ2
σX
Una notación para la normal bivariada es la siguiente
(X, Y ) ∽ N2 (µX , µY , σX , σY , ρ)
2
µX σX ρ σX σY
(X, Y ) ∽ N2 ,
µY ρ σ X σY σY2
donde ρ es una parámetro de asociación llamado correlación (se verá en los siguientes temas). La función
de densidad conjunta se puede reescribir como
1 1 T −1
fX,Y (x, y) = √ exp − µ Σ µ ⃗
2π detΣ 2
2
x − µX σX ρ σ X σY
donde µ
⃗= yΣ= .
y − µY ρ σ X σY σY2
1 1
fX,Y (x, y) = exp − x + y − 2ρxy
2 2
2π 1 − ρ2 2(1 − ρ2 )
p
1 1 T −1
fX,Y (x, y) = √ exp − µ0 Σ µ⃗0
2π detΣ 2
1
x ρ
donde donde µ
⃗0 = yΣ=
y ρ 1
Covarianza
En ciertas ocasiones las variables aleatorias X e Y pueden tener alguna relación, en particular, la presencia
o ausencia de relación estadı́stica lineal se determina observando el primer momento conjunto de X e Y
definido como
Z Z
xy · fX,Y (x, y) dxdy, (Caso continuo)
(x,y)∈ΘX,Y
E(XY ) =
X X
xy · pX,Y (x, y), (Caso discreto)
(x,y) ∈ΘX,Y
Correlación
En la mayorı́a de los casos es preferible normalizar la covarianza, esto resulta en una nueva medida lla-
mada correlación, que al igual que la covarianza sirve para poder cuantificar la magnitud de la relación
entre dos variables.
Si se tiene una función de Y , h(Y ), el valor esperado condicional está dado por
X
h(y) · pY |X=x (y) Caso Discreto
y∈ΘY |X=x
E[h(Y )|X = x] =
Z
h(y) · fY |X=x (y) dy Caso Continuo
y∈ΘY |X=x
E(X) =
Z
X
x · pX|Y =y (x) fY (y) dy Caso Discreto-Continuo
y∈ΘY x∈Θ
X|Y =y
" #
X Z
x · fX|Y =y (x) dx pY (y) Caso Continuo-Discreto
y∈ΘY x∈ΘX|Y =y
E(αX) = αE(X)
Var(αX) = α2 Var(X)
Basándose en el ejemplo acerca del TAG y los fraudes, determinar, mediante el teorema de espe-
ranza iterada, la distribución de Yt sabiendo lo siguiente:
Solución:
y la varianza de Y es:
Este resultado coincide con la esperanza y varianza de una distribución Poisson de parámetro
λ = νpt, por lo que se concluye que:
Yt ∼ Poisson(νpt)
Para comprobar al 100 % el resultado, se realiza todo el desarrollo hecho en el ejemplo anterior.
Predicción
Predecir la realización de una variable aleatoria Y : el “mejor” valor c para predecir la realización de Y
se puede obtener minimizando el error cuadrático medio definido como
Si se quiere predecir Y basado en una función de una variable aleatoria X, h(X), que minimice el
error cuadrático medio definido como
ECM=E{[Y − h(X)]2 }
Entonces, la función h(X) que minimiza ECM necesariamente debe corresponder a E(Y |X), este es el
mejor predictor de Y en función de X.
Determine cual es el mejor predictor para dos variables aleatorias X e Y que distribuyen
conjuntamente Normal Bivariada.
Solución:
Esta recta es denominada recta de regresión lineal simple, que tiene una estructura de la siguiente
forma
y(X) = E(Y |X) = β0 + β1 X
Esta recta se estudiará con más detalle en el Capı́tulo 6: Regresión Lineal.
Y = g(X)
pY (y) = pX [g −1 (y)]
FY (y) = P (Y ≤ y) =
P [X ≥ g −1 (y)] si g(·) es decreciente
FY (y) = FX [g −1 (y)]
Cuando y decrece con x X
FY (y) = pX (x)
x≥g −1 (y)
FY (y) = 1 − FX [g −1 (y) − 1]
FY (y) = FX [g −1 (y)]
Cuando y decrece con x
Z Z ∞
FY (y) = fX (x)dx = fX (x)dx
x≥g −1 (y) g −1 (y)
Z ∞
d −1
FY (y) = fX [g −1
(v)] · g (v) dv
y dv
FY (y) = 1 − FX [g −1 (y)]
X −µ
Sea X ∼ Normal(µ, σ), si Y = , entonces,
σ
X −µ
Y = −→ X = µ + σ · Y
σ
d −1
fY (y) = fX [g (y)] · g (y)
−1
dy
fY (y) = fX (µ + σ · y) · |σ|
" 2 #
1 1 µ+σ·y−µ
fY (y) = √ exp − · |σ|
2π|σ| 2 σ
1
2
y
fY (y) = √ exp −
2π 2
Por lo tanto, Y ∼ Normal(0, 1)
Y = ln(X) −→ X = eY
d −1
fY (y) = fX [g (y)] · g (y)
−1
dy
fY (y) = fX (ey ) · |ey |
" 2 #
1 1 1 ln(ey ) − λ
fY (y) = √ · y exp − · |ey |
2π e ζ 2 ζ
" 2 #
1 1 y−λ
fY (y) = p exp −
2πζ 2 2 ζ
Y = eX −→ X = ln(Y )
d −1
fY (y) = fX [g (y)] · g (y)
−1
dy
" 2 #
1 1 ln(y) − µ 1
fY (y) = √ exp − ·
2πσ 2 2 σ y
" 2 #
1 1 1 ln(y) − µ
fY (y) = √ · exp −
2π yσ 2 σ
Y ∼ Log-Normal(λk, |k|ζ)
con k ̸= 0
1 1
Y ∼ Gamma k = , ν =
2 2c
Log-Normal
ln(X) ∼ Normal(λ.ζ)
X ∼ Log-Normal(λ, ζ) = X k ∼ Log-Normal(kλ, |k|ζ), k ̸= 0
cX k ∼ Log-Normal(ln(c) + kλ, |k|ζ), c > 0, k ̸= 0
Si se considera el caso
Z = g(X, Y )
En una cierta carretera, la cantidad X de accidentes diarios puede ser modelado según una
distribución Poisson(λ). Además, en un dı́as se observan accidentes mortales con probabilidad
de ocurrencia p × 100 %. Determine la distribución de W = X · Y donde Y representa la va-
riable aleatoria de observar o no accidentes mortales en un dı́a. Asuma independencia entre X e Y .
Solución:
Alternativa 2 : Mediante análisis de los valores de Z. Se puede dividir el problema en dos, buscar
la función de probabilidad para Z > z y para Z = 0, en el primer caso se tiene que para obtener
un valor distinto de cero de Z, entonces el valor de X tiene que ser distinto de cero e Y tiene que
ser siempre uno, es decir:
pZ (z) = P (Z = z) = P (X = z, Y = 1)
= P (X = z) · P (Y = 1)
λz e−λ
= ·p
z!
Para Z = 0 se puede seguir el mismo análisis que la alternativa 1.
Z ∞ Z g −1
FZ (z) = fX,Y (x, y)dxdy
−∞ −∞
Sean X e Y dos variables aleatorias independientes con distribución Uniforme, con soporte en los
intervalos ΘX ∈ (0, 1) y ΘY ∈ (0, 2). Determinar la función de densidad de Z = X + Y .
Ayuda: Podrı́a ser de ayuda considerar los siguientes intervalos para Z: 0 < z < 1, 1 ≤ z < 2 y
2 ≤ z < 3.
Solución:
Los lı́mites de integración son tales que las funciones de densidad de X e Y estén definidas. Para
X no hay restricción, por lo que 0 < x < 1; para Y se tiene que está definida en 0 < y < 2, por lo
tanto:
0<y<2
0<z−x<2
−z < −x < 2 − z
z−2<x<z
por lo que: Z z
fZ (z) = fX (x) · fY (z − x) dx
z−2
Analizando para los distintos intervalos de Z se tiene:
Intervalo 0 < z < 1: Considerando los casos extremos:
z = 0 −→ −2 < x < 0
z = 1 −→ −1 < x < 1
Se observa que el valor inferior del intervalo de x entre 0 < z < 1 da valores de −2 < xinf <
−1, por lo que la función de de densidad de X serı́a cero, mientras que el valor superior del
intervalo de x entre 0 < z < 1 no presenta ningún problema ya que 0 < xsup < 1, por lo que
la función de densidad de X e Y estarı́an definidas, entonces, el intervalo acotado de x para
evaluar la integral es:
0<x<z
la función de densidad en 0 < z < 1:
z
1
Z
z
fZ (z) = dx =
0 2 2
z = 1 −→ −1 < x < 1
z = 2 −→ 0 < x < 2
Se observa que el valor inferior del intervalo de x da valores de −1 < xinf < 0, por lo que
la función de densidad de X serı́a cero; mientras que el valor superior del intervalo de x da
valores de 1 < xsup < 2, por lo que la función de densidad de X serı́a cero; entonces, el
intervalo acotado de x para evaluar la integral es:
0<x<1
z = 2 −→ 0 < x < 2
z = 3 −→ 1 < x < 3
Se observa que el valor inferior del intervalo de x da valores de 0 < xinf < 1, por lo que la
función de densidad de X e Y estarı́an definidas; mientras que el valor superior del intervalo
de x da valores de 1 < xsup < 3, por lo que la función de densidad de X serı́a cero; entonces,
el intervalo acotado de x para evaluar la integral es:
z−2<x<1
X ∼ Poisson(ν) Y ∼ Poisson(µ)
Solución:
Si X e Y son variables aleatorias independientes con distribución Poisson con parámetros ν y µ
respectivamente, si Z = X + Y , entonces,
∞
X
pZ (z) = pX (x) · pY (z − x)
x=0
z
X ν x e−ν µz−x e−µ
pZ (z) = ·
x=0
x! (z − x)!
(µ + ν)z e−(µ+ν)
pZ (z) =
z!
Z = X + Y ∼ Poisson(ν + µ)
Generalizando, si Xi ∽ Poisson(λi ) son variables aleatorias independientes, entonces
k k
!
X X
Z= Xi ∼ Poisson λi
i=1 i=1
X ∼ Gamma(α, ν) Y ∼ Gamma(β, ν)
Solución:
Si X e Y son variables aleatorias independientes con distribución Gamma(α, ν) y Gamma(β, ν)
respectivamente, entonces Z = X + Y distribuye,
Z ∞
fZ (z) = fX (z − y) · fY (y)|1|dy
−∞
z α
ν β β−1 −νy
Z
v
fZ (z) = (z − y)α−1 e−ν(z−y) · y e dy
0 Γ(α) Γ(β)
ν α+β
fZ (z) = z α+β−1 e−νz
Γ(α + β)
n n
!
X X ν
Z=c Xi ∼ Gamma ki ,
i=1 i=1
c
X ∼ Normal(µX , σX ) Y ∼ Normal(µY , σY )
Solución:
Considerando X e Y variables aleatorias independientes con distribución Normal(µX , σX ) y
Normal(µY , σY ) respectivamente, entonces
Z = a + bX + cY ∼ Normal(µZ , σZ )
donde
µZ = a + bµX + cµY
σZ = b2 σX2 + c2 σ 2
p
Y
a y b son constantes
Generalizando , si Xi ∼ Normal(µXi , σXi ) son variables aleatorias independientes, entonces,
n
X
Z = a0 + ai Xi ∼ Normal(µZ , σZ )
i=1
donde
n
X
µZ = a0 + ai µXi
i=1
v
u n
uX
σZ = t a2i σX
2
i
i=1
Z ∞
1
z z
f X,Y , y dy, g −1 (z, y) =
−∞ y y y
fZ (z) =
Z ∞
1
fX,Y x, z dx, z
g −1 (z, x) =
−∞ x x x
X
Si Z = , la función de densidad de Z esta dada por
Y
donde ln(Xi ) ∽ Normal(λXi , ζXi ), por lo tanto ln(Z) es la suma de variables normales y, en consecuencia,
también es Normal de media y varianza:
n
X
Media de Z: λZ = E(ln(Z)) = λXi
i=1
n
X
Varianza de Z: ζZ2 = Var(ln(Z)) = 2
ζX i
i=1
Finalmente,
Z ∼ Log-Normal(λZ , ζZ )
ν 1
Si Z es una variable aleatoria Normal(0,1) y U ∽ Gamma , , ambas independientes, entonces
2 2
Z
T =p ∼ T-Student(ν)
U/ν
y
H = T 2 ∼ Fisher(1, ν)
Entonces,
cuando n → ∞
Observación: El sı́mbolo
(∼)
˙ significa que la variable aleatoria distribuye aproximadamente, mien-
iid
tras que el sı́mbolo ∼ significa que las variables aleatorias distribuyen independientemente e
igual.
Algunos ejemplos:
iid
Sean X1 , . . . , Xn ∼ Bernoulli(p), entonces,
n
·
X
Sn = Xi ∼ Binomial(n, p) ∼ Normal np, np(1 − p)
p
i=1
n
r !
1X · p(1 − p)
Xn = Xi ∼ Normal p,
n i=1 n
iid
Sean X1 , . . . , Xn ∼ Exponencial(ν), entonces,
n √
X · n n
Sn = Xi ∼ Gamma(n, ν) ∼ Normal ,
i=1
ν ν
iid
Sean X1 , . . . , Xn ∼ Poisson(λ), entonces,
n √
·
X
Sn = Xi ∼ Poisson(nλ) ∼ Normal nλ, nλ
i=1
P (X ≤ x) = P (X < x + 0.5)
Cuando se habla de valores extremos, se considera el mayor y menor valor de una muestra de tamaño n
de una distribución conocida, Por tanto, es de interés determinar su distribución exacta o asintótica.
Se considera una variable aleatoria X con función de densidad fX (x) o de distribución acumulada FX (x).
Yn = max{X1 , . . . , Xn }, Y1 = min{X1 , . . . , Xn }
Determine la distribución del mı́nimo para una muestra aleatoria iid Weibull con parámetros β y η.
Solución:
iid
Para una muestra X1 , ..., Xn ∼ Weibull(η, β), entonces la distribución de Y1 = min{X1 , ..., Xn }
es β−1 " #
β
β x t
fX (x) = exp −
η η η
" #
β
x
FX (x) = 1 − exp −
η
" #!n
β
y
FY1 (y) = 1 − 1 − 1 + exp −
η
" # !β
β 1
y y · n β
FY1 (y) = 1 − exp − · n = 1 − exp −
η η
Determine la distribución del mı́nimo para una muestra aleatoria iid Exponencial con parámetro ν.
Solución:
iid
Para una muestra X1 , ..., Xn ∼ Exponencial(ν), entonces la distribución del mı́nimo, Y1 , es
fX (x) = νe−νx
FX (x) = 1 − e−νx
n
FY1 (y) = 1 − 1 − 1 + e−νy = 1 − e−νn·y
Por lo tanto, la distribución del mı́nimo de variables aleatorias iid Exponenciales es
Y1 ∼ Exponencial(νn)
Estos momentos están relacionados con los momentos de las variables originales.
es
MZ (t) = MX1 (t) × · · · × MXn (t)
iid
Sean X1 , . . . , Xn ∼ Geométrica(p), entonces,
n
X
Z= Xi
i=1
n n
et p et p
Y
MZ (t) = =
i=1
1 − (1 − p)et 1 − (1 − p)et
n
X
Z= Xi ∼ Binomial-Negativa(k = n, p)
i=1
ind
Sean X1 , ..., Xn ∼ Normal(µi , σi ), entonces,
n
X
Z= Xi
i=1
n n n
!
1 1 X 2
Y X
MZ (t) = exp µi t + t2 σi2 = exp t µi + t2 σ
i=1
2 i=1
2 i=1 i
v
n
X X n u n
uX
Z= Xi ∼ Normal µi , t σi2
i=1 i=1 i=1
n
! n
X X
E a0 + ai · Xi = a0 + ai · E(Xi )
i=1 i=1
n m
! n X
m
X X X
Cov a0 + ai · Xi , b0 + bj · Yj = ai · bj · Cov(Xi , Yj )
i=1 i=1 i=1 j=1
n
! n X
n
X X
Var a0 + ai · Xi = ai · aj · Cov(Xi , Xj )
i=1 i=1 j=1
Z = aX ± bY ∼ Normal(µZ , σZ )
µZ = a · µX ± b · µY
2
σZ = a2 σX
2
+ b2 σY2 ± 2ab · ρ · σX σY
El factor ρ es la correlación entre la variable X e Y
Cov(X, Y )
ρ = Cor(X, Y ) =
σX · σY
1 d2 g
E(Y ) ≈ g(µX ) + Var(X)
2 dX 2
2 2 2 2 2
1 2 2
1
dg d g 3 dg d g d g
Var(Y ) ≈ σX
2
− σX + E(X − µX ) + E(X − µX )4
dX 4 dX 2 dX dX 2 4 dX 2
Es preferible usar la aproximación de segundo orden para la varianza ya que con agregar mas órdenes de
la serie de Taylor se extiende el calculo de la varianza; para la esperanza, se puede agregar mas términos
y el calculo no llega a ser tan complicado, a continuación se muestra una aproximación de cuarto orden,
g ′′ (X) · σX
2
g ′′′ (X) · θX σX
3
g (4) (X) · (κX + 3)σX
4
E(Y ) ≈ g(µX ) + + +
| {z } | 2!
{z } | 3!
{z } | 4!
{z }
er
1 Orden
2do Orden 3er Orden 4to Orden
Si Y = g(X1 , . . . , Xn ), se tiene que la expansión de Taylor entorno a los valores esperados (µX1 , . . . , µXn )
está dada por
n n n
X ∂g 1 XX ∂2g
Y = g[(µX1 , . . . , µXn )] + (Xi − µXi ) + (Xi − µXi )(Xj − µXj ) + ···
i=1
∂Xi 2 i=1 j=1 ∂Xi ∂Xj
X1
Sean X1 y X2 variables aleatorias, sea Y = otra variable aleatoria, entonces,
X2
X1 µ1 1 µ1
Y = ≈ + (X1 − µ1 ) − (X2 − µ2 ) 2
X2 µ2 µ2 µ2
Forma 2: Aproximada:
n ind n
E(Y ) = E P ≈ =ν
Xi n/ν
Inferencia Estadı́stica
Definiciones y Propiedades
Hasta ahora se han visto de manera introductoria como dada una distribución (pX (x), fX (x), FX (x)) de
una variable aleatorias X y el valor de sus parámetros se pueden obtener probabilidades.
El calculo de probabilidades depende del valor de los parámetros, por tanto, es de interés disponer de
métodos que permitan seleccionar adecuadamente valores de estos para las distribuciones de importancia
práctica.
Para realizar lo anteriormente expuesto, se requiere información “del mundo real”. Con base a estos
datos, los parámetros pueden ser estimados estadı́sticamente, y con información sobre el fenómeno inferir
la distribución de probabilidad.
Mundo Real
↓
Colección de Datos
↓
Estimación de parámetros
(Escoger Distribución)
↓
Calculo de Probabilidades
↓
Información para Decidir-Hacer-Diseñar
La estimación clásica de parámetros consiste en 2 tipos:
Puntual: Indica un valor único, basado en los datos para representar el parámetro de interés
Intervalar: Entrega un conjunto de valores donde el parámetro puede estar con cierto nivel de
confianza
donde k es la cantidad de ecuaciones que se deben utilizar para estimar todos los parámetros.
iid
Si la distribución de las variables es X1 , ..., Xn ∼ Bernoulli(p), entonces,
µ1 = p̂ = X = m1
donde p̂ es el estimador de p
n
! n
1X X 1 ind np
E(p̂) = E(X) = E Xi = E(Xi ) = =p
n i=1 i=1
n n
iid
Si la distribución de las variables es X1 , ..., Xn ∼ Poisson(λ), entonces,
µ1 = λ̂ = X = m1
donde λ̂ es un estimador de λ
E(λ̂) = λ, entonces λ̂ = X es un estimador isesgado para λ
λ n→∞
Var(λ̂) = −→ 0, entonces λ̂ es un estimador consistente para λ
n
iid
Si la distribución de las variables es X1 , ..., Xn ∼ Exponencial(ν), entonces,
1 1
µ1 = = X = m1 ⇒ ν̂ =
ν X
donde ν̂ es un estimador de ν. Ya que Y = X ∼ Gamma(n, nν), entonces.
iid
Si la distribución de variables X1 , ..., Xn ∼ Gamma(k, ν), entonces,
k
µ = = X = m1
1
ν
µ2 = k(k + 1) = X 2 = m2
ν2
Resolviendo el sistema de ecuaciones se tiene que
X
ν̂ = 2
X − (X)2
(X)2
k̂ =
2
X − (X)2
iid
Si la distribución de variables X1 , ..., Xn ∼ Normal(µ, σ), entonces,
(
µ1 = µ = X = m1
2
µ2 = σ 2 + µ2 = X = m2
Resolviendo el sistema de ecuaciones se tiene que
µ̂ = X
v
u1 n
u X
σ̂ = t (Xi − X)2
n i=1
Sea X variable aleatoria con función de probabilidad fX (x, θ), donde θ es el parámetro de interés.
Dada una muestra (valores observados) x1 , ..., xn asociadas a las variables aleatorias X1 , ..., Xn respecti-
vamente, nos preguntamos cuál es el valor más probable de θ que produzca estos valores, es decir, cuál
es el que maximiza la verosimilitud de de los valores observados.
Si la muestra está asociada a V.A. independientes y también iid, entonces L para cada caso es
n n
ind iid
Y Y
L(x1 , ..., xn , θ) = fXi (xi , θ) L(x1 , ..., xn , θ) = fX (xi , θ)
i=1 i=1
∂
ln[L(x1 , ..., xn , θ)] = 0
∂θ
Si la función de distribución depende de más de un parámetro, θ1 , ..., θm , los EMV respectivos son las
soluciones de las m ecuaciones
∂
ln[L(x1 , ..., xn , θ1 , ..., θm )] = 0, j = 1, 2, ..., m
∂θj
Los EMV son estimadores que poseen las propiedades deseables descritas anteriormente.
En particular, para n grande, son “los mejores” estimadores (en el sentido de varianza mı́nima).
iid
Si la distribución de las variables es X1 , ..., Xn ∼ Bernoulli(p), entonces,
n P P
iid
Y
L(p) = pXi (1 − p)1−Xi = p Xi
(1 − p)n− Xi
i=1
X X
ln(L(p)) = Xi ln(p) + (n − Xi ) ln(1 − p)
P P
∂ Xi n − Xi
ln(L) = − =0
∂p p 1−p
despejando p se obtiene
p̂ = X
iid
Si la distribución de las variables es X1 , ..., Xn ∼ Poisson(λ), entonces,
n n
!−1
iid
Y λXi e−λ P Y
L(λ) = = λ Xi e−nλ Xi !
i=1
Xi ! i=1
X n
X
ln(L) = Xi ln(λ) − n · λ − ln(Xi !)
i=1
P
∂ Xi
ln(L) = −n=0
∂λ λ
despejando λ se obtiene
λ̂ = X
iid
Si la distribución de las variables es X1 , ..., Xn ∼ Exponencial(ν), entonces,
n P
iid
Y
L(ν) = νe−νXi = ν n e−ν Xi
i=1
∂ n X
ln(L) = − Xi = 0
∂ν ν
despejando ν se obtiene
1
ν̂ =
X
iid
Si la distribución de las variables es X1 , ..., Xn ∼ Gamma(k, ν), entonces,
n
iid
Y νk Y k−1 P
−n
L(k, ν) = Xik.1 e−νXi = ν nk Xi e−ν Xi (Γ(k))
i=1
Γ(k)
X X
ln(L) = nk · ln(ν) + (k − 1) ln(Xi ) − ν Xi − n · ln(Γ(k))
∂ nk X
ln(L) = − Xi = 0
∂ν ν
despejando ν se obtiene
k̂
ν̂ =
X
como un estimador no puede quedar en función de otro estimador se busca el valor de k̂, el cual
se puede obtener de
∂ X n dΓ(k)
ln(L) = n · ln(ν) + ln(Xi ) − =0
∂k Γ(k) dk
En esta ecuación es imposible obtener una expresión analı́tica de k̂, por lo que se requiere de
técnicas en métodos numéricos para obtener el valor, más adelante se verá que R permite obtener
valores numéricos de este estimador.
iid
Si la distribución de las variables es X1 , ..., Xn ∼ Normal(µ, σ), entonces,
n
" 2 #
1 1 Xi − µ 1 X
iid n
Y 2
L(µ, σ) = √ exp − = (2π)− 2 σ −n exp − 2 (Xi − µ)
i=1 2πσ 2 2 σ 2σ
n 1 X 2
ln(L) = − ln(2π) − n · ln(σ) − 2 (Xi − µ)
2 2σ
Para estimar la media
∂ 1 X
ln(L) = 2 (Xi − µ) = 0
∂µ 2σ 2
despejando µ se obtiene
µ̂ = X
Para estimar la varianza
∂ n 1 X
ln(L) = − + 3 (Xi − µ)2 = 0
∂σ σ σ
despejando σ se obtiene v
u n
u1 X
σ̂ = t (Xi − X)2
n i=1
iid
Si la distribución de las variables X1 , ..., Xn ∼ Log-Normal(λ, ζ), entonces
n Y n
" 2 #
1 1 1 X ln(Xi ) − λ
iid
L(λ) = √ · · exp −
2πζ i=1
Xi 2 ζ
n n 2
1 1 1X ln(Xi ) − λ
X
ln(L) = n · ln √ + ln −
2πζ i=1
xi 2 i=1 ζ
Para estimar el parámetro λ
n
ln(Xi ) − λ 1
∂ X
ln(L) = · =0
∂λ i=1
ζ ζ
n
1X
λ̂ = ln(Xi ) = ln(X)
n i=1
Para estimar el parámetro ζ
n
∂ n 1 X 2
ln(L) = − + 3 ln(Xi ) − ln(X) = 0
∂ζ ζ ζ i=1
Despejando ζ se obtiene v
u n
u1 X 2
ζ̂ = t ln(Xi ) − ln(X)
n i=1
Nota: Algunos de estos ejemplos han aparecido en pruebas históricas, por lo que podrı́an ser
reutilizadas.
Para utilizar el comando para calcular los estimadores de momento (EM) se escribe la siguiente lı́nea de
código,
R: fitdist(data=BASE,distr="Distribución",method="mme")$estimate
R: fitdist(data=BASE,distr="Distribución",method="mle")$estimate
R: fitdist(data=BASE,distr="Distribución",method="mle")$sd**2
Distribuciones Muestrales
Distribución de la Media con Varianza Conocida
Sea X1 , ..., Xn una sucesión de variables aleatorias independientes con función de probabilidad pX (x) o
de densidad fX (x).
µX̄n = E(X n ) = µ
σ2
2
σX̄ = Var(X n ) =
n n
Si la distribución subyacente es Normal, entonces
σ
X n ∼ Normal µ, √
n
En el caso que la distribución NO sea Normal, por el Teorema del Lı́mite Central para n grande se cumple
que
· σ Xn − µ ·
X n ∼ Normal µ, √ −→ √ ∼ Normal(0, 1)
n σ/ n
| {z }
Pivote
Xn − µ
√ ∼ t-Student(n − 1)
S/ n
con
n
1 X σ̂ 2 n
S2 = (Xi − X̄n )2 =
n − 1 i=1 n−1
La varianza estimada (ya sea con método de momentos o máximo verosı́mil) sabiendo que µ es desconocido
es
n
1X
σ̂ 2 = (Xi − X)2 (2)
n i=1
La resta de dos variables que distribuyen χ2 también distribuye χ2 con la resta de grados de libertad, es
decir
(n − 1)S 2
∼ χ2 (n − 1)
σ2
Además, en (2) se puede multiplicar en ambos lados con n y dividir en ambos lados con σ 2 y se tiene
n 2
nσ̂ 2
X X −X
= ∼ χ2 (n − 1)
σ2 i=1
σ
Como
nσ̂ 2 (n − 1)S 2
2
=
σ σ2
Entonces ambos distribuyen
nσ̂ 2 (n − 1)S 2
2
= ∼ χ2 (n − 1)
σ σ2
Si se pasa el n al otro lado de la igualdad multiplicando a S 2 y de divide en ambos lado con σ 2 , entonces
esto resulta en el siguiente pivote
n 2
nσ̂ 2 X Xi − µ
=
σ2 i=1
σ
| {z }
χ2 (n)
Por lo tanto
nσ̂ 2
∼ χ2 (n)
σ2
La inferencia puede hacerse con respecto a uno a más parámetros de la población o también para un
modelo de distribución.
Una hipótesis es una afirmación con respecto a uno a más parámetros de una población. Usualmente
son dos las hipótesis que se contrastan:
La hipótesis nula es formulada como una igualdad, mientras que la hipótesis alternativa es normalmente
un inecuación.
Hipótesis nula: H0 : µ = µ0
Hipótesis alternativa: Ha : µ ̸= µ0
donde µ es un parámetro de la población y µ0 es el parámetro especı́fico o requerido estándar.
H0 : µ = µ0 vs Ha : µ ̸= µ0
H0 : µ = µ0 vs Ha : µ > µ0
H0 : µ = µ0 vs Ha : µ < µ0
Dado que el estadı́stico de prueba es una variable aleatoria, la probabilidad de una decisión errónea
puede ser controlada. Los errores que se pueden cometer son
El estimador de µ es,
σ
µ̂ = X ∼ Normal µ, √
n
entonces,
µ̂ − µ
Z= √ ∼ Normal(0, 1)
σ/ n
µ̂ − µ0
Z0 = √ ∼ Normal(0, 1)
σ/ n
| {z }
Estadı́stico de prueba
Ha : µ ̸= µ0 , entonces el valor-p es
R: valor.p = 2*(1-pnorm(abs(Z0)))
Valor-p = P (Z > Z0 )
R: valor.p = 1-pnorm(Z0)
Valor-p = P (Z < Z0 )
R: valor.p = pnorm(Z0)
µ̂ − µ
T = √ ∼ t-Student(n − 1)
S/ n
µ̂ − µ0
T0 = √ ∼ t-Student(n − 1)
S/ n
| {z }
Estadı́stico de prueba
R: valor.p = 2*(1-pt(abs(T0),n-1))
Valor-p = P (T > T0 )
R: valor.p = 1-pt(T0,n-1)
Valor-p = P (T < T0 )
R: valor.p = pt(T0,n-1)
(n − 1)S 2
C0 = ∼ χ2 (n − 1)
σ02
| {z }
Estadı́stico de prueba
Ha : σ ̸= σ, entonces el valor-p es
(
2 · P (C > C0 ) Si C0 > n − 1
Valor-p =
2 · P (C < C0 ) Si C0 < n − 1
(
2*(1-pchisq(C0,n-1)), Si C0 > n − 1
R: valor.p =
2*pchisq(C0,n-1), Si C0 < n − 1
Valor-p = P (C > C0 )
R: valor.p = 1-pchisq(C0,n-1)
Valor-p = P (C < C0 )
R: valor.p = pchisq(C0,n-1)
H0 : p = p 0 vs Ha : p < p0
H0 : λ = λ 0 vs Ha : λ < λ0
λ̂ − λ0 ·
Z0 = r ∼ Normal(0, 1)
λ0
n
H0 : ν = ν0 vs Ha : ν < ν0
i=1
n
eλ − eλ0 ·
Z0 = r ∼ Normal(0, 1)
ζ 2 e2λ
n
R: install.packages("TeachingDemos")
library(TeachingDemos)
z.test(x=Base,mu=mu0,sd=sigma,alternative="Dirección")$p.value
R: t.test(x=Base,mu=mu0,alternative="Dirección")$p.value
R: sigma.test(x=Base,sigma=sigma0,alternative="Dirección")$p.value
R: install.packages("TeachingDemos")
library(TeachingDemos)
X=Base
z.test(x=theta.hat,mu=theta0,stdev=sqrt(CCR),alternative="Dirección") $p.value
R: prop.test(x=X,n=N,p=p0,alternative="Dirección",correct=FALSE)
Donde
p0 es el parámetro a testear p0
R: z.test(x=X/N,mu=p0,stdev=sqrt(p0(1-p0)/N),alternative="Dirección")$p.value
Para cada caso, con ”Dirección” se refiere con respecto a la hipótesis alternativa, existen 3 casos
alternative="greater": Ha : θ > θ
alternative="two.sided": Ha : θ ̸= θ
alternative="less": Ha : θ < θ
Potencia y β
Se denota como β a la probabilidad de cometer un error de tipo II en una prueba de hipótesis, teniendo
en cuenta el nivel de significancia α, Mientras que su complemento se conoce como la potencia de un test,
es decir
Por ejemplo, considerando X1 , ..., Xn una muestra aleatoria proveniente de una distribución Normal(µ, σ). √
Tenemos que X n es un estimador insesgado y consistente para el parámetro µ, con distribución Normal(µ, σ/ n).
H0 : µ = µ0 vs Ha : µ ̸= µ0
H0 : µ ≤ µ0 vs Ha : µ > µ0
H0 : µ ≥ µ0 vs Ha : µ < µ0
El estadı́stico de prueba, bajo el supuesto que H0 es correcta y σ conocido es
µ̂ − µ0
Z0 = √ ∼ Normal(0, 1)
σ/ n
Potencia(P t) = 1 − β
Potencia(P t) = 1 − β
Potencia(P t) = 1 − β
σ
⟨µ⟩1−α ∈ X n ± k1−α/2 · √
n
donde
S
⟨µ⟩1−α ∈ X n ± t1−α/2 (n − 1) · √
n
donde
S=sd(X)
t1−α/2 (n − 1)=qt(1-alpha/2,df=n-1)
Al observar el Intervalo de Confianza para µ, se aprecia que el semiancho esta dado por
σ
k1−α/2 · √ = ω
n
Por lo tanto, para una precisión w dada, es posible determinar el tamaño de muestra necesaria, con
σ y α fijos, dado por
2
σ · k1−α/2
n=
ω
Si σ es desconocido, entonces se utiliza S 2 , por lo que el tamaño de muestra se determina como sigue
2
S · t1−α/2 (n − 1)
n=
ω
Éste último caso no es posible realizarlo fácilmente, por lo que se utilizará la fórmula para σ conocido.
Se tiene que
(n − 1)S 2
Cn = ∼ χ2 (n − 1)
σ2
Luego, se puede mostrar que el intervalo para el parámetro σ 2 a un nivel de confianza de 1 − α es
(n − 1)S 2 (n − 1)S 2
2
⟨σ ⟩1−α ∈ ;
c1−α/2 (n − 1) cα/2 (n − 1)
donde
θ̂ − θ ·
Zn = q ∼ Normal(0, 1)
\
Var(θ̂)
donde
\ 1
Var(θ̂) = : Varianza del estimador estimada
In (θ̂)
Utilizando la propiedad de invarianza de los estimadores de máxima verosimilitud, si se tiene una función
del del parámetro θ, g(θ), entonces g(θ̂) es su EMV, El pivote en este caso es:
g(θ̂) − g(θ)
Zn = q ˙ Normal(0, 1)
∼
\θ̂))
Var(g(
donde
Considerando una muestra aleatoria X1 , ..., Xn proveniente de una población cuya distribución es
Bernoulli(p).
Xn − p ·
Zn = r ∼ Normal(0, 1)
X n (1 − X n )
n
Luego, el Intervalo de Confianza es
s
X n (1 − X n )
⟨p⟩1−α ∈ X n ± k1−α/2 ·
n
Ası́ como se definieron las ecuaciones para el tamaño muestral en el caso Normal, se pueden encontrar
expresiones cuando las variables están fuera de la normalidad, a continuación se muestra el caso cuando
las variables aleatorias tienen distribución Bernoulli(p).
Nota: Si se desea obtener el intervalo de confianza, ya sea para la media, varianza o algún otro
parámetro θ; para un nivel de confianza 1−α, se puede utilizar un argumento extra en los comandos
vistos en Cálculo del vapor-p en R, este argumento es conf.level=1-alfa
n m
1 X 1 X
2
SX = (Xi − X n )2 SY2 = (Yj − Y m )2
n − 1 i=1 m − 1 j=1
Se tiene lo siguiente
√ √
X n ∼ Normal(µX , σX / n), Y m ∼ Normal(µY , σY / m)
| {z }
Independientes
(n − 1)SX
2
(m − 1)SY2
CX = 2 ∼ χ 2
(n − 1), C Y = ∼ χ2 (m − 1)
σX σY2
| {z }
Independientes
Xn − Y m
Z0 = r ∼ Normal(0, 1)
2
σX σY2
+
n m
R: z.test(x=X,y=Y,alternative="Dirección",mu=0,sigma.x=sd(X),sigma.y=sd(Y))
Xn − Y m
T0 = ∼ t-Student(n + m − 2)
1 1
r
Sp +
n m
Donde
(n − 1)SX
2
+ (m − 1)SY2
• Sp2 =
n+m−2
R: t.test(x=X,y=Y,alternative="Dirección",mu=0,var.equal=TRUE)
Xn − Y m
T0 = r ∼ t-Student(ν)
2
SX SY2
+
n m
Donde
2
2
SY2
SX
+
n m
• ν=
(SX /n)
2 2
(S 2 /m)2
+ Y
n−1 m−1
R: t.test(x=X,y=Y,alternative="Dirección",mu=0,var.equal=FALSE)
H0 : σ X
2
= σY2 vs Ha : σX
2
<, ̸=, > σY2
Para σX
2
y σY2 con µX y µY son desconocidos:
[(n − 1)SX
2 2
/σX ]/(n − 1) S2
F0 = = X ∼ Fisher(n − 1, m − 1)
[(m − 1)SY /σY ]/(m − 1)
2 2 SY2
U ∼ χ2 (ν), V ∼ χ2 (η)
| {z }
Independientes
Entonces
U/ν
F = ∼ Fisher(ν, η)
V /η
R: var.test(x=X,y=Y,alternative="Dirección")
Nota: Si se desea realizar un test de comparación de medias y los valores de las varianzas son
desconocidos, entonces se debe realizar como primer paso un test de comparación de varianzas
para determinar si se puede asumir que las varianzas poblacionales (σX 2
, σY2 ) son iguales o no,
dependiendo el resultado se utiliza el test de comparación de medias con varianzas desconocidas
iguales o diferentes.
(X n − Y m ) − (pX − pY ) ·
r ∼ Normal(0, 1)
X n (1 − X n ) Y m (1 − Y m )
+
| n {zm }
Para Intervalos de Confianza
En el segundo caso, mediante el pivote se puede construir el intervalo de confianza para la diferencia de
proporciones poblacionales:
r
X n (1 − X n ) Y m (1 − Y m )
⟨pX − pY ⟩1−α ∈ (X n − Y m ) ± k1−α/2 · +
n m
R: z.test(x=X/n-Y/m, stdev=sqrt(p*(1-p)*(1/n+1/m)),mu=0,alternativa="Dirección")
o también: prop.test(x=c(X,Y),n=c(n,m),correct=FALSE, alternative="DIrección")
Donde:
X −Ym ·
s n ∼ Normal(0, 1)
1 1
λ̂ +
n m
| {z }
Para test de hipótesis
(X n − Y m ) − (λX − λY ) ·
r ∼ Normal(0, 1)
Xn Ym
+
| n m {z }
Para Intervalos de Confianza
En el segundo caso, mediante el pivote se puede construir el intervalo de confianza para la diferencia de
eventos ocurridos en un intervalo de tiempo/espacio poblacionales:
r
Xn Ym
⟨λX − λY ⟩1−α ∈ (X n − Y m ) ± k1−α/2 · +
n m
R: z.test(x=lambdaX-lambdaY,stdev=sqrt(lambda*(1/n+1/m)),mu=0,alternative="Dir")
Donde:
n, m: Cantidad total de datos de las variables X e Y respectivamente
Xn − Y m ·
∼ Normal(0, 1)
1 1 1
r
+
ν̂ n m
| {z }
Para test de hipótesis
1 1
(X n − Y m ) − −
νX νY ·
s ∼ Normal(0, 1)
2 2
Xn Y
+ m
n m
| {z }
Para Intervalos de Confianza
En el segundo caso, mediante el pivote se puede construir el intervalo de confianza para la diferencia de
las tasas de ocurrencia poblacionales:
s
2 2
1 1
Xn Ym
− ∈ (X n − Y m ) ± k1−α/2 · +
νX νY 1−α n m
R: z.test(x=1/vX-1/vY,stdev=(1/v)*sqrt(1/n+1/m),mu=0,alternative="Dirección")
Donde:
n, m: Cantidad total de datos de las variables X e Y respectivamente
v: Estimador en común, νX = νY = ν
Estimadores en común
Cuando se realizan los test de comparación de poblaciones de los casos Bernoulli, Poisson y Exponencial,
bajo la hipótesis nula H0 , θX = θY = θ, pero no se conoce cual es dicho valor de θ y no se pueden utilizar
los estimadores de θX y θY ya que por lo general no son iguales, por lo que es necesario determinar un
estimador común de dicho parámetro, para eso se supone que la muestra de n variables aleatorias X y
m variables aleatorias Y tienen la misma distribución con el mismo parámetro y mediante el método de
máxima verosimilitud es posible encontrar θ̂. A continuación se muestran los estimadores en común para
el caso Bernoulli, Poisson y Exponencial bajo las siguientes hipótesis:
H0 : θX = θY vs Ha : θX ̸= θY
Entonces bajo H0 se tiene que θ̂X = θ̂Y = θ̂
Caso Bernoulli: Bajo H0 el estimador en común es
nX + mY
p̂ =
n+m
nX + mY
λ̂ =
n+m
Si X1 , ..., Xn es una muestra aleatoria con distribución Normal(µ, σ) y el valor de σ es conocido previa-
mente, entonces el estadı́stico de prueba para la media y su distribución exacta es:
µ̂ − µ0
Z0 = √ ∼ Normal(0, 1)
σ/ n
donde:
µ̂ es el estimador de µ: µ̂ = X
µ0 es el valor de µ a probar
σ es el valor de la desviación estándar poblacional, es decir, corresponde a la distribución Normal
n es el tamaño de la muestra
La hipótesis nula y alternativa son las siguientes:
Al trabajar con una distribución Normal, calcular el valor-p es muy sencillo con el uso de la tabla
Normal(0,1), por lo que:
valor-p ≤ α : Rechazo H0
valor-p > α : No rechazo H0
Criterio de Rechazo con Valores Crı́ticos para Test Z
En el caso de utilizar valores crı́ticos Zc , el criterio de rechazo es diferente de acuerdo con la hipótesis
alternativa:
Si Ha : µ ̸= µ0 , se rechaza H0 si:
El valor de k1−α/2 no presenta problemas para encontrarlo en la tabla, pero si el de kα/2 ya que,
por lo general, es un valor negativo y la tabla solo cuenta con valores positivos, por lo que se puede
utilizar la siguiente relación:
kα/2 = −k1−α/2
kα = −k1−α
µ̂ − µ0
T0 = √ ∼ t-Student(n − 1)
S/ n
donde:
µ̂ es el estimador de µ: µ̂ = X
µ0 es el valor de µ a probar
n es el tamaño de la muestra
Si Ha : µ ̸= µ0 :
valor-p = 2 · P (T ≥ |T0 |)
Tc = t1−α/2 (n − 1)
donde t1−α/2 (n − 1) es un valor de t tal que P (T ≤ t) = 1 − α/2.
Si Ha : µ > µ0 :
valor-p = P (T ≥ T0 )
Tc = t1−α (n − 1)
donde t1−α (n − 1) es un valor de t tal que P (T ≤ t) = 1 − α.
Si Ha : µ < µ0 :
valor-p = P (T ≤ T0 )
Tc = tα (n − 1)
donde tα (n − 1) es un valor de t tal que P (T ≤ t) = α.
Calcular valores-p exactos mediante una distribución t-Student es complicado ya que no hay una tabla
similar a la tabla Normal(0,1), la tabla de la distribución t-Student muestra únicamente los percentiles
para ciertas probabilidades, es decir, dada una cierta probabilidad acumulada p y un cierto grado de
libertad ν se puede encontrar el percentil tp (ν) tal que P (T ≤ t) = p, debido a esto conviene hacer una
aproximación del valr-p mediante un intervalo en donde puede estar el verdadero valor, para mostrar esto
se utiliza el siguiente ejemplo.
H0 : µ = µ0 Ha : µ > µ0
T0 = 2
T0 ∼ t-Student(20)
el valor-p a calcular de acuerdo a la hipótesis nula es:
valor-p = P (T > T0 )
= P (T > 2)
= 1 − P (T ≤ 2)
para determinar el valor-p es necesario obtener el valor de P (T ≤ 2), para esto se fija en la tabla
t-Student ν = 20 y se busca dos valores en donde pueda estar 2, estos valores son 1.725 y 2.082.
Estos dos valores cumplen con la siguiente caracterı́stica:
En el caso de utilizar valores crı́ticos Tc , el criterio de rechazo es diferente de acuerdo con la hipótesis
alternativa:
Si Ha : µ ̸= µ0 , se rechaza H0 si:
El valor de t1−α/2 (n − 1) es posble determinarlo por tabla, pero el valor de tα/2 (n − 1), al ser
un número negativo, no es posible encontrarlo directamente de la tabla ya que esta solo presenta
valores de t positivos, por lo que se puede utilizar la siguiente relación:
tα/2 (n − 1) = −t1−α/2 (n − 1)
Al igual que el test T , se debe aproximar el valor-p a algún intervalo donde pueda estar su verdadero
valor. Para mostrar esto se utiliza el siguiente ejemplo.
H0 : σ = σ0 Ha : σ ̸= σ0
C0 = 7.5
C0 ∼ χ2 (15)
valor-p = 2 · P (C ≤ C0 )
= 2 · P (C ≤ 7.5)
Para determinar el valor-p es necesario determinar la probabilidad P (C ≤ 7.5), para esto se fija
en la tabla Chi-cuadrado ν = 15 y se busca dos valores en donde pueda estar 7.5, estos valores
son 7.26 y 8.55. Estos dos valores cumplen con la siguiente caracterı́stica:
En el caso de utilizar valores crı́ticos Cc , e criterio de rechazo es diferente de acuerdo con la hipótesis
alternativa:
Si Ha : σ ̸= σ0 , se rechaza H0 si:
C0 ≤ cα/2 (n − 1) o C0 ≥ c1−α/2 (n − 1)
Si X1 , ..., Xn es una muestra aleatoria con alguna distribución, si se desea realizar un test de hipótesis para
el parámetro θ de la distribución, entonces el estadı́stico de prueba para este parámetro y su distribución
aproximada es:
Z0 = In (θ)(θ̂ − θ0 ) ∼ ˙ Normal(0, 1)
p
donde:
θ̂ es el estimador de máxima verosimilitud del parámetro θ
∂2
In (θ) es la Información de Fisher del parámetro θ: In (θ) = −E ln(L(θ))
∂θ2
El calculo del valor-p, valor crı́tico y los criterios de rechazo son los mismos que en el test Z.
Si se desea realizar un test de hipótesis para alguna función dependiente del parámetro θ, g(θ), entonces
el estadı́stico de prueba para esta función y su distribución aproximada es:
g(θ̂) − g(θ0 )
Z0 = s ˙ Normal(0, 1)
∼
[g ′ (θ)]2
In (θ)
donde:
∂2
In (θ) es la Información de Fisher del parámetro θ: In (θ) = −E ln(L(θ))
∂θ2
g(θ0 ) es el valor de g(θ) a probar
El calculo del valor-p, valor crı́tico y los criterios de rechazo son los mismos que en el test Z.
Este test es cuando se quiere analizar una proporción (un porcentaje) de una muestra. Si X1 , ..., Xn es una
muestra aleatoria con distribución Bernoulli(p), entonces el estadı́stico de prueba para p y su distribución
aproximada es:
p̂ − p0
Z0 = r ˙ Normal(0, 1)
∼
p0 (1 − p0 )
n
donde:
p̂ es el estimador para p: p̂ = X
p0 es el valor de p a probar
n es el tamaño de la muestra
Cómo el estadı́stico de prueba distribuye asintóticamente Normal, entonces el cálculo de los valores-p y
valores crı́ticos ası́ como los criterios de rechazo de acuerdo a la hipótesis alternativa son iguales que los
del test Z.
Este test es cuando se quiere analizar la cantidad de eventos ocurridos en un cierto intervalo de tiempo
o espacio. Si X1 , ..., Xn es una muestra aleatoria con distribución Poisson(λ), entonces el estadı́stico de
prueba para λ y su distribución aproximada es:
λ̂ − λ0
Z0 = r ˙ Normal(0, 1)
∼
λ0
n
donde:
λ̂ es el estimador de λ: λ̂ = X
λ0 es el valor de λ a probar
n es el tamaño de la muestra
Cómo el estadı́stico de prueba distribuye asintóticamente Normal, entonces el cálculo de los valores-p y
valores crı́ticos ası́ como los criterios de rechazo de acuerdo a la hipótesis alternativa son iguales que los
del test Z.
Si X1 , ..., Xn es una muestra aleatoria con distribución Exponencial(ν), si se quiere analizar la tasa de
ocurrencia de un cierto evento, entonces el estadı́stico de prueba para ν y su distribución aproximada es:
ν̂ − ν0
Z0 = r ˙ Normal(0, 1)
∼
ν02
n
donde:
1
ν̂ es el estimador de ν: ν̂ =
X
ν0 es el valor de ν a probar
n es el tamaño de la muestra
Si se desea analizar el tiempo medio entre eventos, entonces se define la siguiente función g(ν) = µ = ν1 ,
entonces el estadı́stico de prueba para g(ν) y su distribución aproximada es:
µ̂ − µ0 g(ν̂) − g(ν0 )
Z0 = s = ˙ Normal(0, 1)
∼
1
r
[g (θ)]
′ 2
In (θ) ν02 n
donde:
1
g(ν̂) es el estimador de máxima verosimilitud de g(ν): g(ν̂) = =X
ν̂
1
g(ν0 ) es el valor de g(ν) a probar: g(ν0 ) =
ν0
n es el tamaño d la población.
Cómo los estadı́sticos de prueba distribuyen asintóticamente Normal, entonces el cálculo de los valores-p
y valores crı́ticos ası́ como los criterios de rechazo de acuerdo a la hipótesis alternativa son iguales que
los del test Z.
Determinación de Modelos de
Probabilidad
Introducción
El modelo de distribución de probabilidad apropiado para describir un fenómeno es generalmente desco-
nocido.
Bajo ciertas circunstancias, las propiedades básicas del proceso fı́sico subyacente del fenómeno aleatorio
sugiere la forma de la distribución de probabilidades
Ejemplos
Cumple vs No cumple → Bernoulli
Número de “eventos” en periodos → Poisson
Tiempos de duración o espera → Exponencial, Gamma, Weibull
Suma de eventos individuales → Normal
Condiciones extremas de un proceso → Valor Extremo
En muchas situaciones, la distribución de probabilidad debe ser determinada empı́ricamente a partir de
los datos.
Inicialmente, aproximaciones gratificas (Histograma v/s Densidad) nos pueden ayudar a inferir “visual-
mente” sobre la distribución.
También, con datos disponibles, pueden obtenerse los gráficos de probabilidad (Probability Papers) para
distribuciones dadas (si los puntos están en lı́nea recta, la distribución es apropiada).
Por ultimo, dada una distribución a priori puede evaluarse la “bondad de ajuste” (Test χ2 , Test de
Kolmogorov-Smirnov o el Test de Anderson-Darling, entre otros).
Gráficos de Probabilidad
Es la representación gráfica de los datos observados y sus correspondientes frecuencias acumuladas.
Calculando los percentiles teóricos, Φ−1 (pi ), de una distribución Normal Estándar para cada pi , con
i = 1, ..., N .
Si los x′ s distribuyen Normal(µ, σ), entonces la siguiente relación lineal se debe cumplir
Donde
Pendiente: σ
Intercepto: µ
Calculando los percentiles teóricos, Φ−1 (pi ), de una distribución Normal Estándar para cada pi , con
i = 1, ..., N .
Si los x′ s distribuyen Log-Normal(λ, ζ), entonces la siguiente relación lineal se debe cumplir
Donde
Pendiente: ζ
Intercepto: λ
Calculando los percentiles teóricos, − ln(1 − pi ), de una distribución Exponencial(1) para cada pi , con
i = 1, ..., N .
Si los x′ s distribuyen Exponencial(ν) trasladada en α, entonces la siguiente relación lineal se debe cumplir
1
x pq = α + · [− ln(1 − pq )]
ν
Donde
1
Pendiente:
ν
Intercepto: α
Calculando los percentiles teóricos, ln(− ln(1 − pi )), para cada pi , con i = 1, ..., N .
Si los x′ s distribuyen Weibull(η, β), entonces la siguiente relación lineal se debe cumplir
1
ln(xpq ) = ln(η) + · ln(− ln(1 − pq ))
β
Donde
1
Pendiente:
β
Intercepto: ln(η)
Donde
Pendiente: σ
Intercepto: µ
Donde
Pendiente: σ
Intercepto: µ
H0 : X ∼ fX (x) vs Ha : X ≁ fX (x)
donde X es la variable aleatoria asociada a los datos observados y fX (x) es la distribución a la que se
está suponiendo que los datos pueden distribuir. Bajo H0 se tiene el siguiente estadı́stico de prueba:
Con Fn (x) función de distribución acumulada empı́rica, es decir, asociada a la muestra observada, y
FX (x) función de distribución acumulada teórica del modelo que se quiere ajustar.
Los criterios de rechazo son los mismos que en prueba de hipótesis, si valor-p > α, no se rechaza H0 , por
lo que la distribución supuesta ajusta a los datos muestrales.
Test Chi-cuadrado χ2
Caso parámetros conocidos
Considerando una muestra de n valores observados de una variables aleatoria X y suponiendo una dis-
tribución de probabilidad subyacente fX (x), se tiene las siguientes hipótesis a comprobar:
H0 : X ∼ fX (x) vs Ha : X ≁ fX (x)
El test χ2 de bondad de ajuste compara las frecuencias observadas O1 , ..., Ok de k valores (o k intervalos)
de la variable con sus correspondientes frecuencias teóricas E1 , ..., Ek calculados suponiendo la distribución
teórica para cada valor i o intervalo i ([i − 1, i]) con i = 1, ..., k, es decir:
Ei = n · P (X ≤ i) = n · FX (i) o Ei = n · (i − 1 ≤ X ≤ i) = FX (i) − FX (i − 1)
Donde
data: Base
D = , p-value=
alternative hypothesis: two-sided
Donde
D: Es el estadı́stico de prueba del test
p-value: es el valor-p correspondiente a D
Se supone que los intervalos son (Dependiendo el problema pueden ser más)
Entonces
R: X=base
par1,...,parn= # Cuando no se entregan los parámetros
Se lanza 90 veces un dado y se registra la cantidad de veces que aparece cada número, determine
si el dado corresponde a un dado honesto
Solución:
El enunciado pide demostrar si el conjunto de datos, en este caso la cantidad de veces que aparece
cada número, sigue la distribución de probabilidad Uniforme Discreta, es decir
iid
X1 , ..., X90 ∼ Uniforme(1, 2, 3, 4, 5, 6)
ya que un dado honesto significa que cada número de este tiene la misma probabilidad de
aparecer. Para esto se realiza una prueba de χ2 de la siguiente manera.
X 2 : Es el estadı́stico de prueba
De la tabla de obtiene que el estadpistico de prueba, X 2 , es de X 2 = 1.6 ∼ χ2 (6 − 1), ya que no se
estimó ningún parámetro no se deben restar grados de libertad, por lo que el valor-p corresponde
a
valor-p = P (X 2 > 1.6) = 0.9012
Se puede realizar este proceso de manera más rápida utilizando R como sigue
R: O = c(12,17,15,14,18,14)
p = rep(1/6,6)
k = length(O)
X2 = chisq.test(x=O,p=p)$statistic
valor.p = 1-pchisq(X2, k-1) # Valor-p = 0.9012493
Comparación de Distribuciones
Muchas veces se tiene una gran variedad de distribuciones las cuales pueden ajustar los datos experimen-
tales, para eso es necesario determinar cuál es la que presenta el mejor ajuste posible.
Si se tienen k distribuciones a analizar, ya sea utilizando el test KS o χ2 , entonces se tienen los siguientes
criterios para determinar cual distribución presenta el mejor ajuste:
Comparando Estadı́sticos de Prueba: Si una distribución que, después de realizados los test
de bondad de ajuste, presenta un estadı́stico de prueba Gk , se concluye que ésta ajusta de mejor
manera a los datos muestrales respecto a las demás distribuciones si:
Gk < G1 , ..., Gn ,
donde v-p1 , ...,v-pn son los valores-p de las de las distribuciones restantes.
A continuación algunas observaciones respecto a la comparación de distribuciones.
Observación: Si se está utilizando el test χ2 , sólo es posible comprara estadı́sticos de prueba con
los mismos grados de libertad, a continuación un ejemplo con dos distribuciones:
X12 ∼ χ2 (γ1 ) <, >, = X22 ∼ χ2 (γ1 ) (Es posible realiza esta comparación)
X12 ∼ χ2 (γ1 ) <, >, = X22 ∼ χ2 (γ2 ) (No es posible realiza esta comparación)
Observación: Dependiendo el problema se tendrán que comparar los valores-p entre ellos o con
el nivel de significancia α, por lo que se podrı́an llegar a las siguientes conclusiones, a continuación
un ejemplo con dos distribuciones:
Si α < valor-p1 < valor-p2 : Se concluye que ambas distribuciones tienen un buen ajuste bajo
α pero la distribución 2 tiene un mejor ajuste respecto a la primera.
Si valor-p1 < α < valor-p2 : Se concluye que únicamente la distribución 2 tiene un buen
ajuste bajo α.
Si valor-p1 , valor-p2 < α: Se concluye que ninguna de las dos distribuciones presenta un buen
ajuste bajo α.
Solución:
Test 1 : Test para la distribución Normal, se tiene las siguiente dos hipótesis:
H0 : X ∼ Normal vs Ha : X ≁ Normal
Recuerde que para calcular la
probabilidad acumulada de una distribución normal de forma manual
se utiliza FX (x) = Φ x−µσ , y mediante R se utiliza pnorm(x, mean=mu, sd=sigma). La tabla
con la información para el test es la siguiente:
Intervalo Observado Prob. teo. (ppi ) npi )
Esperado (np X2
≤ −10 6 0.1822 6.1948 0.006125628
(−10, 0] 13 0.3142 10.6828 0.502622518
(0, +10] 10 0.3166 10.7644 0.054281461
> 10 5 0.1870 6.3580 0.290054105
Total n = 34 pT = 1 n = 34 X 2 = 0.853083713
Como no se estimó ningún parámetro, se tiene que el valor del estadı́stico de prueba es:
2
XN = 0.8531 ∼ χ2 (4 − 1) = χ2 (3)
El valor del valor-p es:
valor-pN = P (C > 0.8531) = 0.8367285
Test 2 : Test para la distribución Gamma desplazada, se tiene las siguientes dos hipótesis:
H0 : X ∼ Gamma vs Ha : X ≁ Gamma
Como k ∈ N y la distribución es desplazada, para calcular probabilidades acumuladas se utiliza:
k−1
X [v(x − α)]y e−y(x−α)
FX (x) = P (X ≤ x) = (X − α ≤ x − α) = 1 −
y=0
y!
El valor-p es
valor-pG = P (C > 0.2281) = 0.9729304
A continuación se realiza las conclusiones:
Se concluye que la distribución Gamma desplazada tiene el mejor ajuste respecto a la distribución
Normal.
Se concluye que la distribución Gamma desplazada tiene el mejor ajuste respecto a la distribución
Normal.
Regresión Lineal
Introducción
La inferencia vista anteriormente puede ser abordada desde el punto de vista de Modelos Estadı́sticos.
Sea Y1 , ..., Yn variables aleatorias con alguna distribución asociada, el valor de cada Yi se puede des-
componer por la suma de la media y un factor de error:
Yi = µY + εi , i = 1, ..., n
donde εi ∼ Normal(0, σ).
Si además se tiene otra muestra X1 , ..., Xn y se condiciona cada Yi a la ocurrencia de cada Xi , entonces,
el valor de cada Yi |Xi = Yi (Xi ) se puede descomponer de la misma forma antes mostrada:
Yi (Xi ) = µ(Xi ) + εi , i = 1, ..., n
donde µYi |Xi = µ(Xi ). Esto se conoce como regresión simple. Se llama a
yi (xi ) = E(Yi |Xi = xi ) = µ(xi )
a la curva de regresión de Y sobre x. Si Y1 , ..., Yn ∼ Normal(µY , σY ) y X1 , .., Xn ∼ Normal(µX , σY ) y
cada Xi e Yi distribuyen Normal Bivariada, entonces:
µ(Xi ) = β0 + β1 Xi
esto se conoce como modelo de regresión lineal simple, y la curva (o recta) de regresión está dada por
yi = β0 + β1 xi .
el modelo serı́a de regresión No lineal simple, y la curva de regresión esta dada por yi = β0 xβi 1 .
Notación
En este capı́tulo se utilizará la siguiente notación:
Modelo de regresión simple: Yi |Xi = Yi (Xi ) = Yi
Modelo de regresión múltiple: Yi |X1 , ..., Xn = Yi (X1 , ..., Xn ) = Yi
Esperanzas de estimadores: E(θ̂|Xi = xi ) = E(θ̂), E(θ̂|X1 = x1 , ..., Xn = xn ) = E(θ̂),
Varianzas de estimadores: Var(θ̂|Xi = xi ) = Var(θ̂), Var(θ̂|X1 = x1 , ..., Xn = xn ) = Var(θ̂)
n n
1 X 1 X
Varianza Muestral de Y y de X : SY2 = (yi − y)2 , 2
SX = (xi − x)2
n − 1 i=1 n − 1 i=1
3. Independencia: Las distribuciones condicionales son variables aleatorias independientes para todo
x.
4. Normalidad: fY |x (y) tiene distribución Normal para todo x.
La regresión lineal simple bajo los supuestos anteriores se ilusta en la siguiente figura
n
X
xi yi − ny x
i=1
Estimador de β1 : β̂1 = n
X
x2i − n(x)2
i=1
n
1 X 2
Estimador de σ 2 : σ̂ 2 = yi − β̂0 − β̂1 xi
n i=1
Luego los EMCO (Estimadores de Mı́nimos Cuadrados Ordinarios) de β0 y β1 coinciden con los EMV.
Nota: El método de mı́nimos cuadrados no arroja estimación para σ 2 . Sin embargo, se estima a
través de SY2 |x , que es un estimador insesgado de σ 2 dado por
n
1 X 2
SY2 |x = yi − β̂0 − β̂1 xi
n − 2 i=1
Dado los primeros 3 supuestos los EMCO de β0 y β1 son los mejores estimadores lineales y con menor
varianza entre los estimadores lineales e insesgados.
Si además se agrega el cuarto supuesto se tiene que β̂0 y β̂1 distribuyen Normal, por lo tanto
X n
2 2
σ x i
i=1
β̂0 ∼ Normal β0 ,
Xn
n (xi − x) 2
i=1
σ2
β̂1 ∼ Normal β1 , n
X
(xi − x)2
i=1
Y además,
β̂1 , Y , σ̂ 2 son mutuamente independientes.
!2
X n
yi − β̂0 − β̂1 xi nσ̂ 2 (n − 2)SY2 |x
= 2 = 2
∼ χ2 (n − 2)
i=1
σ σ σ
Sea E(Y |X = x) = β0 + β1 x la recta de regresión lineal simple, y β̂0 , β̂1 los EMV de β0 , β1 .
β̂0 − β0
T0 = v ∼ t-Student(n − 2)
u n
u 2 X 2
u SY |x xi
u
u i=1
u n
u X
tn (xi − x)2
i=1
| {z }
Para Intercepto
Por último, se tiene el estadı́stico de prueba para la varianza del modelo SY2 |x :
(n − 2)SY2 |x
C0 = 2
∼ χ2 (n − 2)
| {z σ }
Para la varianza
Análisis de Varianza
En un modelo de regresión existen 2 fuentes que explican la variación de los valores observados de Y
(variación total)
Para ambas fuentes de variación se tiene que y(xi ) es el valor de Y dentro de la recta de regresión debido
a un valor xi , y(xi ) = βˆ0 + βˆ1 xi , e yi representa el valor de Y proveniente a los datos muestrales dado un
cierto valor xi . De esta manera, la variación total de Y , dada por la Suma de Cuadrados Totales (SCT),
puede ser descrita como
Los valores de SCT, SCR y SCE se pueden encontrar en una tabla llamada tabla ANOVA, ésta se
muestra a continuación.
Tabla ANOVA
Fuente Grados de libertad SC Cuadrados medios (MC) F
SCR MCR
Regresión 1 SCR
1 MCE
SCE
Error n−2 SCE = (n − 2)SY2 |x = SY2 |x
n−2
SCR
MCR (n − 2)SCT (n − 1)SY2
F0 = = 1 = − (n − 2) = − (n − 2) ∼ Fisher(1, n − 2)
MCE SCE SCE SY2 |x
n−2
Para analizar la existencia de regresión es necesario plantear las siguientes dos hipótesis:
H0 : β 1 = 0 vs Ha : β1 ̸= 0
Si se tiene un nivel de significancia α (generalmente es del 5 %), entonces el valor-p y valor crı́tico a
calcular son:
Valor-p = P (F ≥ F0 )
Valor crı́tico = F1−α (1, n − 2)
R: Valor-p = 1-pf(F0,df1=1,df2=n-2)
Valor-crı́tico = qf(1-alpha,df1=1,df2=n-2)
Si el valor-p es menor que α, valor-p < α, o el estadı́stico de prueba F0 es mayor al valor crı́tico,
F0 > F1−α (1, n − 2), entonces se rechaza H0 indicando que si existe regresión.
Otra opción para verificar si existe o no regresión bajo la hipótesis H0 propuesta anteriormente es utilizar
la estimación de la pendiente β1 con el siguiente estadı́stico de prueba:
β̂1
T0 = q ∼ t-Student(n − 2)
\
Var(β̂1 )
Valor-p = 2 · P (T ≥ |T0 |)
Valor crı́tico = t1−α/2 (n − 2)
Si el valor-p es menor que α, valor-p < α, o si el valor absoluto del estadı́stico de prueba T0 es mayor al
valor crı́tico, |T0 | > t1−α/2 (n − 2), entonces se rechaza H0 indicando la existencia de regresión.
Las conclusiones a las que se llegan ya sea utilizando el estadı́stico F o el estadı́stico T0 para la pendiente
son las mismas ya que se cumple la siguiente relación (Esto solo se cumple en regresión lineal simple):
T02 = F0
| {z }
Misma conclusión sobre la existencia de regresión lineal simple
El test de hipótesis para la pendiente antes mencionado se puede aplicar para el intercepto, es decir, se
tiene la hipótesis nula H0 : β0 = 0 e hipótesis alternativa Ha : β0 ̸= 0, por lo que el estadı́stico de prueba
para el intercepto es
β̂0
T0 = q ∼ t-Student(n − 2)
\
Var(β̂0 )
El valor-p y el valor crı́tico se pueden calcular de la misma forma que en el caso de la pendiente.
Observación: Mediante estos estadı́sticos de prueba, para pendiente e intercepto, es posible ob-
tener tanto el valor del estadı́stico, el valor de los estimadores o el valor de las varianzas estimadas
de cada estimador.
Coeficiente de Determinación
Una vez obtenida la recta de regresión lineal surge una pregunta a responder, ¿qué tan buena es la re-
gresión?
n
X
(y(xi ) − y)2 2
SCR i=1 SCE (n − 2) SY |x
R2 = = =1− =1−
SCT n
X SCT (n − 1) SY2
(yi − y)2
i=1
SY2 |x (n − 1)SCE 2
r2 = 1 − =1− =R
SY2 (n − 2)SCT
Ambos se interpretan como la proporción o el porcentaje de variación total que es explicada por el modelo
de regresión lineal.
n−2
R2 = 1 − (1 − r2 )
n−1
Si se quiere ver si existe una relación entre dos variables provenientes de una base de datos se utili-
za lo siguiente
modelo = lm(Y ∼ X)
summary(modelo)
Call
lm(formula = Y ∼ X)
Residuals:
Min 1Q Median 3Q Max
Coefficients:
---
Signif. codes:
0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Y = β0 + β1 X + ϵ
Para el análisis de la varianza se necesita obtener la tabla ANOVA, para esto se utiliza el siguiente co-
mando:
anova(modelo)
Responce: Y
F value: Corresponde al valor del estadı́stico F0 = MCR/MCE y solo se muestra el valor para X.
Pr(>F): Es el valor-p asociado al valor F0 , se calcula como 1-pf(F value, df1=1,df2=n-2), solo
se muestra el valor para X.
Para comprobar los datos y el comportamiento del modelo de manera visual, se puede realizar un gráfico
que contenga los datos muestrales y la recta de regresión ajustada a estas observaciones, para esto se
utilizan los siguientes dos comandos:
Donde Y es la variable dependiente, Xj , j = 1, ..., k son las covariables del modelo, y los βj son coeficientes
constantes del modelo, y las εi son variables aleatorias que correspondes a la varianza del modelo tales
que cumplen con
E(εi ) = 0
Var(εi ) = σ 2
Observaciones
El modelo tiene k + 2 parámetros a estimar: β0 , β1 , ..., βk , σ 2 .
El coeficiente βj , con j = 1, ..., k corresponde a la variación de E(Y |X1 = x1 , ..., Xk = xk ), cuando
xj aumenta en una unidad y el resto de las variables no cambian.
β0 : Corresponde al valor medio E(Y |X1 = 0, .., Xk = 0).
Al igual que el caso MRLS, el MRLM debe ser lineal en los parámetros βj , y no necesariamente en
las variables Xj
Para determinar los EMCOS de β0 , ..., βk , se deriva SCE parcialmente respecto a β0 , β1 , ..., βk obteniendo
las siguientes (k + 1) ecuaciones normales que se deben resolver
∂SCE ∂SCE ∂SCE ∂SCE
= 0, = 0, = 0 ··· , =0
∂β0 ∂β1 ∂β2 ∂βk
La solución β̂0 , ..., β̂k satisface el sistema lineal de k + 1 ecuaciones
n
X n
X n
X
nβ̂0 + β̂1 x1i + · · · + β̂k xki = yi
i=1 i=1 i=1
n
X n
X n
X n
X
β̂0 xji + β̂1 x1i xji + · · · + β̂k xki xji = yi xji
i=1 i=1 i=1 i=1
con j = 1, ..., k
Si se considera una expresión matricial para el MRLM, entonces se puede obtener una expresión simple
para los estimadores MCO.
⃗ + ⃗ε
⃗ = Xβ
Y
Donde ⃗ε e Y
⃗ son vectores de n × 1, X es una matriz de n × (k + 1) y el Rango de X debe ser de rango
columna completo (k + 1).
Luego
n
X
SCE = (y1 − β0 + β1 xi1 − · · · − βk xik )2
i=1
SCE = (Y ⃗ T (Y
⃗ − X β) ⃗
⃗ − X β)
⃗ ⇒ β̂⃗ = (X
X T X β⃗ = X Y X T X )−1X T Y
⃗
Estimación de σ 2
Dado el modelo de regresión poblacional múltiple
Yi = β0 + β1 x1i + · · · + βk xki + εi
y los supuestos habituales de la regresión, sea σ 2 la varianza común de término de error, εi . Entonces,
una estimación insesgada de esta varianza es
SCE
SY2 |x =
n−k−1
donde k es el número de variables predictoras.
Var(β̂) = σ 2 (X
X T X )−1
Luego, para cada i, β̂i ∼ Normal(βi , σ 2 cii ), donde cii corresponde al elemento ii de la matriz
(X
X T X )−1
Inferencia en el modelo
√
La desviación estándar de β̂i , σ cii , puede ser estimada por
√
seβ̂i = SY |x cii
β̂i − βi
T0 = ∼ t-Student(n − k − 1)
seβ̂i
En base a este estadı́stico se puede analizar el grado de aporte de cada variable al modelo, para esto se
plantean las siguientes dos hipótesis:
Coeficiente de Determinación R2
El coeficiente de determinación R2 de la regresión ajustada es la proporción de la variabilidad muestral
total explicada por la regresión
2
SCR SCE (n − k − 1) SY |x
R2 = =1− =1−
SCT SCT (n − 1) SY2
y se deduce que
0 ≤ R2 ≤ 1
2
Coeficiente de Determinación Ajustado R
2
El coeficiente de determinación ajustado, R , se define de la forma siguiente
SCE/(n − k − 1) SY2 |x 2
r =1−
2
=1− 2 =R
SCT/(n − 1) SY
Utilizamos esta medida para tener en cuenta el hecho de que las variables independientes irrelevantes
provocan una pequeña reducción de la suma de los cuadrados de los error.
Por lo tanto, el r2 ajustado permite comparar mejor los modelos de regresión múltiple que tiene di-
ferentes numero de variables independientes.
y es igual a la raı́z cuadrada del coeficiente múltiple de determinación. Se utiliza R como otra medida de
la fuerza de la relación entre variable dependiente y las variables independientes.
Tabla ANOVA
Fuente Grados de libertad SC Cuadrados medios F
SCR MCR
Regresión k SCR
k MCE
SCE
Error n−k−1 SCE = SY2 |x
n−k−1
MCR
Con el estadı́stico de prueba: F0 = ∼ Fisher(k, n − k − 1)
MCE
¿Cómo se interpreta el F0 ahora?, Es estadı́stico de prueba F0 se utiliza para determinar la existencia o
no de regresión lineal múltiple pero no determina cuales de las variables es mas o menos significativa al
modelo.
Para analizar la existencia de regresión lineal múltiple se proponen las siguientes dos hipótesis:
Valor-p = P (F > F0 )
Valor Crı́tico = F1−α (k, n − k − 1)
El método paso a paso requiere de algún criterio matemático para determinar si el modelo mejora o
empeora con cada incorporación o extracción.
Existen varios parámetros empleados, de entre los que se destacan el Cp, AIC, BIC, test F y R2 ajustado.
Valor-p = P (F > F0 )
Valor crı́tico = F1−α (r, n − (k + r) − 1)
El procedimiento el algo largo si se realiza de manera manual estos cálculos, pero utilizando R el problema
se resume a una lı́nea de código:
modelo1 = Y ∼ X1
modelo2 = Y ∼ X1+X2+X3
anova(modelo1, modelo2)
Model 1: Y ∼ X1
Model 2: Y ∼ X1 + X2 + X3
T02 = F0
Multicolinealidad
Para determinar la existencia de colinealidad o multicolinealidad entre predictores de un modelo de
regresión, se ha desarrollado numerosas reglas prácticas que tratan de determinar en que medida afecta
a la estimación y contraste de un modelo
Calcular una matriz de correlación en la que se estudia la relación lineal entre cada par de predictores
Generar modelos de regresión lineal simple entre cada uno de los predictores frente al resto. Si en
alguno de los modelos el coeficiente de determinación R2 es alto, estarı́a señalando a una posible
colinealidad
tolerancia (TOL) y Factor de Inflación de la Varianza (VIF). Se trata de dos parámetros que viene
a cuantificar lo mismo (uno es el inverso del otro)
Independencia
Los valores de cada observación son independientes de los otros,esto es especialmente importante de com-
probar cuando se trabaja con mediciones temporales.
Se recomienda representar los residuos ordenados acorde al tiempo de registro de las observaciones,
si existe un cierto patrón hay indicios de auto-correlación. Función acf() de R.
En el caso en que base de datos contiene un gran número de variables, es recomendable hacer lo si-
guiente
Con esto se está utilizando las demás variables escogidas en data, utilizando el comando summary()
se obtiene lo siguiente
Call
lm(formula = Y ∼ X.1+X.2+X.3+...+X.k)
Residuals:
Min 1Q Median 3Q Max
Coefficients:
Todo es exactamente igual al modelo de regresión lineal simple pero con la caracterı́stica que en la tabla
de Coefficients aparece el intercepto (Y |X1 = 0, ..., Xk = 0) y las variables utilizadas (X1 , ..., Xk ), ca-
da uno tiene su propio estimador, error estándar, estadı́stico de prueba T0 y valor-p asociado al estadı́stico.
anova(modelo)
Responce: Y
Todo es exactamente igual al modelo de regresión lineal simple pero con la caracterı́stica que ahora se
muestran las demás variables utilizadas. Los grados de libertad de X.1,...,X.k son 1, cada uno de estos
tiene asociada una suma cuadrática de regresión:
X.1: SCR.1 ∼ χ2 (1)
X.2: SCR.2 ∼ χ2 (1)
..
.
X.k: SCR.k ∼ χ2 (1)
Al sumar todas las k sumas cuadráticas de regresión se obtiene la suma cuadrática de regresión total:
k
X
SCT.T = SCR.i ∼ χ2 (k)
i=1
- FIN -
EYP1113 Probabilidades y Estadı́stica Página 109 de 121
Capı́tulo 7
Laboratorio: Uso de R
Operadores básicos
Se puede llevar a cabo distintas operaciones matemáticas y aritméticas usando operadores básicos
Suma: +
Resta: −
Multiplicación: ∗
División: /
Exponentes: ∗∗ o ∧
Funciones matemáticas
√
Raı́z cuadrada : sqrt()
Exponencial ea : exp()
Signo: sign()
Funciones trigonométricas inversas cos−1 (), sin−1 (), tan−1 (): acos(), asin(), atan()
Variables
Variables numéricas:
Números u operaciones numéricas a definir
a=3
b=3+4/5
Variables booleanas:
Verdadero o Falso
Variables de texto:
Strings o chat se escriben entre comillas
f="Hola mundo"
Vectores
Para saber la clase o tipo de objeto que se tiene guardado en una variable: class().
números=c(1,2,3,4,5)
texto=c("a","hola","pelota","PC")
notas = c(3.5,4.1,5.5,6.0)
nombres = c("I1","I2","I3","Ex")
names(notas) = nombres
Operadores lógicos
Menor: <
Mayor: >
Igual: ==
Diferente: !=
Y (and): &
O (or): |
No: !
Para manipular vectores con variable categórica es conveniente convertir a factor [factor()]. En el
caso de ser nominal, no importa el orden.
En el caso en que la variable sea ordinal, con el comando factor() se puede indicar el orden de los
niveles de la variable con el argumento levels=
opiniones = c("Bueno","Malo","Neutro","Bueno","Malo","Malo","Neutro",
"Neutro")
opiniones =factor(opiniones)
opiniones = factor(opiniones, levels=c("Malo", "Neutro", "Bueno"))
Ayuda en R
Para buscar ayuda para funciones: ?
Matrices
Para definir una matriz: matrix()
R: Ejemplo: matrix(v3,nrow=4,ncol=5,byrow=TRUE)
A partir de estos se pueden hacer diferentes combinaciones para obtener información de la matriz m.
Ası́ como a los vectores se pueden asignar nombres a las filas y columnas de una matriz m mediante
rownames() y colnames()
nombrefilas = c("f1","f2","f3","f4")
nombrescolumnas = c("c1","c2","c3","c4","c5")
rownames(m) = nombresfilas
colnames(m) = nombrescolumnas
Se pueden utilizar las operaciones básicas, operadores lógicos en matrices.
Con los operadores lógicos se puede filtrar una matriz, por ejemplo:
m[m<=5]
m[m>15 | m<15]
Producto matricial: %* %
Dimensiones: dim()
Transpuesta: t()
Determinante: det()
Inversa: Solve()
Bases de datos
Para ver las primeras 6 observaciones de una base de datos: head()
Para ver las 6 últimas observaciones de una base de datos: tail()
Para obtener una breve descripción de la base de datos y el tipo de variables: str()
Para obtener estadı́sticas descriptivas de las variables de la base: summary()
Para acceder a los subconjuntos de una base de datos se hace el mismo procedimiento que para una matriz.
También se pueden acceder a columnas de una base de datos bd mediante bd$Columna o bd$NombreColumna
Para acceder a un subconjunto de datos con alguna restricción: subset(Base de datos, subset=Restricción)
Otra forma de filtrar es mediante el uso de corchetes: Base[Base$Columna=Restricción,]
Libreta[Libreta$Azul==TRUE,]
Libreta[Libreta$Azul==TRUE & Libreta$Nota>5,]
Listas
Para crear una lista: list(variable1, variable2,...)
Para asignar nombre a los componentes de la lista: list(nombre1=variable1,...)
Para acceder a los objetos de la lista: lista[i] o lista$objeto
Instalación de paquetes
Para obtener las aplicaciones que contiene el paquete base: getOption(paquete)
Para instalar un paquete: install.packages("Nombre del paquete")
Para cargar el paquete: library("Nombre del paquete")
Sugerencia: Se sugiere utilizar el comando import() incluso para dos formatos mencionados
Nota: Para evitar problemas con números decimales con signo decimal la coma, se agrega un
argumento adicional al comando import() de la siguiente manera
R: import(,dec=",")
Estadı́stica descriptiva
Las medidas más comunes para variables numéricas se pueden clasificar de la siguiente manera
Tendencia Central: Media, Moda, Mediana
Posición: Percentil, Mı́nimo, Máximo
Dispersión: Varianza, Desviación Estándar, c.o.v, Rango, Rango Intercuantil
Forma Coeficiente de Asimetrı́a, Kurtosis
Mientras que en las variables no numéricas solo se pueden trabajar como tabla de frecuencias
Programación básica
if, else, else if
if(condición lógica){
expresión...
} else if(condición){
expresión...
} else{
expresión...
}
for, while
while(condición lógica){
expresión...
}
for(variable in vector){
expresión...
ifelse
ifelse(text, A,B)
Donde text es una expresión lógica, A es lo que se ejecuta si la expresión lógica es verdadera y B es lo
que se ejecuta si la expresión es falsa
Crear funciones
Para crear una función en R: function
function(argumentos){
expresión...
return(resultado) o list(resultado)
}
Funciones apply
Sapply: sapply(X,FUN,argumentos) (Para vectores)
Calcula para cada elemento del vector X la función FUN. Si la función FUN tiene mas de un argu-
mento, estos se los puede agregar en argumentos de la función sapply
Comando boxplot()
Se utiliza para graficar diagramas de cajas.
El comando es:
R: boxplot(x=,main=,xlab=,ylab=,horizontal=,col=)
Donde:
x: vector de datos
Ademas: boxplot(x∽y,...)
A diferencia del anterior, éste lleva una variable y que puede asignar los datos de x en distinros grupos.
Comando hist()
Se utiliza para gráficar histogramas, el comando es el siguiente:
Donde:
x: es el vector de datos
breaks: número aproximado de clases o un vector donde se indican los puntos lı́mites entre clases
o intervalos
freq: TRUE si el histograma representa las frecuencias absolutas o conteo de datos de cada clase, si
FALSE el histograma representa las frecuencias relativas
Argumentos extras:
border: Para definir el color de los bordes de las barras
plot: Argumento lógico, si es TRUE, el resultado es el gráfico del histograma, si es FALSE el resultado
es una lista de conteos por cada intervalo
labels: Argumento lógico o carácter, si es TRUE coloca etiquetas arriba de cada barra
nclass: nclass=n equivale a breaks=n
Comando barplot()
Permite representar para cada una de las modalidades definidas para una variable cualitativa o los valores
de una variable discreta en términos de frecuentas relativas o absolutas, el comando es el siguiente:
R: barplot(height,legend.text=NULL,beside=FALSE,horizontal=FALSE,col=,...)
Donde:
height: vector o matriz de valores que describen las barras., En el caso de variables categóricas, se
entrega el table de la variable. Si es un vector, entonces el gráfico corresponde a una secuencia de
barras rectangulares con alturas correspondientes a los valores del vector
beside: FALSE gráfico de barras apilado, TRUE gráfico de barras agrupado
legend.text: Es la leyenda del gráfico
Modelos de probabilidad
Cada comando de cada distribución se puede utilizar de 4 formas diferentes:
dDISTR(x,...): Para las discretas, entrega P (X = x), para las continuas, entrega fX (x)
pDISTR(q,...): Entrega P (X ≤ q)
qDISTR(p,...): Entrega el valor de x tal que P (X ≤ x) = p
rDISTR(n,...): Genera una muestra proveniente de un modelo de distribución
Semillas
Para fijar una semilla: set.seed()
Estas semillas establecen el número inicial utilizado para generar una secuencia de números aleatorios.
Probabilida teórica
Aquı́ se utiliza los comandos dDISTR() y/o pDISTR() correspondiente a la distribución utilizada
Media muestral
R: mean(X)
Media teórica
Aquı́ se utiliza la ecuación de la media de acuerdo a la distribución utilizada
Moda muestral
R: filtro=(table(X)==max(table(X)))
table(X)[filtro]
Moda teórica
R: filtro=dDIST(x,...)==max(dDIST(x,...))
x[filtro]
Mediana muestral
R: median(X)
Mediana teórica
R: qDIST(0.5,...)
Esperanza matemática
R: g=function(X){
# Función matemática a utilizar
}
mean(g(X))
Percentil muestral
R: quantile(X,seq(0,1,0.1))
Percentil teórico
R: qDISTR(seq(0,1,0.1),...)
Varianza muestral
Varianza teórica
Aquı́ se utiliza la ecuación de la varianza de acuerdo a la distribución utilizada
Para determinar la desviación estándar
Desviación estándar muestral
R: sd(X)
R: textttRango=function(X){
max(X)-min(X)
}
Rango(X)
o también
range(X)[2]-range(X)[1]
Rango teórico
R: maximo-0
R: IQR=function(X){
quantile(X,0.75)-quantile(X,0.25)
}
IQR(X)
R: qDISTR(0.75,...)-qDISTR(0.25,...)
R: install.packages("moments")
library(moments)
skewness(X)
R: install.packages("moments")
library(moments)
kurtosis(X)-3
Correlación muestral
R: cor(X,Y)
Paquete dplyr
El paquete dplyr es principalmente un conjunto de funciones diseñadas para permitir la manipulación
de macros de datos de una manera intuitiva y fácil de usar. Sirve para transformar conjuntos de datos
existentes en un formato más adecuado para algún tipo particular de análisis o visualización de datos.
Funciones de dplyr
filter
Selecciona un subconjunto de filas aplicando ciertos filtros, su primer argumento es la base de datos, los
siguientes argumentos son las condiciones para el filtro
slice
Selecciona un subconjunto de filas según la posición de las filas, el primer argumento es la base de datos,
los siguientes argumentos son los ı́ndices de las filas a seleccionar
arrange
Permite ordenas los datos de ciertas columnas seleccionadas, para ordenarlas de menor a mayor:
select
Selecciona un subconjunto de columnas, el primero argumento es la base de datos, los siguientes argu-
mentos son las columnas a seleccionar
rename
Permite renombrar columnas, el primer argumento es la base de datos, los siguientes argumentos son los
nuevos nombres para las columnas
mutate
Permite agregar nuevas columnas que son funciones de las ya existentes, el primer argumento es la base
de datos y los siguientes argumentos son las nuevas columnas a agregar
transmute
Combinación de mutate y select, permite agregar nuevas columnas en función de las ya existentes pero
no se muestra la columnas agregada, el primer argumento es la base de datos y los siguientes son las
nuevas columnas a agregar
summarise
Permite obtener resúmenes de datos de la base de datos, el primer argumento es la base de datos y los
siguientes son las medidas a resumir
sample n
Permite obtener un número n (con o sin remplazo) de filas aleatorias, el primer argumento es la base de
datos y el segundo es el tamaño de la muestra a seleccionar y el tercer argumento es seleccionar con o sin
remplazo
sample frac
Permite obtener un porcentaje p % (con o sin remplazo) de filas aleatorias, el primer argumento es la
base de datos, el segundo argumento es el tamaño porcentual y el tercer argumento es seleccionar con o
sin remplazo
Operador Pipe
El operador Pipe %> % permite realizar múltiples funciones y operaciones dentro de la base de datos,
primero de escribe la base de datos, luego el operador Pipe y finalmente las operaciones a realizar
group by
Permite agrupar y realizar resúmenes en grupos de la base de datos
which
Sirve para obtener los ı́ndices de las filas de una base de datos que cumpla una condición dada
R: which(base de datos$variable1==condicion1,...)
Operador %in %
Indica si un valor o componentes de un vector se encuentran dentro de los valores de otro vector, esto
retorna un valor o vector con valores booleanos para cada componente
R: tabla=table(base$X,base$Y)
función.probabilidad.conjunta = prop.table(tabla)
R: p.Y.dado.X = prop.table(tabla,margin=1)
Independencia de variables
Para comprobar si dos variables aleatorias X e Y son independientes, se utiliza
R: función.probabilidad.conjunta["a","b"]
p.X["a"]
p.Y["b"]
función.probabilidad.conjunta["a","b"] == p.X["a"]*p.Y["b"]
Si resulta en ser TRUE, entonces las variables son independientes, si resulta en ser FALSE, las variables
no son independientes
R: x=seq(a,b)
y=seq(a,b)
z=outer(x,y,p.X.Y)
X=rep(x,times=length(y))
Y=rep(y,each=length(x))
Z=c(z)
scatterplot3d(X,Y,Z,type="h",lwd=d,pch=,highlight.3d=TRUE,angle=alpha)
R: f.X.Y = function(x,y){
densidad = ifelse(condición de x e y, f(x,y),0)
}
Gráfico
x=seq(a,b,by=d)
y=seq(a,b,by=d)
z=outer(x,y,f.X.Y)
rgl.surface(x=x,y=z,z=y,color="Color",back="lines")
X=rep(x,times=length(y))
Y=rep(y,each=length(x))
Z=c(z)
scatterplot3d(X,Y,Z,type="h",lwd=c,pch=,highlight.3d=TRUE,angle=phi)
Normal Bivariada
La distribución conjunta Normal Bivariada de dos variables aleatorias X e Y se representa mediante el
siguiente código
R: install.packages("mvtnorm")
library(mvtnorm)
mu.X=mean(X)
mu.Y=mean(Y)
sigma.X=sd(X)
sigma.Y=sd(Y)
rho=cor(X,Y)
#Matriz Sigma
#Alternativa 1
Sigma=matrix(c(sigma.X**2,rho*sigma.X*sigma.Y,rho*sigma.X*sigma.Y,sigma.Y**2),
ncol=2,nrow=2,byrow=T)
#Alternativa 2
Sigma=cov(cbind(X,Y))
#Vector de medias
mu=c(mu.X,mu.Y)
R: library(rgl)
f.xy=funtion(x,y,mu.x=0,mu.y=0,s.x=1,s.y=1,rho=0){
n.r=length(x)
n.c=length(y)
M=matrix(NA,ncol=n.c,nrow=n.r)
for(i in 1:n,r){
M[i,]=dnorm(x[i],mean=mu.x,sd=s.x)*dnorm(y,mean=mu.y+rho*s.y*(x[i]-mu.x)/s.x,
sd=s.y*sqrt(1-rho**2))
}
M
}
x=seq(a,b,by=d)
y=seq(e,f,by=c)
z=f.xy(x,y,mu.x=h,mu.y=i,s.x=j,s.y=k,rho=m)
rgl.surface(x=x,y=z*t,z=y,color="Color",back="lines")
R: install.packages("MVN")
library(MVN)
Par=cbind(X,Y)
mvn(Par,multivariatePlot = "persp")
mvn(Par,multivariatePlot = "contour")
Donde
x: Corresponde al objeto a utilizar, puede ser un vector o una variable numérica de una base de
datos
by: Corresponde a la lista de variables que conforman los grupos
FUN: Corresponde a la función usada para el resumen estadı́stico, como mean, sd, var, etc
Donde
fórmula: Corresponde a la fórmula de entrada, generalmente es formula = Variable.Numérica
˜ Variable.Categórica
data: Corresponde a la base de datos donde se encuentran las variables
FUN: Corresponde a la función usada para el resumen estadı́stico
Si se desea conocer los promedios de la velocidad de los autos en ciertas ciudades, suponiendo que
se tiene la base de datos que contiene esta información, para calcular lo pedido se puede utilizar
la función aggregate como sigue
Donde
X: Corresponde al objeto a utilizar, ya sea una matriz, un vector, una base de datos, etc.
INDEX: Corresponde a una lista o listas de factores de la misma longitud de X, INDEX=list(Variable1,...)
FUN: Corresponde a la función que se utiliza para el resumen estadı́stico.
Tomando el ejemplo anterior, si se quiere utilizar la función tapply() en esta situación, se escribe
lo siguiente
Donde
Finalizando con el ejemplo, para calcular lo pedido utilizando estos 2 comandos, se escribe lo
siguiente