Está en la página 1de 73

Lección 1:

Fundamentos
de estadística
Conceptos básicos

• Individuo

• Población

• Muestra, muestreo

• Variables

→ cuantitativas (numéricas)

→ cualitativas (codificadas)

• Tabla de datos
Conceptos básicos

Dos aspectos importantes a la hora de tomar una muestra:

1) La manera con la cual se obtiene la muestra a partir de la población determinará


la calidad y la precisión de la información aportada por la muestra. Para que la
inducción sea válida, la muestra debe ser representativa de la población.

2) Todo razonamiento estadístico basado en la muestra, comporta una parte


inevitable de incertidumbre que se requiere cuantificar, especificando por
ejemplo la probabilidad de error.
Conceptos básicos

• Variabilidad y aleatoriedad

En la naturaleza y en todo proceso, existe variabilidad, la cual origina cierta


incertidumbre en los valores de los individuos de la población que no forman
parte de la muestra.
El razonamiento estadístico se basa generalmente en el supuesto de que los
datos recolectados en la muestra han sido generados por algún proceso
estocástico o proceso aleatorio hipotético. Esto permite realizar inferencias
sobre el proceso en estudio y lograr predicciones sobre la población
subyacente. En algunas circunstancias, es posible corroborar el supuesto de
aleatoriedad de los datos.
Conceptos básicos

Ejemplo (series de tiempo)

Se realizan 9 mediciones de dos variables en distintas fechas

Fecha 1 2 3 4 5 6 7 8 9

Variable 1 1 2 3 4 5 6 7 8 9

Variable 2 7 4 3 6 9 2 8 1 5

La primera variable muestra un patrón o variación sistemática, la cual puede no


ser atribuible a un proceso aleatorio.
Conceptos básicos

Una propiedad deseable para


una serie de tiempo es que
las distribuciones de
frecuencia no cambian con
el tiempo (estacionaridad).
Así, se puede suponer que
las observaciones provienen
de una misma población
estadística.
Conceptos básicos

• Distribución de frecuencia

La distribución de frecuencia fracciona los datos en grupos o clases y muestra


ya sea el número de observaciones en cada clase, o bien el número de
observaciones en cada clase dividido por el número total de observaciones.

Un histograma es un gráfico de barras de una distribución de frecuencia: las


clases se miden en el eje de abscisa, mientras que el número de observaciones o
las frecuencias se miden en el eje de ordenada. Es una herramienta útil para
representar gráficamente la variabilidad de los datos y obtener una estimación
gráfica del “centro” y la forma de su distribución de frecuencia.
Conceptos básicos

Ejemplo: distribución de las leyes de cobre total, medidas en 2376 muestras de


sondajes de exploración

Número de Número de
Clase Clase Histograma
observaciones observaciones
0 0 1.6 77
250
0.1 0 1.7 64
0.2 15 1.8 45
0.3 75 1.9 42 200

Número de observaciones
0.4 132 2 48
0.5 178 2.1 34 150
0.6 152 2.2 19
0.7 187 2.3 14
100
0.8 192 2.4 13
0.9 185 2.5 9
1 177 2.6 10 50
1.1 174 2.7 10
1.2 144 2.8 3
0
1.3 132 2.9 2
1.4 119 3 4
1.5 95 y mayor... 25 Ley de cobre (%)
Conceptos básicos

• Distribución de frecuencia acumulada

La distribución de frecuencia acumulada muestra, para cada clase, el número


total de observaciones en todas las clases inferiores y en la clase en cuestión,
dividido eventualmente por el número total de observaciones.

La representación gráfica de dicha distribución se hace mediante un


histograma acumulado.
Conceptos básicos

Ejemplo: granulometría

El histograma acumulado muestra la fracción acumulada bajo un tamaño


determinado.

Clase de tamaño Malla superior Malla inferior Proporción en clase Proporción acumulada
de partícula (cm) (cm)
L0 ---- 5.000 0.0204 0.0204
L1 5.000 3.800 0.0597 0.0801
L2 3.800 3.200 0.0597 0.1398
L3 3.200 2.500 0.0759 0.2157
L4 2.500 1.900 0.1383 0.3540
L5 1.900 1.300 0.1622 0.5162
L6 1.300 1.000 0.0813 0.5975
L7 1.000 0.600 0.0962 0.6937
L8 0.600 0.055 0.2412 0.9349
L9 0.055 0.000 0.0651 1.0000
Conceptos básicos

Distribución granulométrica

1.0000
Proporción acumulada

0.8000

0.6000

0.4000

0.2000

0.0000
1 2 3 4 5 6 7 8 9 10

Clase de tamaño
Conceptos básicos

• Variable aleatoria

Se trata de una variable X cuyo valor depende del “azar”.

Ejemplos

 cara o sello (representado por 0 ó 1)

 lanzamiento de un dado

 lotería

 variable en cuyos valores se tiene incertidumbre


Distribución de probabilidad

Una variable aleatoria X se caracteriza por una distribución de probabilidad, la


cual se representa por medio de:

• una función de distribución:


∀ x ∈ R, P(x) = Prob(X < x)

• una densidad de probabilidad (variable continua):

∀ x ∈ R, p(x) = dP(x)/dx

• una masa de probabilidad (variable discreta, por ejemplo, entera):

∀ n ∈ N, p(n) = Prob(X = n)
Distribución de probabilidad

Vínculo entre probabilidad y frecuencia empírica


Al sortear numerosos valores independientes de X, la distribución de frecuencia
de los valores sorteados (llamados realizaciones) debe tender a la distribución
de probabilidad.

Ejemplos

• cara o sello

• dado (¿falso?)
Esperanza y varianza

Se suele considerar parámetros sintéticos (llamados “momentos”) para describir


la distribución de probabilidad:

• esperanza o valor esperado: representa el valor promedio de la distribución

µ = E ( X ) = ∫ x p ( x) dx
R
o ∑
n∈N
n p ( n)

• varianza: mide la dispersión de la distribución

σ 2 = var( X ) = E{( X − µ) 2 } = E ( X 2 ) − µ 2

• desviación estándar: es la raíz cuadrada de la varianza (σ)


Esperanza y varianza

Ejemplo: lanzamiento de un dado no falso

• valor esperado

1 1 1 1 1 1
µ =1× + 2× + 3× + 4× + 5× + 6× = 3.5
6 6 6 6 6 6

• varianza

1 1
σ 2 = (1− 3.5) 2 × + ...+ (6 − 3.5) 2 × = 2.9167
6 6
Esperanza y varianza

Dado un conjunto de n realizaciones de X, se puede estimar la esperanza y


la varianza por

• la media experimental

1 n
X = ∑ Xi
n i=1

• la varianza experimental

1 n
2
S = ∑
n −1 i=1
( X i − X )2
Esperanza y varianza

Si las n realizaciones de X son independientes, los estimadores de la


esperanza y de la varianza tienen las siguientes propiedades

• media experimental
σ2
E( X ) = µ var( X ) =
n

• varianza experimental
1 n −3 4 
2
E (S ) =σ 2
var(S 2 ) =  E{( X − µ) 4 }− σ 
n n −1 

Si n es muy grande, se tiene las siguientes convergencias (ley de los grandes


números):

X n→+∞
→µ S 2 n→+∞
→ σ 2 corr ( X , S 2 ) n
→ 0
→∞
Esperanza y varianza

Complemento: muestreo sin reposición de una población finita


Sea (X1,... XN) una población de N individuos
(X1,... Xn) una muestra de la población (n ≤ N)

Aquí, se supone que el muestreo se hizo sin reposición, de modo que los
individuos de la muestra son todos distintos. Esto implica que la hipótesis de
independencia entre las variables aleatorias de la muestra (X1,... Xn) ya no se
cumple: a cada sorteo, se modifica la población, dado que el individuo
sorteado ya no puede aparecer en los sorteos siguientes.
Esperanza y varianza

En este caso, los estimadores de la esperanza y de la varianza tienen las


siguientes propiedades

• media experimental
N − n σ2
E( X ) = µ var( X ) =
N −1 n

• varianza experimental

N
E (S 2 ) = σ2
N −1

Con respecto al caso de una población infinita o de un muestreo con reposición


(datos independientes), los factores correctivos pueden ser importantes si la tasa
de muestreo n/N es importante o si N es pequeño.
Esperanza y varianza

Ejercicio 1: lanzamiento de un dado. Se realiza 10 lanzamientos, obteniendo


los siguientes valores:

2 5 3 6 1 5 3 4 2 4

Calcular la media y la varianza experimental, y compararlas con la esperanza y


varianza del dado no falso.

Ejercicio 2. Para una muestra independiente, demostrar que la esperanza de S2


es igual a σ2.
Esperanza y varianza

Ejercicio 3. Se tiene una muestra independiente de tamaño n de una variable


X. Se define la desviación estándar experimental como la raíz cuadrada de la
varianza experimental:

1 n
S= ∑
n − 1 i =1
( X i − X )2

Se quiere saber si la esperanza de S es igual a la desviación estándar de X.


Esperanza y varianza

Ejercicio 4. Se considera una muestra de tamaño n de una variable positiva X.


Comparar las medias aritmética (A), geométrica (G), armónica (H) y
cuadrática (Q), definidas como sigue:

n
1 n 1 1 n 2
A = ∑ Xi G=n ∏X i H= Q= ∑ Xi
n i =1 1 n 1 n i =1
i =1

n i =1 X i

Se podrá hacer uso de la desigualdad de Jensen:


Si f es una función convexa y {λ1,… λn} un conjunto de ponderadores
positivos cuya suma es igual a 1, entonces

 n  n
f  ∑ λ i xi  ≤ ∑ λ i f ( xi )
 i =1  i =1
Otros parámetros estadísticos

Medidas de tendencia central

La mediana es el valor del individuo central (de la población o de la muestra)


cuando todos los individuos están dispuestos en orden ascendente en término
de valores.

También se puede definir los cuantiles como los valores que sub-dividen la
población o la muestra (dispuesta en orden ascendente) en categorías de igual
número de individuos:
• cuartiles
• quintiles
• deciles
• centiles
Otros parámetros estadísticos

La moda es el valor que aparece más frecuentemente en el conjunto de datos, o


sea, el valor correspondiente al máximo de la distribución de frecuencia.

→ distribución unimodal / bimodal / multi-modal

A diferencia de la media, la mediana y la moda no son afectados por valores


extremos en el conjunto de datos.
Otros parámetros estadísticos

Ejemplo: toneladas descargadas por un camión en cada viaje

Se tiene la siguiente serie de observaciones:


260, 290, 270, 280, 300, 270, 280, 250, 240, 280, 290, 280, 300

Calcular los siguientes estadísticos:


• media
• mediana
• moda
Otros parámetros estadísticos

Medidas de dispersión

La dispersión se refiere a la variabilidad o amplitud en los datos. Aparte de la


varianza y la desviación estándar, las medidas más importantes son:

• desviación media y diferencia relativa media

• coeficiente de variación

• rango

• rango intercuartil
Otros parámetros estadísticos

La desviación media (MAD) está dada por el promedio de las diferencias


absolutas entre cada observación y la media:

MAD = E{| X − µ |} para la población

1 n
MAD = ∑ | X i − X | para la muestra
n i =1

La desviación media es positiva, o nula si todos los individuos tienen el


mismo valor.
Otros parámetros estadísticos

La diferencia relativa media (RMD) es el promedio de las diferencias absolutas


entre todos los pares posibles de observaciones:

RMD = E{| X − X ′ |} para la población

1 n n
RMD = 2 ∑∑ | X i − X j | para la muestra
n i =1 j =1

Esta medida también se denomina “coeficiente de selectividad”.


Otros parámetros estadísticos

Para variables positivas, el coeficiente de variación es el cociente entre la


desviación estándar y el valor promedio; se trata de una medida sin dimensión.

De manera similar, el coeficiente de Gini es la mitad del cociente entre la


diferencia relativa media y el valor promedio; esta medida no tiene dimensión y
está comprendida entre 0 y 1.

El rango es la diferencia entre el valor máximo y el mínimo.

El rango intercuartil es la diferencia entre el tercer cuartil (75%) y el primer


cuartil (25%). En este rango, se distribuye la mitad de los individuos de la
población o de la muestra.
Otros parámetros estadísticos

Ejemplo: coeficiente de Gini para medir las desigualdades de ingreso


Otros parámetros estadísticos

Medidas de forma

La forma de la distribución se refiere a

1) su simetría o la falta de ella (asimetría)

2) la agudeza o aplanamiento de su punta (curtosis)


Otros parámetros estadísticos

Una distribución tiene asimetría cero si es simétrica a su media.

Para una distribución simétrica, la media y la mediana son iguales. Si además


es unimodal (tiene una sola moda), entonces esta moda también es igual a la
media.

Una distribución está sesgada positivamente si la cola derecha es más larga.


Entonces, la media es superior a la mediana, la cual es superior a la moda. Al
contrario, está sesgada negativamente si la cola izquierda es más larga, caso en
el cual la moda supera a la mediana y ésta a la media.
Otros parámetros estadísticos

La asimetría puede medirse por el coeficiente de asimetría:

E{( X − µ) 3}
a3 = para la población
σ3

1 n
∑ i
n i =1
( X − X ) 3

a3 = para la muestra
S3
Otros parámetros estadísticos

Una curva de punta aguda se llama leptocúrtica, en oposición a una achatada


(platicúrtica). Entre estos extremos se halla la mesocúrtica.

La curtosis se puede medir por el siguiente coeficiente:

E{ ( X − µ) 4 }
a4 = para la población
σ4

1 n
n
∑ ( X i − X )4
a4 = i =1 4 para la muestra
S
Distribución normal

Densidad de probabilidad normal o Gaussiana:

1  ( x − µ) 2 
∀x∈R, p ( x) = exp− 2 
σ 2π  2 σ 

Carl Friedrich Gauss


Distribución normal

La distribución normal estándar corresponde al caso donde µ = 0 y σ = 1.


Se denota usualmente como N(0,1). Su función de distribución es:

x
∀x∈R, P( x) = ∫ p (t ) dt
−∞

≈1− p ( x)(0.4361836 t − 0.1201676 t 2 + 0.9372980 t 3 )

1
con t =
1+ 0.33267 x

La suma de n variables aleatorias normales independientes de esperanza µ y


varianza σ2 es una variable aleatoria normal, de esperanza n × µ y varianza n × σ2.
Distribución normal

Teorema del límite central

Para una muestra independiente de una variable aleatoria X con esperanza finita µ
y varianza finita σ2, se tiene

X −µ
→ N (0,1) si n → ∞
σ/ n

Independientemente de la distribución inicial de X, la distribución de la media de


una muestra grande es Gaussiana. Usualmente, se considera que la convergencia
se alcanza si n > 50. En particular, se tendrá:

 σ σ 
Prob X −1.96 < µ < X +1.96  = 0.95
 n n
Distribución lognormal

X tiene una distribución lognormal cuando su logaritmo sigue una distribución


normal. La densidad de probabilidad es:

1 
 1 ln ( x ) − µ 
2

∀x > 0, p ( x) = exp−  ln( X )
 
x σ ln( X ) 2π σ ln( X ) 
 2   
Distribución gamma
La densidad de probabilidad de la distribución gamma estándar depende de un
parámetro positivo θ (parámetro de forma), igual a la media y a la varianza:
1 − x θ−1
∀x > 0, p ( x ) = e x
Γ (θ)
El caso θ = 1 corresponde a la distribución exponencial.
Distribución chi cuadrado

La suma de n variables normales estándares independientes {Xi, i = 1… n}


elevadas al cuadrado tiene una distribución chi cuadrado con n grados de
libertad:
n
χ = ∑ X i2
2
n
i =1

2
La esperanza de χ n es igual a n y su varianza a 2n.

1 2
χ n es una variable gamma de parámetro θ = n/2.
2
Distribución chi cuadrado

Sea un conjunto de variables aleatorias normales independientes {Xi, i = 1… n}


de misma esperanza µ y varianza σ2. Denotemos como S2 su varianza
experimental. Entonces, se obtiene una variable del chi cuadrado con n – 1
grados de libertad al plantear:

2 (n − 1) S 2
χ n −1 =
σ2

Además, X (media experimental) y S2 son independientes.


Distribución de Weibull

Una variable X sigue una distribución de Weibull estándar de parámetro θ


(positivo) si Xθ tiene una distribución exponencial.

∀x > 0, p ( x) = θ x θ−1 exp( − x θ )


Distribución de Student

Sea X una variable normal estándar (de media 0 y


2
varianza 1), y χ n−1 una variable independiente del
chi cuadrado con n – 1 grados de libertad. Se
define la variable de Student con n – 1 grados de
libertad (denotada Tn – 1) como

n −1
Tn−1 = X
χ 2n−1

William Sealy Gosset,


alias Student
Distribución de Student

En particular, sea {Xi, i = 1… n} un conjunto de variables aleatorias normales


independientes de misma esperanza µ y varianza σ2, X su media experimental y
S2 su varianza experimental. La variable

X −µ
Tn−1 = n
S

tiene una distribución de Student con n – 1 grados de libertad. Este resultado es


independiente del valor de σ2 y es de gran utilidad cuando este valor es
desconocido.
Distribución de Fisher

La razón de dos variables independientes


del chi cuadrado divididas por sus grados de
libertad respectivos, es una variable de
Fisher, cuya distribución depende de dos
grados de libertad:

χ n21 / n1
F ( n1 , n2 ) =
χ 2n2 / n2

Ronald Aylmer Fisher


Distribución uniforme
La densidad de probabilidad es constante en un intervalo [a,b]:

1
si x ∈ [ a, b]
∀x ∈ R, p ( x) = (b − a )
0 en caso contrario
Otras distribuciones

• Distribución de Bernoulli
Esta distribución sólo tiene dos valores: 1 (con probabilidad p) y 0 (con
probabilidad 1 – p).

• Distribución de Poisson

• Distribución binomial
Se obtiene al sumar M variables de Bernoulli independientes, de misma
probabilidad de éxito p.

• Distribución binomial negativa

• Distribución hipergeométrica
Otras distribuciones
Distribuciones bivariables

Consiste en asociar a cada experimento dos variables aleatorias X e Y (no


necesariamente independientes).

Ejemplos

1) resistencia de un cable a la tracción (X) y dureza del cable (Y)

2) leyes de cobre total (X) y cobre soluble (Y) de una muestra de sondaje

3) razón de solubilidad (X) y recuperación metalúrgica (Y)


Distribuciones bivariables

Para describir cómo se distribuyen y cómo se relacionan las dos variables X e Y, se


generaliza la definición de la función de distribución al caso bivariable:

P ( x, y ) = Prob( X < x,Y < y )

Se trata de la probabilidad que los dos eventos (X < x) e (Y < y) se realicen


simultáneamente. Para variables discretas, se define la masa de probabilidad

p (i, j ) = Prob( X = i,Y = j )

mientras que para variables continuas, se define la densidad de probabilidad

∂ 2 P ( x, y )
p ( x, y ) =
∂x ∂y
Distribuciones bivariables

Ejemplo 1: distribución bigaussiana o binormal

1   x −µ 2
  y − µY 
2
 x −µ X   y − µY 
−  X  +  − 2 ρ     
2  σ
1 2 (1−ρ )   X   σY   σX   σY  
p ( x, y ) = 2
e
2 π σ X σY 1 − ρ

donde ρ es el coeficiente de
correlación entre X e Y

Las distribuciones marginales de


X e Y son normales de medias µX
y µY y de varianzas σX2 y σY2.
Distribuciones bivariables

Ejemplo 2: distribución bigamma

( α −1) / 2
1  x + y  x y   x yρ 
p ( x, y ) = exp  −   I α −1  2 
Γ(α) (1 − ρ)  1 − ρ  ρ   1− ρ 

donde
ρ > 0 es el coeficiente de correlación
entre X e Y
α > 0 es un parámetro de forma
Iα-1 es la función de Bessel modificada
de primer tipo de orden α – 1
Distribuciones bivariables

X e Y son independientes si su función de distribución bivariable se factoriza

P ( x, y ) = PX ( x) PY ( y )

En este caso, el conocer una variable no altera la distribución de la otra variable.


Distribuciones bivariables

Experimentalmente, la distribución bivariable entre X e Y se puede representar con


un diagrama de dispersión (también conocido como nube de dispersión o nube de
correlación), el cual consiste en la nube de puntos {(xi,yi), i = 1… n}. En caso de
existir una relación potencial de causa y efecto entre las variables, este diagrama
sirve para entender la naturaleza estadística de la causalidad.
Distribuciones marginales

Las distribuciones a priori de las variables X e Y se definen por

• sus funciones de distribución

PX ( x) = Prob( X < x) = P ( x,+∞)


PY ( y ) = Prob(Y < y ) = P (+∞, y )

• sus densidades / masas de probabilidad

p (i,⋅) = Prob( X = i ) = ∑ p (i,j )


+∞
p X ( x) = ∫ p( x, y ) dy
−∞
j∈N
+∞
pY ( y ) = ∫ p( x, y ) dx p (⋅, j ) = Prob(Y = j ) = ∑ p (i,j )
−∞
i∈N
Distribuciones marginales
Distribuciones marginales
Distribuciones condicionales

Se define la distribución de Y condicional a X = x

P ( y | x) = Prob(Y < y | X = x)

∂P( y | x) p ( x, y )
p( y | x) = =
∂y p ( x)

Estas funciones describen la distribución de la variable Y dada la realización de la


variable X. El conocimiento de una variable aleatoria X correlacionada con Y
suele modificar la distribución de probabilidad a priori de Y.

La fórmula de Bayes da

p( y | x) p( x) = p( x | y ) p( y )
Distribuciones condicionales

Aplicaciones

• distribución granulométrica de una partícula, dado que su tamaño es menor


que 2.5cm

• distribución de la ley de cobre total de una muestra, dado que su mineralogía


es de tipo lixiviado

• distribución de la ley de cobre soluble de una muestra, dada su ley de cobre total
Distribuciones condicionales

Ejemplo 1: distribución bigaussiana

La distribución de Y condicional a X = x todavía es Gaussiana


Distribuciones condicionales

Ejemplo 2: distribución bigamma

Distribuciones de Y condicional a X = 0.5 y de X condicional a Y = 0.5


Covarianza y correlación

La covarianza entre X e Y se define como:

cov( X ,Y ) = E[( X − µ X ) (Y − µY )] = E ( XY ) − µ X µY

Se tiene:
cov( X , X ) = var( X )
cov(aX ,bY ) = ab cov( X ,Y )


var( X + Y ) = var( X ) + 2 cov( X ,Y ) + var(Y )
| cov( X ,Y ) | ≤ var( X ) var(Y )

Además, si X e Y son independientes, cov(X,Y) = 0 y var(X + Y) = var(X) + var(Y).


Covarianza y correlación

El coeficiente de correlación lineal (o correlación de Pearson) entre X e Y se


define como:

cov( X ,Y )
ρ=
σ X σY

Se tiene:

−1≤ ρ ≤1

 X e Y son independientes ⇒ ρ = 0
 X e Y son proporcionales ⇔ ρ =1 ó ρ = −1

ρ es un índice que mide la relación lineal entre X e Y, pero no muestra las


relaciones que no son lineales
Covarianza y correlación

Ilustración
Covarianza y correlación

Dado un conjunto de n realizaciones independientes del par (X,Y), se puede


estimar la covarianza y la correlación por

• la covarianza experimental

1 n
S XY = ∑
n − 1 i =1
( X i − X ) (Yi − Y )

La esperanza de este estimador es igual a la covarianza de (X,Y)

• la correlación experimental

S XY
S X2 SY2
Covarianza y correlación

El coeficiente de correlación de rango, o de Spearman, se define al reemplazar


los valores de cada variable, por sus rangos:

valor mínimo → rango = 1


...
valor mediano → rango = n/2
...
valor máximo → rango = n

Este estadístico es más resistente a la presencia de valores muy altos o muy


bajos (outliers) que el coeficiente de correlación lineal clásico.
Distribuciones multivariables

Para describir cómo se distribuyen conjuntamente varias variables X1,… XM, se


define la función de distribución multivariable:

P ( x1 ,...xM ) = Prob( X 1 < x1 ,... X M < xM )

Para variables discretas, se define la masa de probabilidad

p (i1 ,...iM ) = Prob( X 1 = i1 ,... X M = iM )

mientras que para variables continuas, se define la densidad de probabilidad

∂ M P ( x1 ,...xM )
p ( x1 ,...xM ) =
∂x1... ∂xM
Distribuciones multivariables

Ejemplo: distribución multigaussiana o multinormal

1  1 
p( x ) = exp− ( x − µ )t C −1 ( x − µ) 
( 2π ) M det(C)  2 

donde x = (x1,... xM)t es un vector de posibles valores de X1,... XM


µ es el vector (1×M) de las esperanzas de X1,... XM
C es la matriz de varianza-covarianza de X1,... XM

La distribución multivariable sólo depende de los primeros dos momentos:


vector de esperanzas y matriz de varianza-covarianza. Se dice que el vector
aleatorio X = (X1,… XM)t es un vector Gaussiano.
Distribuciones multivariables

Propiedades

1) La ausencia de correlación (matriz C diagonal) equivale a la independencia

2) Las distribuciones inducidas son multigaussianas: las distribuciones


marginales de X1,… XM son normales, sus distribuciones bivariables son
binormales, y así sucesivamente.

3) Las distribuciones condicionales son Gaussianas.

4) Toda combinación lineal de X1,… XM tiene una distribución Gaussiana.

5) Teorema del límite central: si un vector aleatorio X tiene una esperanza


finita µ y una matriz de varianza-covarianza C, entonces n ( X − µ ) tiene
una distribución asintóticamente multigaussiana de media 0 y matriz de
varianza-covarianza C cuando n tiende a infinito.
Lecturas recomendadas

Box, G.E.P., Hunter, W.G., Hunter, J.S., 1978. Statistics for Experimenters. John
Wiley and Sons, New York, 653 p.

Davis, J.C., 2002. Statistics and Data Analysis in Geology. John Wiley & Sons,
Inc., New York.

Lapin, L.L, 1990. Probability and Statistics for Modern Engineering. PWS-
Kent, Boston.

Montgomery, D.C., Runger, G.C., 1999. Applied Statistics and Probability for
Engineers. John Wiley and Sons, New York.
Ejercicios

1) Se tomaron 20 muestras de un stock, en las cuales se midió la ley de cobre.


Se desea saber cuántas muestras son necesarias para poder estimar la ley
media del stock con un error típico menor que 0.01%Cu.

2) (Principio de la simulación de Monte Carlo). Se busca sortear valores


independientes de una variable aleatoria X con función de distribución F(.).
Mostrar que Y = F(X) tiene una distribución uniforme en [0,1]. Deducir
cómo simular valores de X a partir de valores uniformes.

3) (Media geométrica y distribución lognormal). Sea X una variable normal


N(m,s) e Y = exp(X) una variable lognormal. Calcular la esperanza de Y y su
mediana. Determinar la esperanza de la media geométrica de una muestra
de Y de tamaño n.
Ejercicios

4) (Fórmula del error fundamental). Se considera un conjunto de material


(lote), por ejemplo el detrito de la perforación de un pozo de tronadura, del
cual se quiere medir la ley de cobre. Para ello, se toma una muestra, que se
manda a laboratorio para análisis químico. Se considera el lote como una
reunión de fragmentos de diámetro d y factor de forma f.

a) Determinar los números nL y nS de fragmentos en el lote y la muestra,


en función del diámetro d, el factor de forma f, la densidad ρ del
material y las masas ML y MS del lote y de la muestra .

b) Calcular la varianza del error cometido al estimar la ley del lote por
la ley de la muestra (medida por el laboratorio). Se denotará como Ai
la ley del i-ésimo fragmento del lote y se supondrá que {Ai, i = 1...nL}
son variables aleatorias independientes de esperanza m y varianza σ2.

También podría gustarte