Está en la página 1de 65

GEOESTADÍSTICA APLICADA A LA ESTIMACIÓN DE RECURSOS MINERALES

Tema: Análisis Exploratorio de Datos


Instructores:

Dr. Martín A. Díaz Viera (mdiazv64@gmail.com)


MSc. Heber Hernández Guerra (heber@nubeminera.cl)
Dr. Ricardo Casar González (rcasar@yahoo.com.mx)
MSc. Van Huong Le (levanhuong15011989@gmail.com)

2021
WWW.NUBEMINERA.CL
Análisis Exploratorio de Datos
• ¿Qué es el AED?
• Importancia del AED
• Etapas de cualquier AED
• Herramientas del AED
• Estadística univariada
• Estadística bivariada
• Estadística multivariada
• Regresión lineal y mínimos cuadrados

1
Análisis
Exploratorio
de Datos

1
¿Qué es el AED?
Es un conjunto de técnicas estadísticas y gráficas que permiten establecer un
buen entendimiento básico del comportamiento de los datos y de las
relaciones existentes entre las variables que se estudian.

En el contexto de la estimación de recursos minerales, nos permite establecer


las distribuciones estadísticas y espaciales en función de los atributos
geológicos (mineralización, alteración, litología, etc) que controlan las leyes
de los minerales.

2
Importancia del AED
• El AED es un paso previo e indispensable para la aplicación exitosa de
cualquier método estadístico.

• En particular permite la detección de fallos en el diseño y toma de datos,


el tratamiento y/o la evaluación de datos ausentes, la identificación de
valores atípicos y la comprobación de los supuestos requeridos por parte
de las técnicas geoestadísticas.

• Permite aumentar el conocimiento geológico y facilitar una elección


informada de los atributos geológicos a modelar, criterios de
agrupamiento, criterios de modelamiento y para la elección de
parámetros de la estimación de recursos

3
Etapas de un AED
1. Realizar un examen gráfico de la naturaleza de las variables individuales y un análisis
descriptivo numérico que permita cuantificar algunos aspectos gráficos de los datos.

2. Realizar un examen gráfico de las relaciones entre las variables y un análisis descriptivo
numérico que cuantifique el grado de interrelación existente entre ellas.

3. Evaluar algunos supuestos básicos subyacentes a muchas técnicas estadísticas, por ejemplo,
normalidad, linealidad y homocedasticidad.

4. Identificar los posibles valores atípicos (outliers) y evaluar el impacto potencial que puedan
ejercer en análisis estadísticos posteriores.

5. Evaluar, el impacto potencial que pueden tener los datos ausentes (missing) sobre la
representatividad de los datos analizados.

4
Herramientas del AED

1. Estadística univariada

2. Estadística multivariada

3. Regresión lineal y mínimos cuadrados

6
Estadística univariada
Variable Aleatoria (V.A.): Es una variable Z que puede tomar una serie
de valores o realizaciones (zi) cada una de las cuales tienen asociadas
una probabilidad de ocurrencia (pi).

• Ejemplo: Al lanzar un dado puede resultar {1, 2, 3, 4, 5 o 6} con una


probabilidad de ocurrencia igual a 1/6.
• Las probabilidades cumplen las condiciones:

a) pi  0, i b) p
i
i =1

7
Estadística
Univariada

1
Estadística univariada
1
1. Variable Aleatoria Discreta: cuando el número de
ocurrencias es finito o contable, se conoce como
variable aleatoria discreta.
• Ejemplo: Tipos de roca en un yacimiento.

2
2. Variable Aleatoria Continua: si el número de
ocurrencias posibles es infinito.
• Ejemplo: la concentración de cobre (Cu) en la roca
en el intervalo [0,100%].

8
Estadística univariada
Función de Distribución de Probabilidad (FDP)
La FDP caracteriza completamente a la VA.
Se define como:
F ( z) = Pr Z  z 0,1
Su gráfica es el histograma acumulativo

9
Estadística univariada
Función de Densidad de Probabilidad (fdp).
dF ( z )
Se define como: f ( z) =
Su gráfica es el histograma. dz

10
Estadística univariada
Percentiles o cuantiles de una distribución .
• El percentil de una distribución F(z) es el valor zp de la V.A. que
corresponde a un valor p de probabilidad acumulada, es decir:

F (zp ) = p

• Si existe la función inversa se puede expresar como:

−1
z p = F ( p)

11
Estadística univariada
Algunos cuantiles de interés:

• Mediana, p=0.5 M = F −1 (0.5)


• Cuartiles
• (primer cuartil o inferior) p=0.25 z0.25 = F −1 (0.25)

• (tercer cuartil o superior) p=0.75 z0.75 = F −1 (0.75)

• Rango o intervalo intercuartil (IR)  z0.25 , z0.75 

12
Estadística univariada
Ejemplo de cuartiles y rango intercuartil

13
Estadística univariada
Valor esperado o esperanza matemática de una VA.
Es el valor más probable que puede tomar una VA. Se conoce también como valor medio
o media. Se define como:
+ +
m = E Z  =  zdF ( z) =  zf ( z)dz
− −
Se calcula como el promedio de todas las observaciones de la variable Z
N
1
m=
N
z i =1
i

Es muy sensible a los valores atípicos (outliers)

14
Estadística univariada

• Momento de orden r de una FDP


+ +
mr = E  Z r  =
−
 z r dF ( z ) =  z r f ( z )dz
−

• Momento centrado de orden r de una FDP

+ +
r = E ( Z − m )  =  ( z − m) dF ( z) =  ( z − m ) f ( z)dz
r r r
 
− −

15
Estadística univariada
Varianza de una VA (2do momento centrado)

 = Var  Z  = E ( Z − m )   0

2 2
• Se define como  
• Y caracteriza la dispersión de la distribución alrededor de la media.
N
1
 =  ( zi − m )
2 2
• Se calcula como
N − 1 i =1

16
Estadística univariada
Distribución Normal o Gaussiana.
• Esta distribución está completamente caracterizada por
sus dos parámetros: media y varianza y se designa
mediante
• La fdp normal o Gaussina está dada por: N ( m,  2 )

1  1  z − m 2 
g ( z) = exp  −   
 2  2    

• Es simétrica respecto a la media

17
Estadística univariada
Ejemplos de distribuciones Gaussianas

18
Estadística univariada
Distribución LogNormal
• Una VA positiva Y se dice que tiene una distribución lognormal si su
logaritmo ln(Y) esta normalmente distribuido.
Y  0 → log N ( m,  2 ) , si X = ln Y → N ( ,  2 )

• Muchas distribuciones experimentales en Ciencias de la Tierra


tienden a ser asimétricas y la mayoría de las variables toman valores
no negativos.

19
Estadística univariada
Ejemplos de distribuciones Lognormales

20
Estadística univariada
• Desviación Estándar  = Var  Z 

• Coeficiente de variación (dispersión relativa) CV =  / m


3
• Coeficiente de simetría (medida de la simetría) 1 = 3/ 2
2

4
• Coeficiente de curtosis (medida del achatamiento)  2 = 2 − 3
2

21
Estadística univariada
Simetría y Curtosis de una distribución

22
Estadística univariada
BOX PLOT

23
Estadística univariada
BOX PLOT

24
Estadística univariada
Histograma (Ley de cobre) Estadística Valor
No_muestras 532
Minimo 0.17
Cuartil_1er 0.56
Mediana 0.945
Media 1.1366
Cuartil_3er 1.4
Maximo 6.9
Rango 6.73
Rango_Intercuartil 0.84
Varianza 0.8053
Desv_Estandar 0.89738
Simetria 2.99332
Curtosis 16.20216

25
Estadística univariada
Transformación raiz cuadrada Estadística Valor
No_muestras 532
Minimo 0.4123
Cuartil_1er 0.7483
Mediana 0.9721
Media 1.0067
Cuartil_3er 1.1832
Maximo 2.6268
Rango 2.2145
Rango_Intercuartil 0.4349
Varianza 0.1233
Desv_Estandar 0.3511
Simetria 1.2992
Curtosis 6.221

25
Estadística univariada
Transformación logarítmica Estadística Valor
No_muestras 532
Minimo -9.2103
Cuartil_1er -2.0441
Mediana 0.0271
Media -0.5712
Cuartil_3er 1.5009
Maximo 4.2464
Rango 13.4567
Rango_Intercuartil 3.545
Varianza 8.7983
Desv_Estandar 2.9662
Simetria -1.1775
Curtosis 4.5141

25
Estadística univariada
Con valores atípicos (outliers)
No_muestras 200
Minimo 58.2
Cuartil_1er 82.25
Mediana 97.85
Media 108.9925
Cuartil_3er 110.325
Maximo 1499
Rango 1440.8
Rango_Intercuartil 28.075
Varianza 14873.08823
Desv_Estandar 121.95527
Simetria 9.92162
Curtosis 104.73871

30
Estadística univariada
Sin valores atípicos (outliers)
No_muestras 196
Minimo 58.2
Cuartil_1er 82
Mediana 97.5
Media 96.3265
Cuartil_3er 110
Maximo 140.2
Rango 82
Rango_Intercuartil 28
Varianza 319.7503
Desv_Estandar 17.8816
Simetria 0.0291
Curtosis 2.3889

31
Estadística univariada
Transformación logarítmica sin outliers Estadísticas Valor
No_muestras 526
Minimo -1.772
Cuartil_1er -0.5798
Mediana -0.0672
Media -0.12
Cuartil_3er 0.3221
Maximo 1.6658
Rango 3.4378
Rango_Intercuartil 0.9019
Varianza 0.4027
Desv_Estandar 0.6346
Simetria -0.0911
Curtosis 2.5609

25
Estadística univariada Estadística Valor
Valores atípicos? No_muestras 46
Minimo 0.49
Cuartil_1er 0.77
Mediana 1.05
Media 1.15
Cuartil_3er 1.25
Maximo 2.94
¿valores atípicos? Rango 2.45
Rango_Intercuartil 0.49
Varianza 0.30
Desv_Estandar 0.54
Simetria 1.50
Curtosis 5.07

25
Estadística univariada
Después de eliminar los valores atípicos Estadística Valor
No_muestras 42
Minimo 0.49
Cuartil_1er 0.75
Mediana 1.00
Media 1.03
¿nuevos Cuartil_3er 1.20
valores
Maximo 1.93
atípicos?
Rango 1.44
Rango_Intercuartil 0.45
Varianza 0.12
Desv_Estandar 0.35
Simetria 0.76
Curtosis 3.22

33
Estadística
Bivariada

1
Estadística bivariada
• Hasta el momento, sólo hemos considerado a las variables
aleatorias por separado, sin que exista ninguna interrelación
entre éstas.

• En muchos campos de aplicación y en particular, en las Ciencias


de la Tierra, es frecuentemente más importante conocer el
patrón de dependencia que relaciona a una variable aleatoria X
con otra variable aleatoria Y.

• Por lo que le dedicaremos especial atención al análisis conjunto


de dos variables aleatorias, conocido como análisis bivariado.

35
Estadística bivariada
Función de Distribución de Probabilidad Bivariada

• La distribución de probabilidad conjunta de un par de variables


aleatorias X y Y se define como:

FXY ( x, y) = Pr  X  x, Y  y
• En la práctica se estima mediante la proporción de pares de valores
de X y Y que se encuentran por debajo del umbral x, y
respectivamente.

36
Estadística bivariada
Diagrama de Dispersión (Scattergram)
• El equivalente bivariado del histograma es
el diagrama de dispersión o scattergram,
donde cada par (xi, yi) es un punto.

• El grado de dependencia entre dos


variables aleatorias X y Y puede ser
caracterizado por el diagrama de
dispersión alrededor de cualquier línea de
regresión.

sCu(%): Cobre soluble


tCu(%): Cobre total

37
Estadística bivariada
• Covarianza
• Se define la covarianza de manera análoga a los
momentos centrales univariados, como

• Se calcula como
Cov ( X , Y ) =  XY = E ( X − mX )(Y − mY )

1 N 1 N
 XY =  ( xi − mX )( yi − mY ) =  xi yi − mX mY
N i =1 N i =1

38
Estadística bivariada
Semivariograma
• Es el momento de inercia del diagrama de dispersión con
respecto a una línea con pendiente de 45o y se define
como
N N
1 1
 XY = d  =  x − y 
2 2
i i i
N i =1 2N i =1

• Permite caracterizar la carencia de dependencia

39
Estadística bivariada
y
Semivariograma
x

Mientras mayor sea el


valor del semivariograma
xi − yi más dispersos estarán los
di
valores en el diagrama de
yi x dispersión y menor será
( xi , yi ) la dependencia entre las
dos variables aleatorias.
45 x
x x
xi

40
Estadística bivariada
Coeficiente de correlación lineal de Pearson
• Se define como:
 XY Cov  X , Y 
 XY = =   −1,1
 XY Var  X Var Y 

• Caracteriza el grado de dependencia lineal o correlación


entre dos variables aleatorias.
• Por ejemplo si Y=aX+b, entonces se cumple que:
 1, para a  0
 XY = 
−1, para a  0

41
Estadística bivariada
Coeficiente de correlación de rango de Spearman

• Se define como:

Para calcular ρ, las parejas de datos X y Y se ordenan y son


reemplazados por su respectivo orden
donde D es la diferencia X - Y entre los estadísticos de orden y N es el
número de parejas de datos.
• Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas
respectivamente, cero, significa no correlación pero no independencia.
• Es menos sensible a los valores atípicos que el coeficiente de Pearson.

42
Estadística bivariada
Coeficiente de correlación de rango de Kendall

• Se define como:

• Un par es concordante si el orden de ambos está de acuerdo de lo


contrario se dice que son discordantes.
• Si X y Y son independientes, entonces esperaríamos que el coeficiente sea
aproximadamente cero.
• Es menos sensible a los valores atípicos que el coeficiente de Pearson.

43
Estadística bivariada
Sin transformar
Coeficiente de correlación=0.7761

44
Estadística bivariada
Después de transformar
Coeficiente de correlación=0.7467

Click to add text

Valores atípicos

45
Estadística bivariada
Después de transformar y sin valores atípicos
Coeficiente de correlación=0.7447

45
Estadística
Multivariada

1
Estadística multivariada
Existen muchas técnicas multivariadas:

• Análisis de Regresión
• Análisis de Conglomerados
• Análisis de Componentes Principales
• Análisis Factorial
• Análisis Discriminante, etc

46
Regresión
Lineal y
Mínimos Cuadrados

1
Regresión lineal
• La regresión trata de establecer relaciones funcionales entre
variables aleatorias.
• En particular la regresión lineal consiste en establecer una relación
descrita mediante una recta.
• Los modelos de regresión nos permiten hacer predicciones o
pronósticos a partir del modelo establecido.
• El método que se emplea para estimar los parámetros del modelo
de regresión es el de los Mínimos Cuadrados

47
Mínimos cuadrados
• El método que se emplea para estimar los parámetros del modelo
de regresión es el de los Mínimos Cuadrados

• Existen diferentes métodos de Mínimos Cuadrados:

a) Mínimos Cuadrados Ordinarios


b) Mínimos Cuadrados Ponderados
c) Mínimos Cuadrados Generalizados

47
Regresión lineal
Dados N valores de dos v.a. X y Y.
Suponemos que:
1. X es una variable independiente
2. Y depende de X en forma lineal
Modelo lineal:
Donde Y= 0 + 1 X
yi =  0 + 1 xi + ei , i =1,...,N
0 , 1 − son los parámetros del modelo
ei − errores o residuos del modelo

48
Regresión lineal
• Condiciones que deben cumplir los residuos

E ei  = 0, (valor esperado cero)


Var ei  =  e2 , (varianza constante)
Cov ei , e j  = 0, i  j , (no correlacionados)
e N ( 0,  e2 ) , (distribución normal)

49
Mínimos Cuadrados Ordinarios (MCO)
• Mínimos Cuadrados Ordinarios consiste en hallar los parámetros
del modelo de manera que la suma de los cuadrados de los errores
sea mínima.

( )
N N N 2
SCR =  e =  yi − yˆi  =  yi − ˆ0 + ˆ1xi 
2 2

i =1
i
i =1 i =1
 

• Sistema de ecuaciones a resolver


SCR SCR
= 0, =0
 0 1

50
Mínimos Cuadrados Ordinarios (MCO)
Coeficiente de determinación R2
• Para los modelos lineales
1. Mide el grado de la bondad del ajuste

1. Es igual al coeficiente de correlación

1. Representa la proporción de varianza explicada por la regresión


lineal.

51
Mínimos Cuadrados Ordinarios (MCO)
Criterios de la bondad del ajuste

• Si R21, el ajuste es bueno (Y se puede calcular de modo bastante


aproximado a partir de X y viceversa).
• Si R20, las variables X y Y no están relacionadas (linealmente al
menos), por tanto no tiene sentido hacer un ajuste lineal.
• Sin embargo no es seguro que las dos variables no posean ninguna
relación en el caso r=0, ya que si bien el ajuste lineal puede no ser
procedente, tal vez otro tipo de ajuste sí lo sea.

52
Regresión lineal
Antes de transformar

53
Análisis de Residuos
Antes de transformar Estadísticas Valor
No_muestras 532
Minimo -20.028
Cuartil_1er -3.363
Mediana -0.252
Media -0.0035
Cuartil_3er 1.905
Maximo 47.892
Rango 67.92
Rango_Intercuartil 5.268
Varianza 37.5032
Desv_Estandar 6.124
Simetria 2.0793
Curtosis 14.4913

53
Regresión lineal
Después de transformar

Valores atípicos

54
Regresión lineal
Después de transformar y sin valores atípicos

54
Análisis de Residuos
Después de transformar y sin valores atípicos Estadísticas Valor
No_muestras 504
Minimo -5.2963
Cuartil_1er -0.9879
Mediana 0.0684
Media -0.0012
Cuartil_3er 1.0689
Maximo 3.1917
Rango 8.4879
Rango_Intercuartil 2.0569
Varianza 2.1834
Desv_Estandar 1.4776
Simetria -0.423
Curtosis 3.258

54
Análisis de los residuos
Antes de transformar

59
Análisis de los residuos
Después de transformar

60
Gracias por su atención

También podría gustarte