Analisis Exploratorio de Datos

GEOESTADÍSTICA APLICADA A LA ESTIMACIÓN DE RECURSOS MINERALES
Tema: Análisis Exploratorio de Datos

Instructores:
Dr. Martín A. Díaz Viera (mdiazv64@gmail.com)

MSc. Heber Hernández Guerra (heber@nubeminera.cl)
Dr. Ricardo Casar González (rcasar@yahoo.com.mx)
MSc. Van Huong Le (levanhuong15011989@gmail.com)
2021
WWW.NUBEMINERA.CL
Análisis Exploratorio de Datos
• ¿Qué es el AED?
• Importancia del AED
• Etapas de cualquier AED
• Herramientas del AED
• Estadística univariada
• Estadística bivariada
• Estadística multivariada
• Regresión lineal y mínimos cuadrados
1
Análisis
Exploratorio
de Datos
1
¿Qué es el AED?
Es un conjunto de técnicas estadísticas y gráficas que permiten establecer un
buen entendimiento básico del comportamiento de los datos y de las
relaciones existentes entre las variables que se estudian.
En el contexto de la estimación de recursos minerales, nos permite establecer

las distribuciones estadísticas y espaciales en función de los atributos
geológicos (mineralización, alteración, litología, etc) que controlan las leyes
de los minerales.
2
Importancia del AED
• El AED es un paso previo e indispensable para la aplicación exitosa de
cualquier método estadístico.
• En particular permite la detección de fallos en el diseño y toma de datos,

el tratamiento y/o la evaluación de datos ausentes, la identificación de
valores atípicos y la comprobación de los supuestos requeridos por parte
de las técnicas geoestadísticas.
• Permite aumentar el conocimiento geológico y facilitar una elección

informada de los atributos geológicos a modelar, criterios de
agrupamiento, criterios de modelamiento y para la elección de
parámetros de la estimación de recursos
3
Etapas de un AED
1. Realizar un examen gráfico de la naturaleza de las variables individuales y un análisis
descriptivo numérico que permita cuantificar algunos aspectos gráficos de los datos.
2. Realizar un examen gráfico de las relaciones entre las variables y un análisis descriptivo
numérico que cuantifique el grado de interrelación existente entre ellas.
3. Evaluar algunos supuestos básicos subyacentes a muchas técnicas estadísticas, por ejemplo,
normalidad, linealidad y homocedasticidad.
4. Identificar los posibles valores atípicos (outliers) y evaluar el impacto potencial que puedan
ejercer en análisis estadísticos posteriores.
5. Evaluar, el impacto potencial que pueden tener los datos ausentes (missing) sobre la
representatividad de los datos analizados.
4
Herramientas del AED
1. Estadística univariada
2. Estadística multivariada
3. Regresión lineal y mínimos cuadrados
6
Estadística univariada
Variable Aleatoria (V.A.): Es una variable Z que puede tomar una serie
de valores o realizaciones (zi) cada una de las cuales tienen asociadas
una probabilidad de ocurrencia (pi).
• Ejemplo: Al lanzar un dado puede resultar {1, 2, 3, 4, 5 o 6} con una

probabilidad de ocurrencia igual a 1/6.
• Las probabilidades cumplen las condiciones:
a) pi  0, i b) p
i
i =1
7
Estadística
Univariada
1
1
1. Variable Aleatoria Discreta: cuando el número de
ocurrencias es finito o contable, se conoce como
variable aleatoria discreta.
• Ejemplo: Tipos de roca en un yacimiento.
2
2. Variable Aleatoria Continua: si el número de
ocurrencias posibles es infinito.
• Ejemplo: la concentración de cobre (Cu) en la roca
en el intervalo [0,100%].
8
Función de Distribución de Probabilidad (FDP)
La FDP caracteriza completamente a la VA.
Se define como:
F ( z) = Pr Z  z 0,1
Su gráfica es el histograma acumulativo
9
Función de Densidad de Probabilidad (fdp).
dF ( z )
Se define como: f ( z) =
Su gráfica es el histograma. dz
10
Percentiles o cuantiles de una distribución .
• El percentil de una distribución F(z) es el valor zp de la V.A. que
corresponde a un valor p de probabilidad acumulada, es decir:
F (zp ) = p
• Si existe la función inversa se puede expresar como:
−1
z p = F ( p)
11
Algunos cuantiles de interés:
• Mediana, p=0.5 M = F −1 (0.5)

• Cuartiles
• (primer cuartil o inferior) p=0.25 z0.25 = F −1 (0.25)
• (tercer cuartil o superior) p=0.75 z0.75 = F −1 (0.75)
• Rango o intervalo intercuartil (IR)  z0.25 , z0.75 
12
Ejemplo de cuartiles y rango intercuartil
13
Valor esperado o esperanza matemática de una VA.
Es el valor más probable que puede tomar una VA. Se conoce también como valor medio
o media. Se define como:
+ +
m = E Z  =  zdF ( z) =  zf ( z)dz
− −
Se calcula como el promedio de todas las observaciones de la variable Z
N
1
m=
N
z i =1
i
Es muy sensible a los valores atípicos (outliers)
14
• Momento de orden r de una FDP

+ +
mr = E  Z r  =
−
 z r dF ( z ) =  z r f ( z )dz
−
• Momento centrado de orden r de una FDP
+ +
r = E ( Z − m )  =  ( z − m) dF ( z) =  ( z − m ) f ( z)dz
r r r
 
− −
15
Varianza de una VA (2do momento centrado)
 = Var  Z  = E ( Z − m )   0

2 2
• Se define como  
• Y caracteriza la dispersión de la distribución alrededor de la media.
N
1
 =  ( zi − m )
2 2
• Se calcula como
N − 1 i =1
16
Distribución Normal o Gaussiana.
• Esta distribución está completamente caracterizada por
sus dos parámetros: media y varianza y se designa
mediante
• La fdp normal o Gaussina está dada por: N ( m,  2 )
1  1  z − m 2 
g ( z) = exp  −   
 2  2    
• Es simétrica respecto a la media
17
Ejemplos de distribuciones Gaussianas
18
Distribución LogNormal
• Una VA positiva Y se dice que tiene una distribución lognormal si su
logaritmo ln(Y) esta normalmente distribuido.
Y  0 → log N ( m,  2 ) , si X = ln Y → N ( ,  2 )
• Muchas distribuciones experimentales en Ciencias de la Tierra

tienden a ser asimétricas y la mayoría de las variables toman valores
no negativos.
19
Ejemplos de distribuciones Lognormales
20
• Desviación Estándar  = Var  Z 
• Coeficiente de variación (dispersión relativa) CV =  / m

3
• Coeficiente de simetría (medida de la simetría) 1 = 3/ 2
2
4
• Coeficiente de curtosis (medida del achatamiento)  2 = 2 − 3
2
21
Simetría y Curtosis de una distribución
22
BOX PLOT
23
BOX PLOT
24
Histograma (Ley de cobre) Estadística Valor
No_muestras 532
Minimo 0.17
Cuartil_1er 0.56
Mediana 0.945
Media 1.1366
Cuartil_3er 1.4
Maximo 6.9
Rango 6.73
Rango_Intercuartil 0.84
Varianza 0.8053
Desv_Estandar 0.89738
Simetria 2.99332
Curtosis 16.20216
25
Transformación raiz cuadrada Estadística Valor
No_muestras 532
Minimo 0.4123
Cuartil_1er 0.7483
Mediana 0.9721
Media 1.0067
Cuartil_3er 1.1832
Maximo 2.6268
Rango 2.2145
Varianza 0.1233
Simetria 1.2992
Curtosis 6.221
25
Transformación logarítmica Estadística Valor
No_muestras 532
Minimo -9.2103
Cuartil_1er -2.0441
Mediana 0.0271
Media -0.5712
Cuartil_3er 1.5009
Maximo 4.2464
Rango 13.4567
Varianza 8.7983
Simetria -1.1775
Curtosis 4.5141
25
Con valores atípicos (outliers)
No_muestras 200
Minimo 58.2
Cuartil_1er 82.25
Mediana 97.85
Media 108.9925
Cuartil_3er 110.325
Maximo 1499
Rango 1440.8
Varianza 14873.08823
Simetria 9.92162
Curtosis 104.73871
30
Sin valores atípicos (outliers)
No_muestras 196
Minimo 58.2
Cuartil_1er 82
Mediana 97.5
Media 96.3265
Cuartil_3er 110
Maximo 140.2
Rango 82
Rango_Intercuartil 28
Varianza 319.7503
Simetria 0.0291
Curtosis 2.3889
31
Transformación logarítmica sin outliers Estadísticas Valor
No_muestras 526
Minimo -1.772
Cuartil_1er -0.5798
Mediana -0.0672
Media -0.12
Cuartil_3er 0.3221
Maximo 1.6658
Rango 3.4378
Varianza 0.4027
Simetria -0.0911
Curtosis 2.5609
25
Estadística univariada Estadística Valor
Valores atípicos? No_muestras 46
Minimo 0.49
Cuartil_1er 0.77
Mediana 1.05
Media 1.15
Cuartil_3er 1.25
Maximo 2.94
¿valores atípicos? Rango 2.45
Varianza 0.30
Desv_Estandar 0.54
Simetria 1.50
Curtosis 5.07
25
Después de eliminar los valores atípicos Estadística Valor
No_muestras 42
Minimo 0.49
Cuartil_1er 0.75
Mediana 1.00
Media 1.03
¿nuevos Cuartil_3er 1.20
valores
Maximo 1.93
atípicos?
Rango 1.44
Varianza 0.12
Desv_Estandar 0.35
Simetria 0.76
Curtosis 3.22
33
Estadística
Bivariada
1
Estadística bivariada
• Hasta el momento, sólo hemos considerado a las variables
aleatorias por separado, sin que exista ninguna interrelación
entre éstas.
• En muchos campos de aplicación y en particular, en las Ciencias

de la Tierra, es frecuentemente más importante conocer el
patrón de dependencia que relaciona a una variable aleatoria X
con otra variable aleatoria Y.
• Por lo que le dedicaremos especial atención al análisis conjunto

de dos variables aleatorias, conocido como análisis bivariado.
35
Función de Distribución de Probabilidad Bivariada
• La distribución de probabilidad conjunta de un par de variables

aleatorias X y Y se define como:
FXY ( x, y) = Pr  X  x, Y  y
• En la práctica se estima mediante la proporción de pares de valores
de X y Y que se encuentran por debajo del umbral x, y
respectivamente.
36
Diagrama de Dispersión (Scattergram)
• El equivalente bivariado del histograma es
el diagrama de dispersión o scattergram,
donde cada par (xi, yi) es un punto.
• El grado de dependencia entre dos

variables aleatorias X y Y puede ser
caracterizado por el diagrama de
dispersión alrededor de cualquier línea de
regresión.
sCu(%): Cobre soluble

tCu(%): Cobre total
37
• Covarianza
• Se define la covarianza de manera análoga a los
momentos centrales univariados, como
• Se calcula como
Cov ( X , Y ) =  XY = E ( X − mX )(Y − mY )
1 N 1 N
 XY =  ( xi − mX )( yi − mY ) =  xi yi − mX mY
N i =1 N i =1
38
Semivariograma
• Es el momento de inercia del diagrama de dispersión con
respecto a una línea con pendiente de 45o y se define
como
N N
1 1
 XY = d  =  x − y 
2 2
i i i
N i =1 2N i =1
• Permite caracterizar la carencia de dependencia
39
y
Semivariograma
x
Mientras mayor sea el

valor del semivariograma
xi − yi más dispersos estarán los
di
valores en el diagrama de
yi x dispersión y menor será
( xi , yi ) la dependencia entre las
dos variables aleatorias.
45 x
x x
xi
40
Coeficiente de correlación lineal de Pearson
• Se define como:
 XY Cov  X , Y 
 XY = =   −1,1
 XY Var  X Var Y 
• Caracteriza el grado de dependencia lineal o correlación

entre dos variables aleatorias.
• Por ejemplo si Y=aX+b, entonces se cumple que:
 1, para a  0
 XY = 
−1, para a  0
41
Coeficiente de correlación de rango de Spearman
• Se define como:
Para calcular ρ, las parejas de datos X y Y se ordenan y son

reemplazados por su respectivo orden
donde D es la diferencia X - Y entre los estadísticos de orden y N es el
número de parejas de datos.
• Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas
respectivamente, cero, significa no correlación pero no independencia.
• Es menos sensible a los valores atípicos que el coeficiente de Pearson.
42
Coeficiente de correlación de rango de Kendall
• Se define como:
• Un par es concordante si el orden de ambos está de acuerdo de lo

contrario se dice que son discordantes.
• Si X y Y son independientes, entonces esperaríamos que el coeficiente sea
aproximadamente cero.
• Es menos sensible a los valores atípicos que el coeficiente de Pearson.
43
Sin transformar
Coeficiente de correlación=0.7761
44
Después de transformar
Click to add text
Valores atípicos
45
Después de transformar y sin valores atípicos
45
Estadística
Multivariada
1
Estadística multivariada
Existen muchas técnicas multivariadas:
• Análisis de Regresión
• Análisis de Conglomerados
• Análisis de Componentes Principales
• Análisis Factorial
• Análisis Discriminante, etc
46
Regresión
Lineal y
Mínimos Cuadrados
1
Regresión lineal
• La regresión trata de establecer relaciones funcionales entre
variables aleatorias.
• En particular la regresión lineal consiste en establecer una relación
descrita mediante una recta.
• Los modelos de regresión nos permiten hacer predicciones o
pronósticos a partir del modelo establecido.
• El método que se emplea para estimar los parámetros del modelo
de regresión es el de los Mínimos Cuadrados
47
Mínimos cuadrados
• El método que se emplea para estimar los parámetros del modelo
de regresión es el de los Mínimos Cuadrados
• Existen diferentes métodos de Mínimos Cuadrados:
a) Mínimos Cuadrados Ordinarios

b) Mínimos Cuadrados Ponderados
c) Mínimos Cuadrados Generalizados
47
Regresión lineal
Dados N valores de dos v.a. X y Y.
Suponemos que:
1. X es una variable independiente
2. Y depende de X en forma lineal
Modelo lineal:
Donde Y= 0 + 1 X
yi =  0 + 1 xi + ei , i =1,...,N
0 , 1 − son los parámetros del modelo
ei − errores o residuos del modelo
48
Regresión lineal
• Condiciones que deben cumplir los residuos
E ei  = 0, (valor esperado cero)

Var ei  =  e2 , (varianza constante)
Cov ei , e j  = 0, i  j , (no correlacionados)
e N ( 0,  e2 ) , (distribución normal)
49
Mínimos Cuadrados Ordinarios (MCO)
• Mínimos Cuadrados Ordinarios consiste en hallar los parámetros
del modelo de manera que la suma de los cuadrados de los errores
sea mínima.
( )
N N N 2
SCR =  e =  yi − yˆi  =  yi − ˆ0 + ˆ1xi 
2 2
i =1
i
i =1 i =1
 
• Sistema de ecuaciones a resolver

SCR SCR
= 0, =0
 0 1
50
Coeficiente de determinación R2
• Para los modelos lineales
1. Mide el grado de la bondad del ajuste
1. Es igual al coeficiente de correlación
1. Representa la proporción de varianza explicada por la regresión

lineal.
51
Criterios de la bondad del ajuste
• Si R21, el ajuste es bueno (Y se puede calcular de modo bastante

aproximado a partir de X y viceversa).
• Si R20, las variables X y Y no están relacionadas (linealmente al
menos), por tanto no tiene sentido hacer un ajuste lineal.
• Sin embargo no es seguro que las dos variables no posean ninguna
relación en el caso r=0, ya que si bien el ajuste lineal puede no ser
procedente, tal vez otro tipo de ajuste sí lo sea.
52
Regresión lineal
Antes de transformar
53
Análisis de Residuos
Antes de transformar Estadísticas Valor
No_muestras 532
Minimo -20.028
Cuartil_1er -3.363
Mediana -0.252
Media -0.0035
Cuartil_3er 1.905
Maximo 47.892
Rango 67.92
Varianza 37.5032
Desv_Estandar 6.124
Simetria 2.0793
Curtosis 14.4913
53
Regresión lineal
Valores atípicos
54
Regresión lineal
Después de transformar y sin valores atípicos
54
Análisis de Residuos
Después de transformar y sin valores atípicos Estadísticas Valor
No_muestras 504
Minimo -5.2963
Cuartil_1er -0.9879
Mediana 0.0684
Media -0.0012
Cuartil_3er 1.0689
Maximo 3.1917
Rango 8.4879
Varianza 2.1834
Simetria -0.423
Curtosis 3.258
54
Análisis de los residuos
Antes de transformar
59
Análisis de los residuos
60
Gracias por su atención

Analisis Exploratorio de Datos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analisis Exploratorio de Datos

Cargado por

Copyright:

Formatos disponibles

GEOESTADÍSTICA APLICADA A LA ESTIMACIÓN DE RECURSOS MINERALES

Tema: Análisis Exploratorio de Datos

Dr. Martín A. Díaz Viera (mdiazv64@gmail.com)

En el contexto de la estimación de recursos minerales, nos permite establecer

• En particular permite la detección de fallos en el diseño y toma de datos,

• Permite aumentar el conocimiento geológico y facilitar una elección

3. Regresión lineal y mínimos cuadrados

• Ejemplo: Al lanzar un dado puede resultar {1, 2, 3, 4, 5 o 6} con una

• Si existe la función inversa se puede expresar como:

• Mediana, p=0.5 M = F −1 (0.5)

• (tercer cuartil o superior) p=0.75 z0.75 = F −1 (0.75)

• Rango o intervalo intercuartil (IR)  z0.25 , z0.75 

Es muy sensible a los valores atípicos (outliers)

• Momento de orden r de una FDP

• Momento centrado de orden r de una FDP

• Es simétrica respecto a la media

• Muchas distribuciones experimentales en Ciencias de la Tierra

• Coeficiente de variación (dispersión relativa) CV =  / m

• En muchos campos de aplicación y en particular, en las Ciencias

• Por lo que le dedicaremos especial atención al análisis conjunto

• La distribución de probabilidad conjunta de un par de variables

• El grado de dependencia entre dos

sCu(%): Cobre soluble

• Permite caracterizar la carencia de dependencia

Mientras mayor sea el

• Caracteriza el grado de dependencia lineal o correlación

Para calcular ρ, las parejas de datos X y Y se ordenan y son

• Un par es concordante si el orden de ambos está de acuerdo de lo

Click to add text

• Existen diferentes métodos de Mínimos Cuadrados:

a) Mínimos Cuadrados Ordinarios

E ei  = 0, (valor esperado cero)

• Sistema de ecuaciones a resolver

1. Es igual al coeficiente de correlación

1. Representa la proporción de varianza explicada por la regresión

• Si R21, el ajuste es bueno (Y se puede calcular de modo bastante

También podría gustarte