Está en la página 1de 40

Universidad de Chile

Facultad de Ciencias Físicas y Matemáticas

Departamento de Ingeniería de Minas


Laboratorio ALGES

Estudio exploratorio para


datos multivariables

Xavier Emery, Sebastián Pizarro M


ALGES
Estudio exploratorio para datos multivariables

ÍNDICE

0. INTRODUCCIÓN ................................
................................................................................................................................
.................................. 4
1. OBJETIVOS ................................
................................................................................................................................
.......................................... 5
2. ESTUDIO UNIVARIABLE ................................
................................................................................................
....................................................... 6
2.1. HISTOGRAMAS ................................
................................................................................................................................
..................................... 6
2.1.1. Histogramas de frecuencias (estándar) ................................................................
...................................................... 6
2.1.2. Histograma acumulado ................................................................................................
.............................................. 7
2.2. ESTADÍSTICAS BÁSICAS ................................
...........................................................................................................................
........................... 7
2.2.1. Medidas de Posición ................................................................................................
................................................... 7
2.2.2. Medidas de Dispersión ................................................................................................
................................................ 8
2.2.3. Medidas de Forma ................................
................................................................................................
...................................................... 9
2.3. DIAGRAMA DE CAJA (BOX PLOT) ................................................................................................
........................................... 10
2.4. CURVAS TONELAJE-LEY................................
........................................................................................................................
........................ 11
2.5. GRÁFICOS DE PROBABILIDAD DAD NORMAL Y LOG-NORMAL................................................................
.............................................. 12
3. ESTUDIO BIVARIABLE ................................
........................................................................................................................
........................ 14
3.1. GRÁFICO DE CUANTILES CONT
CONTRA CUANTILES (Q-Q PLOT) ................................................................
........................................... 14
3.2. GRÁFICO DE DISPERSIÓN O NUBE DE CORRELACIÓ
CORRELACIÓN (SCATTERPLOT) ..............................................................
.............................. 16
3.3. COEFICIENTE DE CORRELACIÓN
ACIÓN LINEAL (DE PEARSON) ................................................................
................................................ 17
3.4. COEFICIENTE DE CORRELACIÓN
ACIÓN DE RANGOS (DE SPEARMAN) ................................................................
....................................... 18
3.5. REGRESIÓN LINEAL ................................
.............................................................................................................................
............................. 19
3.6. REGRESIÓN POLINOMIAL ................................
................................................................................................
...................................................... 20
3.7. GRÁFICOS O CURVAS DE PROPORCIÓN................................................................................................
..................................... 21
4. ESTUDIO MULTIVARIABLE................................
................................................................................................
................................................. 22
4.1. MATRIZ DE CORRELACIÓN ................................
................................................................................................
.................................................... 22
4.2. REGRESIÓN MULTILINEAL................................
................................................................................................
..................................................... 23
4.3. ANÁLISIS EN COMPONENTES PRINCIPALES (ACP)................................................................
...................................................... 23
4.4. ANÁLISIS DISCRIMINANTE ................................
................................................................................................
.................................................... 24
4.5. OTRAS TÉCNICAS DE ANÁLISIS
LISIS MULTIVARIABLE DE DATOS ................................................................
............................................ 25
4.5.1. Análisis canónico ................................
................................................................................................
...................................................... 25
4.5.2. Análisis de correspondencias ................................................................................................
.................................... 25
4.5.3. Análisis de correspondencias múltiples ................................................................
.................................................... 26
4.5.4. Técnicas de agrupamiento ................................................................................................
........................................ 26
5. ESTUDIO ESPACIAL................................
............................................................................................................................
............................ 27
5.1. MAPAS................................
................................................................................................................................
............................................. 27
5.2. TIPOS DE MUESTREO ................................
...........................................................................................................................
........................... 29
5.3. NUBES DIRECCIONALES ................................
........................................................................................................................
........................ 30
5.4. GRÁFICO DE DERIVA ................................
............................................................................................................................
............................ 30
5.5. GRÁFICO DE MEDIA VS. DESVIACIÓN ESTÁNDAR ........................................................................................
........................ 31
5.6. NUBE DE CORRELACIÓN DIFERIDA IFERIDA ................................................................................................
.......................................... 32
5.7. ANÁLISIS DE CONTACTO ................................
.......................................................................................................................
....................... 33
5.8. MATRIZ DE TRANSICIONES ................................
................................................................................................
.................................................... 34
6. CALIDAD DE LOS DATOS................................
................................................................................................
.................................................... 35

Xavier Emery, Sebastián Pizarro M


2
ALGES
Estudio exploratorio para datos multivariables

6.1. SOPORTE DE LOS DATOS ................................


................................................................................................
...................................................... 35
6.2. DESAGRUPAMIENTO ................................
...........................................................................................................................
........................... 36
6.3. DATOS ATÍPICOS ................................
................................................................................................................................
................................. 39
6.4. DATOS DUPLICADOS ................................
............................................................................................................................
............................ 40
7. BIBLIOGRAFÍA ................................
................................................................................................................................
................................... 40

Xavier Emery, Sebastián Pizarro M


3
ALGES
Estudio exploratorio para datos multivariables

0. Introducción
El estudio exploratorio se enfoca en analizar los datos desde todos sus ángulos, desde la
estadística, pasando por el comportamiento espacial, hasta las dependencias entre variables.
Esta disciplina es la base de cualquier
ualquier estudio geoestadístico o relativo a la evaluación de
yacimientos, puesto que permite familiarizarse con la base de datos con la cual modelar un
yacimiento,, validar esta base de datos y decidir qué datos, variables y dominios considerar.
considerar
El estudio exploratorio puede ser muy versátil
versátil. See puede usar bajo el prisma del número de
variables (univariable, bivariable, multivariable), de los objetivos a los cuales apunta (por
(
ejemplo, definir zonas de estudio, analizar naturaleza de los datos con sus estadísticas,
estad etc.)
o de las mismas herramientas que se pued
pueden ocupar.
Este informe presenta las principales herramientas del estudio exploratorio de datos.
datos Para
dar un orden a la presentación se definirán
irán conceptos y herramientas basado en la cantidad
de variables
bles de estudio: univariable, bivariable y multivariable
multivariable;; luego se presentarán
herramientas de análisis espacial y herramientas para estudiar la calidad y representatividad
de los datos.

Xavier Emery, Sebastián Pizarro M


4
ALGES
Estudio exploratorio para datos multivariables

1. Objetivos
i. Estudiar la cantidad, calidad y ubicación de los datos disponibles para analizar una o
varias variables regionalizadas
regionalizadas. En particular, se puede examinar los tipos de datos,
fuentes de información, soportes volumétricos, naturaleza de las variables
disponibles, malla de muestreo, estadísticas univ
univariables
ariables y multivariables.

ii. Definir la(s) zona(s) de estudio


• Modelar las fronteras
ronteras entre zonas
zonas.
• Análisis
nálisis de contacto entre zonas contiguas, para determinar si la transición de
valores entre zonas es abrupta (frontera dura) o gradual (frontera blanda).
blanda)

iii. Definir los datos y variables a utilizar


• Soporte volumétrico, por ejemplo, tamaño de compósitos
• Selección
elección de datos válidos
• Definición de variables
ariables relevantes

iv. Detectar dificultades o problemas en los datos:


• Datos erróneos o inconsistentes (por ejemplo, ley
leyes
es negativas o mayores que
100%, leyes de cobre soluble mayores que las leyes de cobre total, etc.)
• Datos
atos extremos o atípicos
• Datos
atos bajo el límite de detección
• Datos repetidos o ubicados en la misma posición espacial
• Datos
atos mal posicionados
• Datos ausentes (variables
variables sub
sub-muestreadas)
• Muestreo
uestreo preferencial
• Dominios
ominios o unidades geológicas
geológicas:: incertidumbre en las fronteras, consistencia
del modelo de unidades geológicas con los datos disponibles
• Relaciones
elaciones entre variables
• Consistencias
onsistencias entre distintas fuentes de in
información,, por ejemplo, sondajes de
exploración y pozos de tronadura
• Derivas o tendencias sistemáticas en la variación espacial
• Efecto proporcional: mayor dispersión en sectores de valores altos.

Xavier Emery, Sebastián Pizarro M


5
ALGES
Estudio exploratorio para datos multivariables

2. Estudio Univariable

En el ámbito univariable, el estudio exploratorio entrega información sobre la distribución


estadística de los datos de una variable de interés
interés.

2.1. Histogramas
Los histogramas son útiles para detectar valores atípicos (outliers),), buscar comportamiento
bimodal o multimodal (indicando
indicando una posible mezcla de dos o más poblaciones de datos)
dat y
ver la distribución de los valores (rango, forma, simetría, etc
etc.), entre otros.

2.1.1. Histogramas de frecuencias (estándar)


Permite observar la frecuencia ((o la cantidad de datos) de la variable en clases,
clases en general
definidas como intervalos de mismo tamaño referentes al valor de la variable..

Figura 1, Ejemplo de histograma de frecuencia

Xavier Emery, Sebastián Pizarro M


6
ALGES
Estudio exploratorio para datos multivariables

2.1.2. Histograma acumulado


cumulado
Entrega información de qué fracción de datos est
está bajo un cierto valor de la variable.
vari Se
obtiene una curva no decreciente, con valor nulo para el mínimo de la variable, y valor
igual a 1 para el máximo.

Figura 2, Ejemplo de histograma acumulado

2.2. Estadísticas básicas


2.2.1. Medidas de Posición

2.2.1.1. Media
Es la suma simplee de los datos de la variable dividida por el número de sumandos.
sumandos
See debe tener consideración que la media es sensible a valores extremos,
extremos hecho que
puede hacerla poco robusta
robusta.

2.2.1.2. Cuantiles
Los cuantiles se definen al ordenar los datos según sus valores, luego particionarlos
particiona
en grupos con el mismo número de datos. Los cuantiles generalmente usados son la
mediana, los cuartiles, quintiles y deciles, que dividen a la muestra en dos, cuatro,
cinco y diez partes,, respectivamente
respectivamente.

Xavier Emery, Sebastián Pizarro M


7
ALGES
Estudio exploratorio para datos multivariables

2.2.1.3. Mínimo/Máximo
Son los valores extremos
xtremos que toma la variable en la muestra. Son eesenciales
senciales para
determinar (en conjunto con otras medidas de dispersión y posición) datos atípicos.
at

2.2.1.4. Moda
Es el valor que posee más frecuencia (se repite más veces) de la variable.
variable En caso de
que haya más de un valor con la misma frecuencia se habla de distribuciones
multimodales. Si todos los datos tienen la misma frecuencia se dice que la
distribución no tiene moda.

2.2.2. Medidas de Dispersión

2.2.2.1. Varianza y Desviación Estándar


La varianza es la media de las difere
diferencias
ncias cuadráticas entre los valores de una
variable y la media de esta variable; su unidad es el cuadrado de la unidad de la
variable. La desviación estándar es la raíz cuadrada de la varianza y se define en la
misma unidad que la variable.

2.2.2.1. Momentos centr


centrados
El momento centrado de orden n es la media de las diferencias, elevadas a la
potencia n,, entre los valores de una variable y la media de esta variable. Como caso
particular, la varianza es el momento centrado de segundo orden.

2.2.2.2. Coeficiente de Variació


Variación (de Pearson)
Es otra medida de dispersión que se expresa como la desviación estándar dividida
por la media. Sirve para tener una medida adimensional y a escala de la variación de
la variable para eventualment
eventualmente poder compararla con otra.

2.2.2.3. Rango
Es la restaa entre el valor máximo y el mínimo de la variable.

2.2.2.4. Rango Intercuartil


Es la resta entre el valor del 3º cuartil (valor hasta el cual se contabiliza el 75% de
los datos) y el 1º cuartil (valor hasta el cual se contabiliza el 25% de los datos).

Xavier Emery, Sebastián Pizarro M


8
ALGES
Estudio exploratorio para datos multivariables

2.2.3. Medidas de Forma

2.2.3.1. Asimetría (Sk


(Skewness)
Se entiende como asimetr
asimetría a la tendencia del desequilibrio
quilibrio del centro de la
distribución (dado por el valor medio). Se define asimetría positiva si la forma de la
distribución es cargada a valores inferiores a la media y nega
negativa si está cargada a
valores superiores a la media.
El coeficiente de asimetría de Fisher se define en base al momento centrado de
tercer orden de la variable. Ess positivo para distribuciones con asimetría positiva,
negativo para distribuciones con asime
asimetría
tría negativa, y nulo para distribuciones
simétricas.

Figura 3, Tipos de Asimetría

2.2.3.2. Aplanamiento o apuntamiento (curtosis)


Analiza
naliza el grado de concentración que presentan llos
os valores alrededor de la zona
central de la distribució
distribución. Cualitativamente se definen tres tipos de distribuciones
stribuciones
según su grado de curtosis:
urtosis:

• Distribución mesocúrtica
mesocúrtica:: presenta un grado de concentración medio
alrededor de los valores centrales de la variable (el mismo que presenta una
distribución normal).

• Distribución leptocúrtica
leptocúrtica:: presenta un elevado grado de concentración
alrededor de los valores centrales de la variable.

• Distribución platicúrtica
platicúrtica:: presenta un reducido grado de concentración
alrededor de los valores centrales de la variable.

Xavier Emery, Sebastián Pizarro M


9
ALGES
Estudio exploratorio para datos multivariables

Figura 4, Tipos de curtosis

El coeficiente de curtosis o coeficiente de apuntamiento se define en base al momento


centrado de cuarto orden de la variable. Este coeficiente es mayor que 3 para
distribuciones leptocúrticas, menor que 3 para distribuciones platicúrticas, e igual a 3
para distribuciones mesocúrticas (caso de las distribuciones normales).

2.3. Diagrama de caja ((Box Plot)


Permite resumir algunas características de la distribución de una variable,, tal como su
simetría y su dispersión,, en un gráfico de una dimensión. A continuación se presenta cómo
c
leer un diagrama de caja y su comparación con un histograma estándar:

Figura 5,, Contraste entre un Boxplot y un Histograma estándar

Una aplicación del diagrama dde caja es estudiar una misma variable en diferentes
diferente
categorías, para comparar sus distribuciones según las categorías,, por ejemplo leyes de
cobre entre pozos de tronadura, sondajes de aire reverso y de diamantina óó, como en el
siguiente gráfico, leyes de sílice
ílice en diferentes unidades geológicas:

Xavier Emery, Sebastián Pizarro M


10
ALGES
Estudio exploratorio para datos multivariables

50

40

Ley de SiO2 [%]


30

20

10
UG1 UG2 UG3
Unidades Geológicas
Figura 6,, Ejemplo de gráfico de Box Plot para leyes de SiO2 en diferentes unidades geológicas.
geológicas

2.4. Curvas Tonelaje


Tonelaje-Ley
Para un determinado valor umbral o ley de corte, la fracción de tonelajee es la proporción
(entre 0 y 1) de datos cuyos valores superan dicha ley de corte, mientras que la ley media es
el promedio de los valores de datos que superan la ley de corte. Al hacer variar la ley de
corte, se obtiene una curva decreciente para el tone
tonelaje
laje y creciente para la ley media.

Figura 7,, Curvas tonelaje


tonelaje-ley para mineral de cobre. La variable es
la ley de cobre y el valor umbral se conoce como ley de corte.

Xavier Emery, Sebastián Pizarro M


11
ALGES
Estudio exploratorio para datos multivariables

2.5. Gráficos de probabilidad Normal y Log


Log-Normal
Sirven para comparar
mparar una distribución experimental con una distribución de referencia que
es normal o lognormal. En caso de identidad con una distribución normal o lognormal, el
gráfico de probabilidad dibuja una recta. El gráfico de probabilidad normal modifica el eje
de ordenada del histograma acumulado, dejando una escala no aritmética para la frecuencia
acumulada. El gráfico de probabilidad lognormal modifica también el eje de abscisa (valor
de la variable), usando una escala logarítmica.

Figura 8, Ejemplo de gráfico de probabilidad normal.

Eventuales quiebres en la pendiente del gráfico pueden significar dos o más poblaciones
representativas de la variable.

Figura 9,, En la izquierda se observa el quiebre de pend


pendiente
iente (gráfico de probabilidad lognormal)
y en la derecha las distribuciones representativas.

Xavier Emery, Sebastián Pizarro M


12
ALGES
Estudio exploratorio para datos multivariables

Otra aplicación de los gráficos de probabilidad es la comparación de las distribuciones de


una misma variable en distintas categorías, por ejemplo, tipos de roc
roca.

Figura 10,, Gráficos de probabilidad lognormal para la ley de cobre, según el tipo de roca
(granodiorita GDT, brecha de turmalina BXT, otras brechas OBX)

Xavier Emery, Sebastián Pizarro M


13
ALGES
Estudio exploratorio para datos multivariables

3. Estudio Bivariable
El estudio bivariable posee herramientas con las cuales se puede estudiar el grado de
dependencia entre dos variables y comparar sus distribuciones.

3.1. Gráfico de cuantiles contra cuantiles (Q


(Q-Q Plot)
Este gráfico sirve para diagnostic
sticar diferencias entre dos distribuciones experimentales, o
entre una distribución
ibución experimental y una distribución teórica. Consiste en visualizar los
cuantiles de una distribución en función de los cuantiles de la otra. Cabe destacar que el
Q-Q plot no describe la correlación entre variables, si no que ssólo
lo entrega información
sobre el parentesco de sus distribuci
distribuciones.

Figura 11, Arriba a la izquierda el histograma de una variable de distribución normal


de media 30.05 y de desviación estándar 7.32. Abajo a la derecha el histograma
de la variable a comparar
omparar (MgO). Arriba a la derecha el Q-Q Plot entre ambas variables.

Xavier Emery, Sebastián Pizarro M


14
ALGES
Estudio exploratorio para datos multivariables

Figura 12,, Abajo a la derecha el histograma de la variable SiO2. Arriba a la izquierda el


histograma de la variable MgO. Arriba a la derecha el Q Q-Q Plot entre ambas variables.
variables

En cuanto al análisis e interpretación de este gráfico se puede dar diversas situaciones.


situaciones
El gráfico dibuja una recta:
i. Diagonal a 45º. Las distribuciones son semejantes en valores y forma (Fig. 13
1
arriba).
ii. Paralela a la diagonal. Las distribuciones son semejantes en forma, sin embargo en
valores están desplazadas (hay una relación entre cuantiles de ambas distribuciones)
(Fig. 13 centro).
iii. Inclinada a la diagonal (más o menos pendiente). Las distribuciones son semejantes
semejant
en forma, sin embargo
mbargo su dispersión no es la misma (Fig. 13 abajo).

El gráfico
áfico no dibuja una recta: Las distribuciones no tienen semejanza en la forma.
forma

Xavier Emery, Sebastián Pizarro M


15
ALGES
Estudio exploratorio para datos multivariables

Figura 13,, Comparación de distribuciones de dos variables (V1 y V2).


Abscisa: valor de la variable, ordenada: frecuencia de ocurrencia

3.2. Gráfico de dispersión o nube de correlación (Scatterplot)

En un gráfico de dispersión, los


os datos se muestran como un conjunto de puntos, cada uno
con el valor de una variable que determina la posición en el eeje
je horizontal y el valor de la
otra variable determinado por la posición en el eje vertical. Este gráfico permite
- ver la relación par a par de ambas variables
variables,, en particular, determinar si existe una
relación lineal o no lineal
lineal, si la dispersión es homoscedástica
stica o heteroscedástica,
heterosced o si
existen desigualdades o restricciones entre las variables
- identificar
ntificar un modelo de regresión
- detectar valores atípicos (puntos alejados del resto de la nube)
- detectar posibles mezclas de poblaciones (nube bimodal o multim
multimodal)
odal).

Xavier Emery, Sebastián Pizarro M


16
ALGES
Estudio exploratorio para datos multivariables

Figura 14, Ejemplos de nubes de correlación

3.3. Coeficiente de correlación lineal (de Pearson)


Es un índice que varía entre –11 y 1 de la dependencia lineal (de proporcionalidad) entre dos
variables. Una correlación de 1 o -11 indica variables linealmente dependientes,
dependientes es decir que
difieren por un factor multiplicativo y un factor aditivo
aditivo,, mientras que una correlación nula
indica una ausencia de dependencia lineal entre las variables (esto ocurre, por ejemplo,
cuando las variables
bles son independientes). El coeficiente de correlación es sensible a la
presencia de valores extremos ((outliers) y no detecta relaciones no lineales.

El juicio de si dos variables están significativamente correlacionadas o no puede ser


considerado en análisis
lisis estadístico e inferencia estadística de los datos (como test de
hipótesis y aplicación de intervalos de confianza sobre el coeficiente de correlación).

Xavier Emery, Sebastián Pizarro M


17
ALGES
Estudio exploratorio para datos multivariables

Figura 15,, Ejemplos de dependencias con coeficientes de correlación 1, 0 y -1

3.4. Coeficiente de correlación de rangos (de Spearman)


En estadística, el coeficiente de correlación de Spearman es una medida de la correlación
(la asociación o interdependencia) entre dos variables aleatorias continuas. Para calcularlo,
calcular
los datos son ordenadoss y reemplazados por su respectivo orden.
Ejemplo de construcción con datos de leyes de cobre y oro
oro:
Teniendo las dos columnas (una por variable), se ordenan y se construyen dos columnas de
orden para cada una. Luego se construye D = orden(Cu) – orden(Au) y su cuadrado. El
coeficiente de correlación de rango viene dado por la expresión:

N
6∑ Di2
i =1
ρ = 1− 2
N ( N − 1)

Donde:
Di = diferencia
iferencia numérica de orden entre las variables para el i-ésimo
ésimo dato
N = número de datos.

Xavier Emery, Sebastián Pizarro M


18
ALGES
Estudio exploratorio para datos multivariables

Cu [%] Au [ppm] Orden(Cu) Orden(Au) D D^2 N= 10


0.14 1.39 1 4 -3 9 ρ= 0.78
0.22 0.33 2 1 1 1
0.40 3.80 3 6 -3 9
0.74 0.81 4 3 1 1
1.07 3.64 5 5 0 0
1.14 0.46 6 2 4 16
1.15 5.52 7 7 0 0
1.58 5.69 8 8 0 0
1.83 10.98 9 9 0 0
2.34 12.64 10 10 0 0
SUMA D^2 = 36
Tabla 1, Ejemplo dee cálculo de coeficiente de correlación de Spearman para ley de cobre y ley de oro.

3.5. Regresión Lineal


Se considera la nube de dispersión entre dos variables X e Y de medias mX y mY y
desviaciones estándares σX y σY. La regresión lineal consiste en determinar
ar la recta que
mejor represente la nube de puntos. Su ecuación es:

a = corr ( X , Y ) σ Y / σ X
Yˆ = a X + b con 
b = mY − a m X

Figura 16,, Ejemplo de nube de dispersión y recta de regresión

Xavier Emery, Sebastián Pizarro M


19
ALGES
Estudio exploratorio para datos multivariables

3.6. Regresión polinomial

Es la generalización de la regresión lineal a una curva polinomial de mayor grado, siendo


comunes la cuadrática (n=2),
=2), cúbica ((n=3) o en general polinomial de grado “n”.

Regresión Lineal Regresión Cuadrática


0.190 0.190

0.180 0.180

0.170 0.170
Variable 2

Variable 2
0.160 0.160

0.150 0.150

0.140 0.140

0.130 0.130

0.120 0.120
0.025 0.027 0.029 0.031 0.033 0.035 0.037 0.025 0.027 0.029 0.031 0.033 0.035 0.037

Variable 1 Variable 1

Regresión Cúbica Regresión Polinómica (n = 6)


0.190 0.190

0.180 0.180

0.170 0.170
Variable 2

Variable 2

0.160 0.160

0.150 0.150

0.140 0.140

0.130 0.130

0.120 0.120
0.025 0.027 0.029 0.031 0.033 0.035 0.037 0.025 0.027 0.029 0.031 0.033 0.035 0.037

Variable 1 Variable 1

Figura 17,, Diferentes grados de regresión: lineal (n=1), cuadrática (n=2),


cúbica
úbica ((n=3) y polinomial de grado 6 (n=6)

Xavier Emery, Sebastián Pizarro M


20
ALGES
Estudio exploratorio para datos multivariables

3.7. Gráficos o curvas de proporción

Para una variable categórica, se puede visualizar las proporciones de cada categoría en
función de otra variable dependiente
dependiente.. Dado que las proporciones suman 1, es conveniente
visualizar las proporciones acumuladas.

Presencia de Minerales en Dominios Geológicos


100%
90%
80%
MXL7
Presencia en Dominio

70%
MXL6
60%
50% MXL5

40% MXL4

30% MXL3
20% MXL2
10% MXL1
0%
DOM1 DOM2 DOM3

Dominio Geológico

Figura 18,, Presencia de minerales diferentes en tres dominios geológicos definidos


os

Xavier Emery, Sebastián Pizarro M


21
ALGES
Estudio exploratorio para datos multivariables

Figura 19, Proporciones


roporciones de alteraci
alteración en función de variables geo-metalúrgicas
úrgicas
(SVCP:
SVCP: sericita verde calcopirita; SGV: sericita gris verde; QSP: cuarzo
cuarzo-sericita
sericita
penetrativa; PF: potásico; EDM: early dark micaceous; AS: argílica supérgena
supérgena))

4. Estudio Multivariable
4.1. Matriz de Correlación
En el capítulo bivariable, se ha mencionado el concepto de correlación entre dos variables
usando un coeficiente de correlación
correlación. En la generalización
ción del caso bivariable,
bivariable se construye
una matriz de correlación, la cual entrega información sobre la correlación de dos variables
en la intersección de la variable columna con la variable fila
fila.

Tabla 2,, Matriz de correlación ent


entre 7 variables. Por
or ejemplo el coeficiente de correlación Cu/Pb es de 0.82

Xavier Emery, Sebastián Pizarro M


22
ALGES
Estudio exploratorio para datos multivariables

La matriz de correlación es simétrica


simétrica,, con valores propios positivos o nulos. Su diagonal
tiene “1” dado que corresponde a la correlación de una variable consigo misma.

4.2. Regresión Multilineal


Determina la combinación lineal de varias variables X1, … XM que mejor predice una
variable Y:

Yˆ = a1 X 1 + a2 X 2 + ...aM X M

Notar que si M = 1 (o sea el estudio consta de ssólo dos variables X1 e Y)) se recupera la
definición de regresión lineal vist
vista en el capítulo bivariable.
La calidad de la regresión se puede cuantificar con el coeficiente de determinación múltiple
(R2): este coeficiente, comprendido entre 0 y 1, mide cuánto se explica la variable Y al
utilizar el modelo de regresión con las vari
variables X1, … XM. Se utiliza también el coeficiente
de determinación múltiple ajustado que introduce un castigo por el número M de variables
(nivel de la regresión). Este coeficiente ajustado no siempre aumenta al incluir variables
explicativas. De hecho, si variables innecesarias están consideradas, es muy probable que
baje.

4.3. Análisis en Componentes Principales (ACP)


A partir de un conjunto de variables correlacionadas entre sí, eel ACP define un conjunto de
variables sintéticas no correlacionadas
correlacionadas, llamadas factores o componentes principales,
principales por
combinaciones lineales de las variables originales. Estas combinaciones se determinan al
diagonalizar la matriz de correlación V de las variables. La varianza de cada factor coincide
con un valor propio de V e indica la cantidad de información que contiene este factor, por
lo que se puede jerarquizar los factores en orden decreciente de sus varianzas.
El ACP se puede utilizar para resumir una base de datos en cuanto a número de variables a
analizar. Por ejemplo, 6 variables
ables correlacionadas pueden quedar resumidas por 4 factores,
factores
descartando los factores de menor varianza que contienen poca información. Otras
aplicaciones del ACP son interpretar relaciones multivariables, obtener representaciones
sintéticas de una base de datos multivariables
multivariables, y detectar datos atípicos. A modo de ejemplo
un despliegue gráfico de la información entregada por el ACP de datos de contaminación
de suelo se muestra a continuación
continuación.

Xavier Emery, Sebastián Pizarro M


23
ALGES
Estudio exploratorio para datos multivariables

Figura 20,, Representaciones gráfica


gráficass de los resultados de un análisis en componentes principales con 7 variables
(Cd, Co, Cr, Cu, Ni, Pb, Zn). Arriba izquierda: nube de correlación entre los primeros dos factores, donde se
destaca con un asterisco los datos más atípicos (indicados en el map
mapa a arriba a la derecha). Abajo: varianza de los
factores (izquierda) y representación de las dependencias entre variables en un “círculo de correlaciones”
(derecha)

Las representaciones gráficas anteriores pueden considerar datos o variables adicionales:


aunque no se usaron para determina
determinar los factores, se visualizan en la nube de dispersión
entre factores o en el círculo de correlación junto con los datos o variables activos(as) que
participaronn en la construcción de los factores. La existencia de variabless adicionales muy
correlacionadas con los factores permite dar un sentido a factores difíciles de interpretar
sólo con las variables activas.

4.4. Análisis Discriminante


Se considera un conjunto de datos con M variables continuas y una variable categórica con
p clases. El análisis discriminante determina p-1 ejes en el espacio de variables continuas
(hiperplanos de M-11 dimensiones) que mejor separan las clases. Los ejes pueden luego ser
usados para clasificar otros datos, para los cuales se tiene información so
solamente
lamente de las
variables continuas y no de la variable categórica.

Xavier Emery, Sebastián Pizarro M


24
ALGES
Estudio exploratorio para datos multivariables

Figura 21,, Análisis discriminante con dos variables. En los ejes de las variables
no se observa una separación clara, no así en el eje discriminante.

4.5. Otras técnicas


cnicas de análisis multivariable de datos
4.5.1. Análisis canónico
Sirve para comparar dos grupos de variables cuantitativas al identificar factores no
correlacionados en cada grupo y con la mayor correlación posible entre los dos grupos.

4.5.2. Análisis de corresponde


correspondencias
Es un método similar al análisis canónico, pero para comparar dos variables cualitativas o
categóricas. Permite
ermite determinar las modalidades o categorías de una variable que se atraen
(cuando las categorías de la otra variable son parecidas), las categorías de una variable que
se oponen (cuando las categorías de la otra variable son muy diferentes), o las asociaciones
entre categorías de ambas variables que se atraen o se oponen.
Al contrario del análisis en componentes principales, los gráficos factor
factoriales
iales pueden ser
construidos de manera de presentar en un mismo gráfico las categorías de ambas variables.

Xavier Emery, Sebastián Pizarro M


25
ALGES
Estudio exploratorio para datos multivariables

4.5.3. Análisis de correspondencias múltiples


Extiende el análisis de correspondencias a varias variables cualitativas o categóricas.
Permite poner en evidencia
encia las relaciones entre las modalidades o categorías de diferentes
variables y, a partir de ello, las relaciones entre variables.

4.5.4. Técnicas de agrupamiento


Estas técnicas se usan para combinar datos multivariables en varios grupos que satisfacen
dos restricciones:
tricciones: los datos de cada grupo se parecen entre sí y los datos de un grupo son
muy diferentes de aquellos de otro grupo. A diferencia del análisis discriminante,
discriminante los
grupos no se conocen con anticipación
anticipación: son descubiertos y tienen que ser interpretados.
interpretado La
evaluación de la semejanza entre datos es crítica, ya que permite calcular la distancia entre
datos o entre grupos.

Xavier Emery, Sebastián Pizarro M


26
ALGES
Estudio exploratorio para datos multivariables

5. Estudio Espacial
5.1. Mapas
Permiten visualizar la ubicación de los datos en el espacio y darse una idea de la malla de
muestreo. Al representar
presentar los datos con símbolos o con colores, se puede también apreciar la
continuidad espacial de la variable en estudio. A continuación se presenta algunos ejemplos
de despliegue de datos.

- Despliegues 2D

Figura 22,, Despliegu


Despliegue de datos en el espacio bidimensional. Los colores
indican las concentraciones de cobalto (izquierda) y níquel (derecha)

- Proyecciones

Figura 23,, Proyección en planta y sección de datos en el espacio tridimensional.


Los colores indican las leyes de cobre

Xavier Emery, Sebastián Pizarro M


27
ALGES
Estudio exploratorio para datos multivariables

- Mapas de indicadores

Figura 24,, Proyección en planta y sección de datos en el espacio tridimensional.


En negro se destacan los datos cuyas leyes de cobre superan determinadas leyes de corte

- Despliegues 3D

Figura 25,, Vista en perspectiva de datos de sondajes de exploración


(los colores indican la ley de cobre) junto con modelo de topografía

Xavier Emery, Sebastián Pizarro M


28
ALGES
Estudio exploratorio para datos multivariables

5.2. Tipos de muestreo


En el análisis de datos regionalizados, es im
importante
portante saber sobre el posicionamiento de los
datos de cada variable respecto una de otra. El caso más sencillo se da cuando las variables
son conocidas en todos los sitios con datos ((muestreo homotópico o isotópico). ). También se
da la situación en que dos variables tienen solamente una fracción de sus datos en los
mismos sitios, por ejemplo cuando una variable está subsub-muestreada
muestreada con respecto a otra
(muestreo parcialmente heterotópico
heterotópico). Lo anterior está ligado a una práctica recurrente en
la industria, llamada
amada muestreo preferencial, la cual consiste en que si el valor de la primera
variable está bajo un cierto mínimo no se gastan recursos en tener información sobre el
valor de la segunda variable en el mismo punto. Finalmente, se puede tener dos variables
conocidas en subconjuntos disjuntos de datos (muestreo totalmente heterotópico).
heterotópico

Figura 26, Muestreos homotópicos y heterotópicos

Xavier Emery, Sebastián Pizarro M


29
ALGES
Estudio exploratorio para datos multivariables

5.3. Nubes direccionales


Se visualiza los valores de una variable en función de una coordenada, par
paraa analizar su
comportamiento a lo largo de una dirección del espacio ((en
en particular, para apreciar su
homogeneidad espacial o si existen cambios en la media o en la dispersión o quiebres en el
comportamiento debido a un cambio geológico).

Figura 27,, Nube direccional de la ley de cobre a lo largo de la dirección este-oeste


oeste.

5.4. Gráfico de deriva


Es la curva de regresión (curva
curva de medias condicionales) de una nube direccional. Permite
evaluar el comportamiento espacial de una variabl
variablee de interés, detectar tendencias al alza o
a la baja según coordenadas. Un aspecto importante a considerar al momento de inferir
relaciones o situaciones es el número de datos en cada intervalo de coordenada.
En el caso multivariable se puede construir es
este
te gráfico con varias variables conjuntamente,
por ejemplo, leyes de cobre y leyes de oro. De ser necesario, se realiza una normalización
de las variables para comparar su comportamiento en una misma escala.

Xavier Emery, Sebastián Pizarro M


30
ALGES
Estudio exploratorio para datos multivariables

Figura 28, Gráficos dee deriva vertical para la ley de cobre, según tipo de roca (brecha de turmalina BXT u otro)

5.5. Gráfico de media vs. desviación estándar


Consiste en visualizar la desviación estándar local en función de la media local, ambas
estadísticas calculadas dentro de una vecindad móvil de radio determinado.. A veces, se
aprecia una dependencia de proporc
proporcionalidad
ionalidad entre ambas estadísticas locales, conocida
como “efecto proporcional”.
También se puede hacer el gráfico de desviación estándar en función de la media según las
categorías codificadas por una variable categórica, por ejemplo, un tipo de roca. Permite
Pe
establecer potenciales agrupaciones o comportamientos estadísticos similares
ilares según el tipo
de roca.

Xavier Emery, Sebastián Pizarro M


31
ALGES
Estudio exploratorio para datos multivariables

Figura 29, Gráfico de Media vs Desviación Estándar

5.6. Nube de correlación diferida


La nube de correlación diferida es un diagrama de dispersión entre una variable y sís misma,
pero desplazada en un vector de separación definido o una distancia de separación definida
(nube omnidireccional). En general, llaa dispersión de la nube aumenta con la distancia de
separación.
El examen de lasas nubes de correlación diferida indica cuán semejantes son dos datos en
función de la distancia que las separa. Por ende, permite apreciar la continuidad espacial de
la variable regionalizada,, así como detectar datos que contrastan mucho con sus vecinos
(puntos
puntos alejados de la línea diagonal a 45º)
45º).

Xavier Emery, Sebastián Pizarro M


32
ALGES
Estudio exploratorio para datos multivariables

Figura 30,, Nubes de correlación diferida para la variable ley de cobre, a diferentes
distancias de separación
separación: 0, 2, 10, 20, 50 y 100 metros

5.7. Análisis de contacto


Consiste en el análisis de cómo se comporta una variable regionalizada (ley, dureza,
dureza
porosidad, densidad…) al cruzar la frontera de dos unidades geológicas.
El análisis se centra generalmente en un gráfico de media,, donde se ve cómo cambia la
media local de la variable al ac
acercarse
ercarse o alejarse de la frontera (tomada como coordenada
“0”), y un gráfico de correlación o correlograma, donde se determina cuán correlacionados
están los valores de la variable de un lado y otro de la frontera.
Ell análisis de contacto debe hacerse baj
bajo ambos prismas para llegar a conclusiones
correctas, que a primera vista pueden no ser evidentes. A modo de ejemplo, se presenta un
caso donde la variable
riable es la ley de cobre, en donde la transición de leyes entre unidades
geológicas es abrupta, ya sea por un cambio rápido en el valor de la media, o por la poca
correlación de leyes entre ambos unidades geológicas.

Xavier Emery, Sebastián Pizarro M


33
ALGES
Estudio exploratorio para datos multivariables

Figura 31, Gráficos de medias para el contacto entre unidades


geológicas 30 y 40, y entre unidades geológicas 40 y 70
70.

Figura 32, Gráficos de correlación entre UG30/UG40 y UG40/UG70 respectivamente

5.8. Matriz
atriz de transiciones

Para una variable categórica conocida en compósitos de sondaje


sondajes,
s, se puede calcular las
probabilidades de pasar de una categoría a otra. Esto da información sobre los contactos
entre categorías y permite saber, por ejemplo, si una categoría “encierra” a otra.
otra

Xavier Emery, Sebastián Pizarro M


34
ALGES
Estudio exploratorio para datos multivariables

Hasta Categoría 1 Categoría 2 Categoría 3 Categoría 4


Desde
Categoría 1 0.80 0.20 0.00
Categoría 2 0.25 0.70 0.05
Categoría 3 0.05 0.60 0.35
Categoría 4 0.00 0.25 0.75

Categoría 1 Categoría 2 Categoría 3 Categoría 4


Proporción 0.30 0.30 0.30 0.10

Tabla 3,, Ejemplo d


de matriz de transiciones entre cuatro categorías.

6. Calidad de los datos

6.1. Soporte de los Datos


Es importante recordar que la distribución de valores de una variable regionalizada depende
del soporte áreal o volumétrico en el cual esta variable está medida. El soporte afecta a las
distribuciones univariables (histograma, estadísticas, diagrama de caja, curvas tonelaje-ley,
tonelaje
gráficos de probabilidad, etc.),, multivariables (coeficientes de correlación,
ión, regresiones, etc.)
y espaciales (nubes de correlación diferida, gráficos de efecto proporcional, etc.).

Por ejemplo es muy posible encontrar una ley de 30 ppm de oro en un testigo de 10 cm de
largo por 4 cm de diámetro. Sin embargo dicha ley sería improbable en el caso de
encontrarse en un banco de una mina a cielo abierto (bloque de 20 × 20 × 20 metros). En
consecuencia, la distribución univariable de leyes de oro presenta una menor frecuencia de
valores extremos en el soporte de bloque que en el sop
soporte
orte de testigo, una mayor frecuencia
de valores intermedios,, y una menor dispersión o varianza, aunque la ley media de oro es la
misma en ambos soportes.. Respecto a la distribución espacial, al aumentar el soporte,
disminuye la variabilidad espacial (efec
(efecto de suavizamiento).

Xavier Emery, Sebastián Pizarro M


35
ALGES
Estudio exploratorio para datos multivariables

6.2. Desagrupamiento
La representatividad de la muestra debería cuestionarse siempre que los datos no están
dispersos regularmente o uniformemente sobre el área o volumen de estudio,, lo cual es a
menudo el caso en aplicaciones de ciencias de la tierra. El muestreo puede ser preferencial
y producir un sesgo en las distribuciones y estadísticas experimentales si la ubicación de los
datos depende de los valores tomados por la variable, por ejemplo, cuando los sectores de
valores altos están más
ás densamente muestreados que los sectores de valores bajos.
El desagrupamiento consiste en ponderar los datos al momento de calcular su histograma o
estadísticas (tanto univariables como multivariables)
multivariables): los datos ubicados en loos sectores
más densamente muestreados
uestreados reciben una menor ponderación que llos datos ubicados en
sectores menos densamente muestreados. La ponderación afecta las contribuciones de los
datos al cálculo de las frecuencias, pero no afecta a lo
los valores de los datos:

Figura 33, Desagrupamiento de histograma experimental de datos (el valor de cada dato se mantiene)

La asignación de ponderadores a cada uno de los datos se realiza usualmente mediante una
división del espacio, atribuyéndole un área de influencia. Es
Estas
tas áreas se pueden definir de
varias maneras, siendo dos las principales:

a. Método de los polígonos de influencia (2D) o poliedros de influencia (3D): Se


pondera cada dato proporcionalmente a su área o volumen de influencia en el
campo.

Xavier Emery, Sebastián Pizarro M


36
ALGES
Estudio exploratorio para datos multivariables

Figura 34,, Ejemplo de distribución de área por dato, mediante polígonos de influencia.
La posición de cada dato queda representada por una cruz

b. Método de las celdas: Se divide la zona muestreada en celdas de misma área o


volumen que no traslapa
traslapan.
n. Cada celda tiene el mismo ponderador, el cual se reparte
entre las muestras contenidas en esta celda. A diferencia del anterior este método es
sencillo de programar y es bajo en tiempo de cálculo.

Figura 35,, Ejemplo de atrib


atribución
ución de ponderadores a datos por el método de las celdas.

Xavier Emery, Sebastián Pizarro M


37
ALGES
Estudio exploratorio para datos multivariables

Para lograr una implementación y ejecución óptima de este método se debe tener en
cuenta algunas consideraciones:
• origen de la red de celdas, el cual puede elegirse aleatoriamente
• orientación de llas
as celdas, a menudo, según los ejes de coordenada
• tamaño de las celdas: celdas muy pequeñas o muy grandes llevan a la misma
ponderación para todos los datos.

Por ejemplo, cambiando la longitud de una celda cuadrada, se puede observar cómo
varía la media desagrupada de una variable (suma de los valores de los datos
multiplicados por sus ponderadores).

Figura 36, Fluctuación de la media desagrupada de la


concentración de cobalto en función de la longitud de la celda.

El desagrupamiento
pamiento es relevante cuando no se tiene una malla de muestreo regular, sobre
todo si existe muestreo preferencial. Cabe destacar que los
os métodos presentados consideran
criterios geométricos al ponderar los datos en función de su grado de aislamiento, pero no
toman en cuenta la continuidad espacial de los valores, aunque idealmente este factor
también debería ser usado para determinar las “redundancias” entre datos
datos.

Xavier Emery, Sebastián Pizarro M


38
ALGES
Estudio exploratorio para datos multivariables

6.3. Datos atípicos


Los valores atípicos (outliers)) son valores de la variable que se destacan del resto de la
muestra. En general, se trata de valores muy altos que suelen alterar las estadísticas, tales
como media y varianza. La detección de estos valores puede ser de manera cualitativa
(visualmente mediante histogramas, diagramas de dispersión o estadísticas básicas) o con
tests estadísticos (Grubbs o Chauvenet)
Chauvenet); estos últimos se basan en las hipótesis de que los
datos tienen distribución normal y son independientes, ambas poco realistas en el caso de
datos regionalizados.

Figura 37,, A la izquierda se detectan valores atípicos en un histograma y a la derecha en un diagrama de


dispersión.

Si bien la detección suele ser simple, ésta no debe inducir a una apresurada eliminación de
los datos atípicos,, ya que estos valores ssuelen no ser errados y presentar el mayor interés.
Por ejemplo, en la evaluación de yacimientos auríferos, el valor económico del yacimiento
depende fuertemente de la presencia de pepitas de muy alta ley; en contaminación
ambiental, la ocurrencia de concen
concentraciones
traciones extremas de elementos tóxicos requiere
medidas de remediación o mitigación.

Dado estos antecedentes, se debe tener un adecuado manejo de los datos atípicos.
atípicos Algunas
opciones son transformar los datos ((por ejemplo, por paso a logaritmos o a indicadores),
indic
realizar “capping” para aminorar los valores extremos, o aumentar el soporte de los datos
(compositando o acumulandondo a lo largo de sondajes
sondajes)) para disminuir la frecuencia de
ocurrencia de valores extremos.

Xavier Emery, Sebastián Pizarro M


39
ALGES
Estudio exploratorio para datos multivariables

6.4. Datos duplicados


Datos con valores distintos
tos en la misma coordenada espacial pueden ser detectados con una
nube de correlación diferida, usando un vector de separación nulo o casi nulo. En caso de
tener mismas coordenadas y mismos valores (datos repetidos), se debe usar herramientas ad
hoc para detectar tales datos.

7. Bibliografía
Chilès J.P., Delfiner P., 1999. Geostatistics: Modeling Spatial Uncertainty. Wiley, New
York, 695 p.
Cooley, W.W., Lohnes, P.R., 1971. Multivariate Data Analysis. John Wiley & Sons, Inc.,
New York.
Davis, J.C., 2002. Statistics and Data Analysis in Geology
Geology.. John Wiley & Sons, Inc., New
York.
Deutsch C.V., Journel A.G., 1998. GSLIB: Geostatistical Software Library and User’s
Guide,, Oxford University Press, New York, 369 pp.
Goovaerts P., 1997. Geostatistics for Natural Resources Evaluation,, Oxford University
Press, New York, 480 p.
Hagen D., 1982. The application of principal components analysis to seismic data sets.
sets
Geoexploration 20, 93-111
111.
Hill, M.O., 1974. Correspondence analysis: a neglected multivariate method.
method Applied
Statistics 23 (3), 340-354..
Isaaks E.H., Srivastava R.M., 1989. An Introduction to Applied Geostatistics,
Geostatistics Oxford
University Press, New York, 561 pp.
Johnson R.A., Wichern D.W., 2002. Applied Multivariate Statistical Analysis.
Analysis Prentice
Hall.
Ravenne C., Galli A., Doligez B., Beucher H., Eschard R., 2002. Quantification of facies
curves.. In: Armstrong M., Bettini C., Champigny N.,
relationships via proportion curves
Galli A., Remacre A. (Eds), Geostatistics Rio 2000. Kluwer Academic, Dordrecht, pp.
19-40.
Wackernagel H., 2003. Multivariate Geostatistics: An Introduction with Applications.
Applications
Springer, Berlin.

Xavier Emery, Sebastián Pizarro M


40

También podría gustarte