Está en la página 1de 61

ANÁLISIS

EXPLORATORIO DE
DATOS
Prospección y Estimación de Reservas Mineras (PERM)
Heber Hernández Guerra
hhernandez008@ikasle.ehu.eus / heber@nubeminera.cl
2018

Clase II
Contenido Semestral:
1. Introducción a la Catedra
2. Métodos de Exploración Temprana (Lectura bibliográfica)
3. Métodos de Exploración Avanzada -Prospección (Lectura bibliográfica)
4. Análisis Exploratorio de Datos (Estadística Descriptiva uni & bi variable)
5. Análisis Exploratorio de Datos (Cutting Grades, Compositación, Transformaciones)
6. Modelamiento Geológico
7. Análisis Estructural (Geoestadística - Variografía)
8. Métodos de Estimación Tradicional (Geométricos)
9. Métodos de Estimación Geoestadísticos (Krigeage S., Krigeage O.)
10. Métodos de Categorización de Recursos
11. Valorización Económica de Bloques (Método de utilidad)
12. Optimización de bloques Lerch & Grossman para Minería a Cielo Abierto
13. Diseño operativo de Minas a cielo abierto
14. Dimensionamiento de Reservas Mineras
15. Laboratorio de aplicaciones y análisis de caso
Material bibliográfico y foro de debate:

https://www.facebook.com/groups/geoestadistica/

Heber Hernández G. - Geoestadística 2018


Acrónimo AED = EDA (Inglés)
El análisis exploratorio de datos definido por John W. Tukey (E.D.A.:
Exploratory data analysis) es, básicamente, el tratamiento estadístico al
que se someten las muestras recogidas durante un proceso de
investigación en cualquier campo científico.

Heber Hernández G. - Geoestadística 2018


Estadística Descriptiva
El campo de la estadística tiene
que ver con la RECOPILACIÓN,
PRESENTACIÓN, ANÁLISIS Y USO
DE DATOS para tomar
DECISIONES Y RESOLVER
PROBLEMAS.

La estadística descriptiva se
divide en 2 grupos; métodos
Figura. Histograma concentración Cu
gráficos y métodos numéricos.
Estadísticos & gráficos a estudiar en esta unidad:
1. Media aritmética (tendencia central) 1. Tallo y hojas
2. Media ponderada (tendencia central) 2. Histograma univariable
3. Mediana (tendencia central)
3. Histograma bivariable
4. Moda (tendencia central)
5. Rango (variabilidad o dispersión) 4. Polígono de frecuencias
6. Varianza (variabilidad o dispersión) 5. Lineal
7. Desviación estándar (variabilidad o dispersión) 6. Circular
8. Coeficiente de variación (variabilidad o dispersión) 7. Dispersión
9. Curtosis (forma)
10. Coeficiente de asimetría (forma)
11. Covarianza (dispersión bi variable)
12. Coeficiente de correlación lineal (dispersión bi variable)

Heber Hernández G. - Geoestadística 2018


Media aritmética:
En matemáticas y estadística, la media aritmética, también llamada promedio o media, de un
conjunto finito de números es el valor característico de una serie de datos cuantitativos, objeto de
estudio que parte del principio de la esperanza matemática o valor esperado, se obtiene a partir de
la suma de todos sus valores dividida entre el número de sumandos. Cuando el conjunto es
una muestra aleatoria recibe el nombre de media muestral siendo uno de los
principales estadísticos muestrales.

Heber Hernández G. - Geoestadística 2018


Media para datos agrupados:

Punto medio = Marca de clase = (LS - LI) / 2 + LI

Heber Hernández G. - Geoestadística 2018


Media para datos agrupados:

Heber Hernández G. - Geoestadística 2018


Media ponderada:
• La media ponderada nos permite calcular un promedio que toma en
cuenta la importancia de cada valor con respecto al total.

Heber Hernández G. - Geoestadística 2018


Mediana:
La mediana corresponde al punto donde la muestra se divide en dos
partes iguales.

Heber Hernández G. - Geoestadística 2018


Mediana para datos agrupados:

Heber Hernández G. - Geoestadística 2018


Ejemplo mediana datos agrupados:

Heber Hernández G. - Geoestadística 2018


Ejemplo mediana datos agrupados:
Ubicación de la mediana:

((n/2) + (n+1)/2)
2

11 + 11.5 = 11.25
2

n = 22
F=9
Fm = 7
W=3
Lm = 10
Heber Hernández G. - Geoestadística 2018
Ejemplo mediana datos agrupados:

n = 22
(22+1)/2 – (9+1) x 3 + 10 = 10.6 (mediana de los datos agrupados) F=9
7 Fm = 7
W=3
Lm = 10

Heber Hernández G. - Geoestadística 2018


Moda:
La MODA es la observación que se presenta con mayor frecuencia en la
muestra.

En caso de existir 2 observaciones con la misma frecuencia, se llama


“BIMODAL”.

Heber Hernández G. - Geoestadística 2018


Ejemplo: Errores de
medición de pozos
por día.

Heber Hernández G. - Geoestadística 2018


Moda para datos agrupados:

Heber Hernández G. - Geoestadística 2018


Ejemplo moda para datos agrupados:

Heber Hernández G. - Geoestadística 2018


Cuartiles:
Cuando se divide un conjunto ordenado de datos en cuatro partes
iguales, los puntos de división se conocen como “CUARTILES”.

▪ El primer cuartil (q1) es un valor que tiene aproximadamente la cuarta parte (25%) de las observaciones por debajo
de el.
▪ El segundo cuartil (q2) corresponde al valor de la mediana.
▪ El tercer cuartil (q3), tiene aproximadamente las tres cuartas partes (75%) de las observaciones por debajo de el.

Heber Hernández G. - Geoestadística 2018


Medidas de Variabilidad
Los estadísticos de tendencia central o posición nos indican donde se sitúa un grupo de
puntuaciones. Los de variabilidad o dispersión nos indican si esas puntuaciones o valores están
próximas entre sí o si por el contrario están muy dispersas.

Por ejemplo:
Muestra 1: 130, 150, 145, 158, 165, 140
Muestra 2: 90, 128, 205, 140, 165, 160

Ambas muestras tienen la misma media “148”, sin embargo se observa que la variabilidad es mayor
en la muestra 2:

Heber Hernández G. - Geoestadística 2018


¿Qué curva posee mayor dispersión?

Heber Hernández G. - Geoestadística 2018


Heber Hernández G. - Geoestadística 2018
Rango de la muestra:
Rango = Max(Xi) – Min(Xi)

Heber Hernández G. - Geoestadística 2018


Varianza y Desviación Estándar para una muestra
Las medidas mas importantes de variabilidad son la “varianza” y
“desviación estándar”.

Heber Hernández G. - Geoestadística 2018


Varianza y Desviación Estándar para una población

Heber Hernández G. - Geoestadística 2018


Localización de las observaciones alrededor de la media para una
distribución de frecuencias con forma de campana

Heber Hernández G. - Geoestadística 2018


Varianza y Desviación Estándar para datos agrupados

Heber Hernández G. - Geoestadística 2018


Varianza y Desviación Estándar para datos agrupados

Heber Hernández G. - Geoestadística 2018


Ejemplo varianza datos agrupados (muestra)

21

Heber Hernández G. - Geoestadística 2018


Ejemplo desv. estandar datos agrupados (muestra)

Heber Hernández G. - Geoestadística 2018


Coeficiente de Variación:

θ = S = Desviación Estándar

Heber Hernández G. - Geoestadística 2018


Heber Hernández G. - Geoestadística 2018
Curtosis:

Heber Hernández G. - Geoestadística 2018


Heber Hernández G. - Geoestadística 2018
Heber Hernández G. - Geoestadística 2018
Curtosis para datos agrupados:

Heber Hernández G. - Geoestadística 2018


Heber Hernández G. - Geoestadística 2018
Heber Hernández G. - Geoestadística 2018
Heber Hernández G. - Geoestadística 2018
Heber Hernández G. - Geoestadística 2018
Heber Hernández G. - Geoestadística 2018
Heber Hernández G. - Geoestadística 2018
Heber Hernández G. - Geoestadística 2018
Método gráfico: Diagrama de tallo y hoja
El diagrama "tallo y hojas" permite obtener simultáneamente una distribución de frecuencias de la
variable y su representación gráfica. Para construirlo basta separar en cada dato el último dígito de
la derecha (que constituye la hoja) del bloque de cifras restantes (que formará el tallo).

Ejemplo:

Heber Hernández G. - Geoestadística 2018


Distribución de frecuencia e HISTOGRAMA
La distribución de frecuencia ofrece un resumen mas compacto de los
datos que el diagrama de tallo y hoja.

Heber Hernández G. - Geoestadística 2018


Distribución de frecuencia e HISTOGRAMA
Para su construcción primero se divide el rango de los datos en
intervalos, los cuales se conocen como “intervalos de clase”. Las clases
deben tener el mismo ancho.

Para seleccionar el Nº de clases:

Nº de clases = √ n ; donde n = numero de observaciones

Heber Hernández G. - Geoestadística 2018


Distribución de frecuencia e HISTOGRAMA
Tabla: Edades de trabajadores en empresa
25 30 32 25 24 33 Nº de observaciones: 36 = n
29 25 34 25 36 25 Valor mínimo: 23 años
27 29 25 29 25 26 Valor máximo: 40 años
25 40 34 25 36 36 Rango: 17
23 31 34 27 27 27
Nº de clases: √n = √36 = 6
26 28 25 31 39 28

Ancho de clase = rango / nº de clases


Categoría Intervalos Frecuencia Frec. Relativa Frec. R. Acum
A 23 25 12 0.33 0.33
B 26 28 8 0.22 0.56 Ancho de clase = 3
C 29 31 6 0.17 0.72
D 32 34 5 0.14 0.86
E 35 37 3 0.08 0.94
Frecuencia Relativa = Frecuencia /n
F 38 40 2 0.06 1.00

36 1.00

Heber Hernández G. - Geoestadística 2018


Distribución de frecuencia e HISTOGRAMA
HISTOGRAMA DE EDADES

14

12

10
Frecuencia

0
A B C D E F
Edades Categorizadas

Heber Hernández G. - Geoestadística 2018


Otras formas de histograma:

Heber Hernández G. - Geoestadística 2018


Grafico Polígono de Frecuencia

Heber Hernández G. - Geoestadística 2018


Utilidad de la frecuencia acumulada:

Heber Hernández G. - Geoestadística 2018


Heber Hernández G. - Geoestadística 2018
Caso de aplicación práctica:
1. OBJETIVO:
El presente taller tiene por objetivo que el estudiante repase y practique las principales herramientas
estadísticas aplicadas.

2. INSTRUCCIONES PARA EL DESARROLLO DEL PROYECTO:


▪ Aplicación: Influencia de las muestras sobre los cálculos de medias, varianza e histogramas.
▪ Se desea hacer un estudio sobre un sitio que en el pasado tuvo residuos mineros, el principal
contaminante que queda en el terreno es un leve porcentaje de ácido remanente.
▪ Se ha decidido hace una primera campaña de muestreado en cuadros de 10 x 10 metros.

Heber Hernández G. - Geoestadística 2018


Caso de aplicación práctica:

A. Calcule la media la varianza y realice un histograma de 9


clases:

Clase 1: 0 – 5
Clase 2: 5 – 10
Clase 3: 10 - …
Clase 9: 40 -45

Heber Hernández G. - Geoestadística 2018


Caso de aplicación práctica:

B.2. Calcule la media la varianza y realice un histograma de 9


clases (0,5) , (5,10)….(40,45) comente y compare con la primera
campaña.

Heber Hernández G. - Geoestadística 2018


Caso de aplicación práctica:
C. Realice los mismos cálculos anteriores.

Heber Hernández G. - Geoestadística 2018


Caso de aplicación práctica:

D. Realice los mismos cálculos anteriores.

Heber Hernández G. - Geoestadística 2018


Caso de aplicación práctica:
▪ Calcule para una malla de 20 x 20 (con todos los datos) , analice que
sucede con las medias de cada panel , grafique y compare los
histogramas con los anteriores .

Heber Hernández G. - Geoestadística 2018


Caso de aplicación práctica: Efecto Información

Si usted debe tomar la decisión sobre el terreno a partir de la campaña 3, considerando como datos
reales la campaña numero 4 con soporte 20 x20.

Conteste:

1. Parcelas estimadas contaminadas y en la realidad están contaminadas


2. Parcelas estimadas no contaminadas y en la realidad están no contaminadas
3. Parcelas estimadas contaminadas y en la realidad están no contaminadas
4. Parcelas estimadas no contaminadas y en la realidad están contaminadas

• Finalmente realice una nube de correlación entre campaña 3 vs campaña 4 (20 x 20).

Heber Hernández G. - Geoestadística 2018


Gracias por su atención

Consultas:

https://www.facebook.com/groups/geoestadistica

Heber Hernández G. - Geoestadística 2018