Está en la página 1de 46

INTRODUCCION

Tratamiento de Datos Medioambientales

AÑO 2017
¿Qué es Estadística?
 “La Estadística estudia métodos científicos para recoger,
organizar, resumir y analizar datos, así como para sacar
conclusiones válidas y tomar decisiones razonables
basadas en tal análisis”
Murray R. Spiegel

 Como en las demás ciencias la estadística ha venido a


ser una herramienta vital para los científicos. Les permite
comprender fenómenos sujetos a variaciones y
predecirlos o controlarlos eficazmente.
Irwin Miller
Estadística
 Es una herramienta para responder:
 ¿Cuánto de exacto es un análisis?
 ¿Qué cantidad de análisis se deben
realizar para superar problemas de
inhomogeneidad o imprecisión?
 ¿Con qué nivel de confianza se cumple o
excede una regulación?

Y esta lista de ejemplos no se agota….


Estadística
 Muchos de los estudios ambientales se
basan en datos numéricos:
 Estudios de línea de base (documentan el
estado del ambiente en un determinado
período de tiempo).
 Estudios dirigidos (evaluar el impacto de
determinados eventos sobre el ambiente).
 Monitoreos ambientales (detectar tendencias u
otros cambios importantes de variables
ambientales).
Los resultados analíticos varían
porque:
 Porque existen desviaciones inevitables
durante las mediciones. (Magnitud de influencia: Son
aquellas magnitudes que no constituyen el objeto de la medición, pero
que tienen un efecto sobre el resultado de medida, como por ejemplo,
la temperatura o la presión o la humedad reinantes en un recinto
donde se está haciendo una medición de peso).

 Porque existen inhomogeneidades entre


porciones de muestras analizadas.
Ramas de la Estadística
 Estadística Inferencial o Inductiva: usa la teoría de
probabilidades para generalizar las características
de una población a partir de las características de
una muestra representativa. Es decir, utiliza
estadísticas (indicadores) muestrales para obtener
conclusiones sobre los verdaderos parámetros de la
población.
Ramas de la Estadística
 Estadística Descriptiva o Deductiva: estudia los
métodos para organizar, resumir y describir un
conjunto de datos para que sus características se
vuelvan evidentes. Se divide en:

 Técnicas Gráficas

 Técnicas Numéricas.
Definiciones:
Población vs Muestra
 Población: es el conjunto de todas las mediciones
de interés al experimentador. Su tamaño se denota
con la letra N.

 Muestra: es un subconjunto de la población.


Generalmente esta selección se hace
aleatoriamente, cada individuo en la muestra tuvo la
misma posibilidad de haber sido seleccionado. Su
tamaño se denota con la letra n.
Definiciones:
Parámetro vs. Estadístico
 Parámetro Poblacional: es un valor numérico que
caracteriza a la población. µ σ

 Estadístico Muestral: es un valor numérico que


caracteriza a la muestra.

 Se busca estimar el verdadero valor del parámetro a


través de un estadístico.
Definiciones
Variables Aleatorias
 A los diferentes fenómenos o características que se
miden en una investigación se las denomina
variables aleatorias.

 La diferencia entre variables aleatorias y variables


algebraicas es que las aleatorias no pueden
predecirse con anterioridad. Si puede conocerse la
probabilidad de ocurrencia de sus posibles valores
antes de que estos valores sean observados.
Ejemplo sintético de un estudio basado
en técnicas estadísticas
1. Se define una población objetivo.
2. Se realiza un muestreo (se selecciona una muestra
aleatoria y representativa de la población).
3. Se realizan observaciones de un fenómeno que no
se puede predecir con anterioridad Se recolectan
datos de cada elemento muestreado (por ejemplo a
través de un cuestionario).
4. Se analiza la muestra recolectada.
5. El objetivo final es inferir estadísticamente algo
sobre la población, deseamos concluir algo sobre
alguna característica o varias conjuntamente, de la
población en la que se realiza el estudio.
Tener en cuenta que:

Lo más importante no está en lo que la


muestra nos dice sobre sus miembros
específicos, sino en cómo hacer
inferencias sobre los miembros de la
población que no fueron incluidos en la
muestra.
ESTADÍSTICA DESCRIPTIVA
Histograma
 Usados para describir variabilidad.
 Se divide el rango de
mediciones/observaciones en un
determinado número de grupos.
 Contar el número de observaciones en
cada grupo.
 Graficar el diagrama de barras de las
frecuencias.
Histograma
20
18
16
14
frequencia

12
10
8
6
4
2
0
45,75 46,25 46,75 47,25 47,75 48,25 48,75 49,25 49,75 50,25 50,75
mg/g
Distribución de las mediciones
 A medida que el número de mediciones
aumenta y los grupos tienen rango
pequeño, el histograma se aproxima a
una distribución normal.
Distribución acumulada
 Se obtiene sumando todas las
frecuencias.
 Es útil para encontrar la
proporción/porcentaje de valores que
están por encima o por debajo de un
determinado valor.
 Tiene una característica forma de „S“
para distribuciones o histogramas que
presentan un valor máximo.
Distribución acumulada
frecuencia acumulada [%]
100

80

60

40

20

0
45,75 46,75 47,75 48,75 49,75 50,75
mg/g
Muestra y Población
 Es MUY importante saber si se
dispone/conoce de los datos de una
población o si sólo es un subconjunto de
datos (muestra).
Muestra Población
Una selección de 1000 TODOS los habitantes
habitantes de una localidad. de la localidad.

Un número de Imposible disponer de


mediciones de Cu en esa información.
suelos.
Características descriptivas de
una distribución
 Una distribución de datos puede ser
descripta informando las siguientes
características:
 Medidas de tendencia central.
 Medidas de dispersión.
 Skewness.
 Kurtosis.
Tendencia central-Media aritmética
 Es la mejor estimación de la media
poblacional, µ, para un determinado
número de muestras extraídas de la
población.
n

∑x
i =1
i
x=
n
Tendencia central-Mediana

 Cuando se ordenan estadísticamente


los datos, la mediana es el valor central
de esa serie de datos ordenados.
 La mediana es “robusta”, es decir que
no está afectada por datos anómalos o
datos extremos.
Tendencia central-Moda

 Es el valor más frecuente.


 Para calcularla es necesario disponer
de un gran número de mediciones.
 Es posible que una misma distribución
de mediciones tenga 2 o más modas
(distribución, unimodal, bimodal,
multimodal, etc.).
Tendencia central-Otras medias
 Media geométrica.

 Media armónica (inversa de la media


aritmética).
 Media robusta (e.g. Huber mean)
 ...etc.
Otras medidas de posición
 Una medida de posición es el valor de la variable aleatoria
hasta el que se acumula p% de las observaciones de la
muestra. La media, mediana y moda son consideradas de
posición central en una distribución normal.
 Siempre acumulamos de izquierda a derecha.
Veamos un histograma suavizado.

p%
Otras medidas de posición

Otras medidas de posición intermedia son:


 Cuartiles: Son tres y delimitan al 25%, 50%, 75% de
los datos acumulados. Q1,Q2,Q3
 Deciles: Son nueve y delimitan al 10%, 20%, ..., 90%
de los datos acumulados.
 Quintiles: Son cuatro y delimitan al 20%, 40%, ... ,
80% de los datos acumulados.
 Percentiles: Son 99 y delimitan al 1%, 2%, ... , 99%
de los datos acumulados.P1,P2,…P99
Otras medidas de posición
Medidas de dispersion–Varianza
de una población
 Es la media de los cuadrados de las
desviaciones de los datos individuales
extraídos de la misma población de la
media.
n

∑ (x
i =1
i − µ) 2

2
σ =
n
Medidas de dispersión–Varianza
de una muestra.


∑ (x
i =1
i − x) 2

2
s =
n−1
Medidas de dispersión-
Desviación estándar
 Es el valor positivo de la raíz cuadrada
de la varianza.
Population Sample
n n


i =1
( xi − µ ) 2 ∑ (x i − x) 2

i =1
σ = s=
n n−1
Dispersión–Desviación estándar
de la media de subconjuntos
 Las medias de subconjuntos de datos
tienden a ser menos dispersas que
todos los datos individuales.
σ Donde n es el número de
sdm = medidas de la media
n
Medidas de dispersión–
Desviación estándar relativa
 Es una medida de la dispersión de los
datos respecto del valor de la media.
s
RSD =
x
Medidas de Forma-Skewness
 Representa el grado de simetría.
 Los datos de un PMQ cercanos al límite de
detección suelen NO ser simétricos porque
no es posible cuantificar concentraciones
negativas.
Medidas de forma-Curtosis (Kurtosis)
 Indica qué tan puntiaguda es una
distribución:
 Distribución plana  platicúrtica.
 Muy puntiaguda  leptocúrtica.
 Intermedia  mesocúrtica.
Distribución Normal (Gaussiana)
 Es la distribución de mediciones más frecuente
en fenómenos naturales, aunque no es la única
posible.

 Presenta forma de campana


 Está completamente definida por µ y σ
Distribución Normal (Gaussiana)
 La curva es simétrica respecto de µ.
 El incremento del valor de σ resulta en un aumento de la amplitud
de la curva.
 Aproximadamente el 68% (68,27%) de los datos está dentro del
intervalo [µ±1σ].
 Aproximadamente el 95% (95,45%) de los datos está dentro del
intervalo [µ±2σ].
 Aproximadamente el 99% (99,73%) de los datos está dentro del
intervalo [µ±3σ]
Distribution normal–Ventajas

 El área debajo de la curva se puede


calcular con los valores de µ y σ.
 Estas áreas pueden ser interpretadas
como porciones de observaciones que
están dentro del los rangos definidos
por µ y σ.
Diferentes distribuciones más usadas
Elementos de las distribuciones de frecuencia.
Clase: Cuando se trabaja con un gran número de datos resulta
útil distribuirlos en diferentes categorías. La cantidad de datos
que existen dentro de cada clase se denomina frecuencia.
No hay establecida una única regla para determinar el número
de clases necesarias para distribuir los datos. Se recomienda un
valor máximo igual a considerando entre 4 y 7 clases para
una cantidad de datos entre 50 y 100, 10 clases para una
cantidad entre 100 y 150 datos; 12 clases para una cantidad de
datos entre 150 y 200, etc.

Límites de clase: Son el valor menor y el valor mayor de cada


clase.
Frontera de clase: El valor medio entre el límite superior e
inferior de clases adyacente. Se usa para separar clases
adyacentes.
Elementos de las distribuciones de frecuencia.

Intervalo de clase: Es valor simbolizado por los limites de


clase. Ej: Sí los límites de clase son 60 y 62, entonces el
intervalo de clase es 60-62. Cuando no se expresa con alguno
de los límites de clase se denomina intervalo de clase abierto;
ej: valores de PM10 de 60 (µg/m3)o mayores.

Marca de clase: Es el punto medio del intervalo de clase, en el


ejemplo anterior sería 61.

Frecuencia relativa: Para cada clase se define como la


frecuencia de cada clase dividida por la suma de la frecuencia
de todas las clases.
Elementos de las distribuciones de frecuencia.

Ancho de clase: Es la diferencia entre dos límites inferiores de


clase consecutivos.

Frecuencia acumulada: Es la suma de todas las frecuencias


menores que la frontera superior de un intervalo.

Frecuencia acumulada relativa o porcentual: Es la frecuencia


acumulada dividida por la suma de todas las frecuencias.

Rango: Diferencia entre el valor mayor y el valor menor de


un conjunto de datos.
Elementos de las distribuciones de frecuencia.

Ejemplo:

Nivel de fenol en sangre de trabajadores expuestos a benceno


(µg.L-1)
1 0 131 173 265 210 44 277 32 3

35 112 497 477 289 227 103 222 149 313

121 130 234 164 198 17 253 87

16 266 290 123 167 250 245 48

284 1 208 173

Número máximo de clases = √40 = 6  se eligen 5


Rango= (497-0) = 497
Elementos de las distribuciones de frecuencia.
Para dividir simétricamente el rango, calculamos: (497/5)=99,4
 se selecciona un valor inmediato superior a 99,4, por ejemplo
100resulta:
1º límite inferior es 0
2º límite inferior es 100
3º límite inferior es 200
4º límite inferior es 300
5º límite inferior es 400 
µg. L-1 de fenol frecuencia
clases
0-99 11
100-199 12
200-299 14
300-399 1
400-499 2
Elementos de las distribuciones de frecuencia.
µg. L-1 de fenol frecuencia
clases
0-99 11
100-199 12
200-299 14
300-399 1
400-499 2

1º frontera de clase= 99 + [(100-99)/2]= 99,5


2º frontera de clase= 199 + [(200-199)/2]= 199,5
Y así sucesivamente…
Elementos de las distribuciones de frecuencia.
µg. L-1 de fenol frecuencia
clases
0-99 11
100-199 12
200-299 14
300-399 1
400-499 2

1º marca de clase= [(0 + 99)/2]= 49,5


2º marca de clase= [(100-199)/2]= 149,5
Y así sucesivamente…249,5; 349,5; y 449,5
Elementos de las distribuciones de frecuencia.
µg. L-1 de fenol frecuencia Frecuencia Frecuencia
clases acumulada Acumulada
relativa
0-99 11 11 (11/40)=
0,28
100-199 12 23 (23/10)=
0,58
200-299 14 37 (37/40)=
0,92
300-399 1 38 (38/40)=
0,95
400-499 2 40 (40/40)=
1,0
SUMA 40
Elementos de las distribuciones de frecuencia.
frecuencia histograma
16
14
12
10
8
6
4
2
0
0-99 100-199 200-299 300-399 400-499
clases

Frecuencia acumulada
1,2

0,8

0,6

0,4

0,2

0
0-99 100-199 200-299 300-399 400-499

También podría gustarte