Clases 1 y 2

INTRODUCCION
Tratamiento de Datos Medioambientales
AÑO 2017
¿Qué es Estadística?
“La Estadística estudia métodos científicos para recoger,
organizar, resumir y analizar datos, así como para sacar
conclusiones válidas y tomar decisiones razonables
basadas en tal análisis”
Murray R. Spiegel
Como en las demás ciencias la estadística ha venido a

ser una herramienta vital para los científicos. Les permite
comprender fenómenos sujetos a variaciones y
predecirlos o controlarlos eficazmente.
Irwin Miller
Estadística
Es una herramienta para responder:
¿Cuánto de exacto es un análisis?
¿Qué cantidad de análisis se deben
realizar para superar problemas de
inhomogeneidad o imprecisión?
¿Con qué nivel de confianza se cumple o
excede una regulación?
Y esta lista de ejemplos no se agota….

Estadística
Muchos de los estudios ambientales se
basan en datos numéricos:
Estudios de línea de base (documentan el
estado del ambiente en un determinado
período de tiempo).
Estudios dirigidos (evaluar el impacto de
determinados eventos sobre el ambiente).
Monitoreos ambientales (detectar tendencias u
otros cambios importantes de variables
ambientales).
Los resultados analíticos varían
porque:
Porque existen desviaciones inevitables
durante las mediciones. (Magnitud de influencia: Son
aquellas magnitudes que no constituyen el objeto de la medición, pero
que tienen un efecto sobre el resultado de medida, como por ejemplo,
la temperatura o la presión o la humedad reinantes en un recinto
donde se está haciendo una medición de peso).
Porque existen inhomogeneidades entre

porciones de muestras analizadas.
Ramas de la Estadística
Estadística Inferencial o Inductiva: usa la teoría de
probabilidades para generalizar las características
de una población a partir de las características de
una muestra representativa. Es decir, utiliza
estadísticas (indicadores) muestrales para obtener
conclusiones sobre los verdaderos parámetros de la
población.
Ramas de la Estadística
Estadística Descriptiva o Deductiva: estudia los
métodos para organizar, resumir y describir un
conjunto de datos para que sus características se
vuelvan evidentes. Se divide en:
Técnicas Gráficas
Técnicas Numéricas.
Definiciones:
Población vs Muestra
Población: es el conjunto de todas las mediciones
de interés al experimentador. Su tamaño se denota
con la letra N.
Muestra: es un subconjunto de la población.

Generalmente esta selección se hace
aleatoriamente, cada individuo en la muestra tuvo la
misma posibilidad de haber sido seleccionado. Su
tamaño se denota con la letra n.
Definiciones:
Parámetro vs. Estadístico
Parámetro Poblacional: es un valor numérico que
caracteriza a la población. µ σ
Estadístico Muestral: es un valor numérico que

caracteriza a la muestra.
Se busca estimar el verdadero valor del parámetro a

través de un estadístico.
Definiciones
Variables Aleatorias
A los diferentes fenómenos o características que se
miden en una investigación se las denomina
variables aleatorias.
La diferencia entre variables aleatorias y variables

algebraicas es que las aleatorias no pueden
predecirse con anterioridad. Si puede conocerse la
probabilidad de ocurrencia de sus posibles valores
antes de que estos valores sean observados.
Ejemplo sintético de un estudio basado
en técnicas estadísticas
1. Se define una población objetivo.
2. Se realiza un muestreo (se selecciona una muestra
aleatoria y representativa de la población).
3. Se realizan observaciones de un fenómeno que no
se puede predecir con anterioridad Se recolectan
datos de cada elemento muestreado (por ejemplo a
través de un cuestionario).
4. Se analiza la muestra recolectada.
5. El objetivo final es inferir estadísticamente algo
sobre la población, deseamos concluir algo sobre
alguna característica o varias conjuntamente, de la
población en la que se realiza el estudio.
Tener en cuenta que:
Lo más importante no está en lo que la

muestra nos dice sobre sus miembros
específicos, sino en cómo hacer
inferencias sobre los miembros de la
población que no fueron incluidos en la
muestra.
ESTADÍSTICA DESCRIPTIVA
Histograma
Usados para describir variabilidad.
Se divide el rango de
mediciones/observaciones en un
determinado número de grupos.
Contar el número de observaciones en
cada grupo.
Graficar el diagrama de barras de las
frecuencias.
Histograma
20
18
16
14
frequencia
12
10
8
6
4
2
0
45,75 46,25 46,75 47,25 47,75 48,25 48,75 49,25 49,75 50,25 50,75
mg/g
Distribución de las mediciones
A medida que el número de mediciones
aumenta y los grupos tienen rango
pequeño, el histograma se aproxima a
una distribución normal.
Distribución acumulada
Se obtiene sumando todas las
frecuencias.
Es útil para encontrar la
proporción/porcentaje de valores que
están por encima o por debajo de un
determinado valor.
Tiene una característica forma de „S“
para distribuciones o histogramas que
presentan un valor máximo.
Distribución acumulada
frecuencia acumulada [%]
100
80
60
40
20
0
45,75 46,75 47,75 48,75 49,75 50,75
mg/g
Muestra y Población
Es MUY importante saber si se
dispone/conoce de los datos de una
población o si sólo es un subconjunto de
datos (muestra).
Muestra Población
Una selección de 1000 TODOS los habitantes
habitantes de una localidad. de la localidad.
Un número de Imposible disponer de

mediciones de Cu en esa información.
suelos.
Características descriptivas de
una distribución
Una distribución de datos puede ser
descripta informando las siguientes
características:
Medidas de tendencia central.
Medidas de dispersión.
Skewness.
Kurtosis.
Tendencia central-Media aritmética
Es la mejor estimación de la media
poblacional, µ, para un determinado
número de muestras extraídas de la
población.
n
∑x
i =1
i
x=
n
Tendencia central-Mediana
Cuando se ordenan estadísticamente

los datos, la mediana es el valor central
de esa serie de datos ordenados.
La mediana es “robusta”, es decir que
no está afectada por datos anómalos o
datos extremos.
Tendencia central-Moda
Es el valor más frecuente.

Para calcularla es necesario disponer
de un gran número de mediciones.
Es posible que una misma distribución
de mediciones tenga 2 o más modas
(distribución, unimodal, bimodal,
multimodal, etc.).
Tendencia central-Otras medias
Media geométrica.
Media armónica (inversa de la media

aritmética).
Media robusta (e.g. Huber mean)
...etc.
Otras medidas de posición
Una medida de posición es el valor de la variable aleatoria
hasta el que se acumula p% de las observaciones de la
muestra. La media, mediana y moda son consideradas de
posición central en una distribución normal.
Siempre acumulamos de izquierda a derecha.
Veamos un histograma suavizado.
p%
Otras medidas de posición intermedia son:

Cuartiles: Son tres y delimitan al 25%, 50%, 75% de
los datos acumulados. Q1,Q2,Q3
Deciles: Son nueve y delimitan al 10%, 20%, ..., 90%
de los datos acumulados.
Quintiles: Son cuatro y delimitan al 20%, 40%, ... ,
80% de los datos acumulados.
Percentiles: Son 99 y delimitan al 1%, 2%, ... , 99%
de los datos acumulados.P1,P2,…P99
Medidas de dispersion–Varianza
de una población
Es la media de los cuadrados de las
desviaciones de los datos individuales
extraídos de la misma población de la
media.
n
∑ (x
i =1
i − µ) 2
2
σ =
n
Medidas de dispersión–Varianza
de una muestra.

∑ (x
i =1
i − x) 2
2
s =
n−1
Medidas de dispersión-
Desviación estándar
Es el valor positivo de la raíz cuadrada
de la varianza.
Population Sample
n n
∑
i =1
( xi − µ ) 2 ∑ (x i − x) 2
i =1
σ = s=
n n−1
Dispersión–Desviación estándar
de la media de subconjuntos
Las medias de subconjuntos de datos
tienden a ser menos dispersas que
todos los datos individuales.
σ Donde n es el número de
sdm = medidas de la media
n
Medidas de dispersión–
Desviación estándar relativa
Es una medida de la dispersión de los
datos respecto del valor de la media.
s
RSD =
x
Medidas de Forma-Skewness
Representa el grado de simetría.
Los datos de un PMQ cercanos al límite de
detección suelen NO ser simétricos porque
no es posible cuantificar concentraciones
negativas.
Medidas de forma-Curtosis (Kurtosis)
Indica qué tan puntiaguda es una
distribución:
Distribución plana platicúrtica.
Muy puntiaguda leptocúrtica.
Intermedia mesocúrtica.
Distribución Normal (Gaussiana)
Es la distribución de mediciones más frecuente
en fenómenos naturales, aunque no es la única
posible.
Presenta forma de campana

Está completamente definida por µ y σ
Distribución Normal (Gaussiana)
La curva es simétrica respecto de µ.
El incremento del valor de σ resulta en un aumento de la amplitud
de la curva.
Aproximadamente el 68% (68,27%) de los datos está dentro del
intervalo [µ±1σ].
intervalo [µ±2σ].
intervalo [µ±3σ]
Distribution normal–Ventajas
El área debajo de la curva se puede

calcular con los valores de µ y σ.
Estas áreas pueden ser interpretadas
como porciones de observaciones que
están dentro del los rangos definidos
por µ y σ.
Diferentes distribuciones más usadas
Elementos de las distribuciones de frecuencia.
Clase: Cuando se trabaja con un gran número de datos resulta
útil distribuirlos en diferentes categorías. La cantidad de datos
que existen dentro de cada clase se denomina frecuencia.
No hay establecida una única regla para determinar el número
de clases necesarias para distribuir los datos. Se recomienda un
valor máximo igual a considerando entre 4 y 7 clases para
una cantidad de datos entre 50 y 100, 10 clases para una
cantidad entre 100 y 150 datos; 12 clases para una cantidad de
datos entre 150 y 200, etc.
Límites de clase: Son el valor menor y el valor mayor de cada

clase.
Frontera de clase: El valor medio entre el límite superior e
inferior de clases adyacente. Se usa para separar clases
adyacentes.
Intervalo de clase: Es valor simbolizado por los limites de

clase. Ej: Sí los límites de clase son 60 y 62, entonces el
intervalo de clase es 60-62. Cuando no se expresa con alguno
de los límites de clase se denomina intervalo de clase abierto;
ej: valores de PM10 de 60 (µg/m3)o mayores.
Marca de clase: Es el punto medio del intervalo de clase, en el

ejemplo anterior sería 61.
Frecuencia relativa: Para cada clase se define como la

frecuencia de cada clase dividida por la suma de la frecuencia
de todas las clases.
Ancho de clase: Es la diferencia entre dos límites inferiores de

clase consecutivos.
Frecuencia acumulada: Es la suma de todas las frecuencias

menores que la frontera superior de un intervalo.
Frecuencia acumulada relativa o porcentual: Es la frecuencia

acumulada dividida por la suma de todas las frecuencias.
Rango: Diferencia entre el valor mayor y el valor menor de

un conjunto de datos.
Ejemplo:
Nivel de fenol en sangre de trabajadores expuestos a benceno

(µg.L-1)
1 0 131 173 265 210 44 277 32 3
35 112 497 477 289 227 103 222 149 313
121 130 234 164 198 17 253 87
16 266 290 123 167 250 245 48
284 1 208 173
Número máximo de clases = √40 = 6 se eligen 5

Rango= (497-0) = 497
Para dividir simétricamente el rango, calculamos: (497/5)=99,4
se selecciona un valor inmediato superior a 99,4, por ejemplo
100resulta:
1º límite inferior es 0
µg. L-1 de fenol frecuencia
clases
0-99 11
100-199 12
200-299 14
300-399 1
400-499 2
clases
0-99 11
100-199 12
200-299 14
300-399 1
400-499 2
1º frontera de clase= 99 + [(100-99)/2]= 99,5

2º frontera de clase= 199 + [(200-199)/2]= 199,5
Y así sucesivamente…
clases
0-99 11
100-199 12
200-299 14
300-399 1
400-499 2
1º marca de clase= [(0 + 99)/2]= 49,5

2º marca de clase= [(100-199)/2]= 149,5
Y así sucesivamente…249,5; 349,5; y 449,5
µg. L-1 de fenol frecuencia Frecuencia Frecuencia
clases acumulada Acumulada
relativa
0-99 11 11 (11/40)=
0,28
100-199 12 23 (23/10)=
0,58
200-299 14 37 (37/40)=
0,92
300-399 1 38 (38/40)=
0,95
400-499 2 40 (40/40)=
1,0
SUMA 40
frecuencia histograma
16
14
12
10
8
6
4
2
0
0-99 100-199 200-299 300-399 400-499
clases
Frecuencia acumulada
1,2
0,8
0,6
0,4
0,2
0
0-99 100-199 200-299 300-399 400-499

Clases 1 y 2

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clases 1 y 2

Cargado por

Copyright:

Formatos disponibles

INTRODUCCION

Tratamiento de Datos Medioambientales

Como en las demás ciencias la estadística ha venido a

Y esta lista de ejemplos no se agota….

Porque existen inhomogeneidades entre

Muestra: es un subconjunto de la población.

Estadístico Muestral: es un valor numérico que

Se busca estimar el verdadero valor del parámetro a

La diferencia entre variables aleatorias y variables

Lo más importante no está en lo que la

Un número de Imposible disponer de

Cuando se ordenan estadísticamente

Es el valor más frecuente.

Media armónica (inversa de la media

Otras medidas de posición intermedia son:

Presenta forma de campana

El área debajo de la curva se puede

Límites de clase: Son el valor menor y el valor mayor de cada

Intervalo de clase: Es valor simbolizado por los limites de

Marca de clase: Es el punto medio del intervalo de clase, en el

Frecuencia relativa: Para cada clase se define como la

Ancho de clase: Es la diferencia entre dos límites inferiores de

Frecuencia acumulada: Es la suma de todas las frecuencias

Frecuencia acumulada relativa o porcentual: Es la frecuencia

Rango: Diferencia entre el valor mayor y el valor menor de

Nivel de fenol en sangre de trabajadores expuestos a benceno

35 112 497 477 289 227 103 222 149 313

121 130 234 164 198 17 253 87

16 266 290 123 167 250 245 48

284 1 208 173

Número máximo de clases = √40 = 6 se eligen 5

1º frontera de clase= 99 + [(100-99)/2]= 99,5

1º marca de clase= [(0 + 99)/2]= 49,5

También podría gustarte