Está en la página 1de 6

BLOQUE 2:

ESTADÍSTICA DESCRIPTIVA

ESTADÍSTICA
TRATAMIENTO DE DATOS
TEMA 2: VALIDACIÓN DE MÉTODOS. INTRODUCCIÓN CAMPO DE LA INVESTIGACIÓN ANÁLISIS DE RUTINA
• Técnicas de optimización • Estimación de errores
A LA QUIMIOMETRÍA • Diseño experimental • Pruebas de significación
• Métodos de clasificación • Técnicas de regresión y correlación
1. Introducción • etc… • etc…

2. Validación de métodos
LA INFORMACIÓN DE LOS LABORATORIOS ANALÍTICOS DEBE SER :
3. Ensayos de significación • “correcta”
4. ANOVA • “comparable”

Bibliografía:
1. Garantía de la calidad en los laboratorios analíticos. Ramón Compañó Beltrán y Ángel ESTADÍSTICA
Ríos Castro. Editorial SINTESIS.
2. Quimiometría. Guillermo Ramis Ramos. Mª Celia García Álvarez-Coque. Editorial - Estimación de valor más probable con su variabilidad correspondiente
SINTESIS.
3. Estadística y Quimiometría para Química Analítica. James N. Miller, Jane C. Miller. - Evaluación de la calidad de dicha estimación (Pruebas de significación)
Prentice Hall. 4ª Edición. 19

ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA DESCRIPTIVA

MODELO DE DISTRIBUCIÓN NORMAL


Frecuencia con la que
aparece cada valor en una Modelo de distribución: función matemática que describe la distribución de la
serie de repeticiones
suficientemente grande
población en términos de frecuencia de los resultados frente a su valor numérico.

(POBLACIÓN ANALÍTICA).
Conjunto de todos los casos o
unidades experimentales que Valor observado
son objeto de estudio
OBJETIVO ESTADÍSTICO
Infinitas
observaciones Distribución normal: La distribución de una variable normal está completamente
determinada por dos parámetros , la media (µ) que mide la tendencia central de la
DISTRIBUCIÓN NORMAL población, y la desviación estándar (σ) que mide la dispersión.
(Gaussiana)

MUESTRA
N observaciones ¿Qué se pretende? ESTIMAR PARÁMETROS DE LA POBLACIÓN
(siendo n pequeño)
Figura adaptada del libro “Garantía de la calidad en los laboratorios analíticos. Ramón N (µ, σ)
Compañó Beltrán y Ángel Ríos Castro. Editorial SINTESIS. Capitulo 6, figura 6.1
ESTADÍSTICA DESCRIPTIVA ENSAYOS DE SIGNIFICACIÓN

MODELO DE DISTRIBUCIÓN NORMAL MODELO DE DISTRIBUCIÓN NORMAL


• La forma de la campana de Gauss depende de los parámetros μ y σ.
No se dispone de los valores poblacionales μ y σ
• Tiene una única moda (valor que se da con mayor frecuencia), que coincide con su
media y su mediana.
• La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor entre -∞y +∞ POBLACIÓN MUESTRA
es teóricamente posible. El área total bajo la curva es, por tanto, igual a 1. Media aritmética (μ) Media aritmética ( ̅ )
• Es simétrica con respecto a su media μ (mide la tendencia central de una población). Desviación estándar (σ) Desviación estándar ( )
Según esto, para este tipo de variables existe una probabilidad de un 50% de observar
un dato mayor que la media, y un 50% de observar un dato menor.
• La distancia entre la línea trazada en la media y el punto de inflexión de la curva es Media aritmética de la muestra ( ̅ ) es un estimador de la media aritmética poblacional (μ)
igual a una desviación típica (σ). Cuanto mayor sea σ, más aplanada será la curva de la Desviación estándar de la muestra ( ) es un estimador de la desviación estándar poblacional (σ)
densidad. Integrando el área de la curva, el 68,3% de los datos se encuentra en el
intervalo μ ± σ.
• Análogamente, el 95 % de los datos se encontrará en el intervalo μ ± 1,96 σ .
Los estimadores describen una muestra y tienden a los correspondientes descriptores
• la probabilidad de encontrar una medida cualquiera entre ciertos límites, es igual al
poblacionales cuando crece el número de datos.
área subtendida bajo la curva entre esos límites.

ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA DESCRIPTIVA

MODELO DE DISTRIBUCIÓN NORMAL PROPIEDADES DE LA VARIANZA Y DE LA MEDIA

Varianza del resultado de una operación: Cuando se obtiene un resultado como


Media muestral ( ): (conjunto de n datos) consecuencia de una operación matemática = , , . . , la varianza del resultado, ,
∑ es función de las varianzas de las variables que intervienen en la operación, , , etc.
̅= Para variables independientes (no asociadas o correlacionadas), la ecuación de
propagación de la varianza es:
Desviación estándar muestral ( ): (conjunto de n datos)
2
# 2 2
# 2 2
=" $ +" $ + ⋯.
# #
∑ ( − ̅)
=
−1 Si las variables a, b, c,.. no son independientes, se añaden términos cruzados en los que
aparecen las covarianzas de las variables asociadas. La aplicación de esta ecuación a
algunos casos particulares permite deducir reglas sencillas de gran utilidad para
Donde n-1 son los grados de libertad o número de medidas independientes, determinar varianzas (YA VISTAS EN PROPAGACIÓN DE LA INCERTIDUMBRE). Además, la
ecuación es útil en el diseño y desarrollo de métodos analíticos.
El calculo de la desviación se hace con n medidas, de las cuales sólo n-1 son independientes.
Se descuenta un grado de libertad porque los datos se han utilizado en el cálculo de la
media, y este estimador forma parte de la expresión que proporciona la desviación.
ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA DESCRIPTIVA

PROPIEDADES DE LA VARIANZA Y DE LA MEDIA


PROPIEDADES DE LA VARIANZA Y DE LA MEDIA
Varianza de la media:
Varianza del resultado de una operación:
Supóngase que se dispone de una población de distribución normal descrita por '( y ( , de
En el ámbito del diseño y desarrollo de métodos analíticos, la ecuación de propagación de la cual se extraen al azar N series de n valores, , , ….., ,…. (i es el identificador del
la varianza es útil para: valor n). Se calcula la media de cada serie: , ,….. ) ,…… * (j es el identificador de cada
serie N). El conjunto de las N medias es una muestra de la población de las medias de n
1. Predecir la varianza de un resultado final, a partir de las varianzas de las variables valores, caracterizada por sus propios descriptores poblacionales ' y .
experimentales (pesadas, medidas volumétricas, de pH, etc).
Intuitivamente se deduce que la media de los datos individuales, y la media de la población
2. Calcular cómo influirá un cambio en las variables experimentales sobre la varianza. Por de medias o media de las medias, deben coincidir: + = +, = +.
ejemplo, un aumento o una disminución de un 50% en una de las variables experimentales
tal vez o mejore o empeore. Sin embargo, no sucede lo mismo con la desviación estándar de los datos individuales ( ) y
de las medias. En comparación con los datos individuales, las medias tienen una
3. Establecer qué variables experimentales son predominantes y cuáles tienen una probabilidad mayor de estar próximas a +, por lo tanto su desviación estándar, denominada
influencia despreciable sobre la varianza del resultado. Cualquier modificación del “error estándar de la media” (eem), es menor que la de la población de medidas individuales.
procedimiento experimental debe hacerse de modo que se reduzca el impacto de las Existe una relación entre eem y :
incertidumbres de las variables más influyentes. Por lo general, en un procedimiento ../ =
analítico suele haber una única variable predominante de la que depende
fundamentalmente la varianza, siendo la influencia de las demás poco importante o
despreciable.

ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA DESCRIPTIVA

MODELO DE DISTRIBUCIÓN NORMAL


PROPIEDADES DE LA VARIANZA Y DE LA MEDIA
Modelo de distribución normal estándar: corresponde a una distribución de media 0
Distribución de una población de medias: y varianza 1. Para esta distribución existen tablas publicadas a partir de las cuales se
puede obtener de modo sencillo la probabilidad de observar un dato.
Una población de medias tiende a ser normal, tanto más cuanto mayor es el número de
datos, n, con el que se calcula cada media, independientemente de cuál sea la distribución
de los datos individuales (normal, o no normal). Esta propiedad se conoce con el nombre de
“Teorema del límite central”
N (μ, σ)

2−'
TRANSFORMACIÓN 1=

N (0, 1)
Valores de z tabulados
ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA DESCRIPTIVA

MODELO DE DISTRIBUCIÓN NORMAL MODELO DE DISTRIBUCIÓN NORMAL

Supongamos que se sabe que el peso de los sujetos de una determinada población sigue De modo análogo podemos obtener la probabilidad de que el peso de un sujeto esté
una distribución aproximadamente normal, con una media de 80 Kg y una desviación entre 60 y 100 Kg:
estándar de 10 Kg. ¿Podremos saber cuál es la probabilidad de que una persona, elegida
al azar, tenga un peso superior a 100 Kg?

designamos X a la variable que representa el peso de los individuos en esa


población, ésta sigue una distribución N (80, 10)

Una vez tipificada la variable miramos en la tabla:

4(−2 ≤ 1 ≤ 2 ≤) = 1 − 2 (0,0228) = 0,9544


Una vez tipificada la variable miramos en la tabla:

4 1 5 2 = 0,0228

ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA DESCRIPTIVA

MODELO DE DISTRIBUCIÓN NORMAL MODELO DE DISTRIBUCIÓN NORMAL

Ensayos de normalidad Las técnicas estadísticas basadas en modelos de Gauss sólo pueden aplicarse
Diagrama de posiciones o Q-Q
a muestras que se ajusten satisfactoriamente al mismo. Si no es así, las conclusiones serán falsas, o al
menos los cálculos de probabilidad serán inexactos. Por ello, es importante comprobar la normalidad En el diagrama de posiciones o gráfico Q-Q (quantile-quantile) se representan los valores esperados o
de las muestras ante de realizar cualquier otro estudio estadístico. La normalidad se comprueba
teóricos, ,<=> , frente a los valores observados, ,? =<@A B?= . Si se obtiene una recta, la serie es normal.
habitualmente mediante alguno de estos ensayos gráficos:
También se obtiene una recta si en lugar de representar las parejas ( ,? = , ,<=><@ B? ), se representan
- Comparación del histograma de frecuencias con la curva de distribución normal ambos valores tipificados, como (C ,? = , C ,<=> ), o uno tipificado y el otro no, como ( ,? = , C ,<=> ).
- Diagrama de posiciones o Q-Q (hacer con Excel) Atendiendo al orden en que se hacen los cálculos, esta última representación es la más inmediata.
- Diagrama de proporciones acumuladas o P-P
Para construir el diagrama de posiciones:
- Shapiro-wilk (origin)
1. Se ordenan los datos de menor a mayor.
Cuando una muestra carece de normalidad las posibles causas y soluciones son:
2. Se numeran de 1 a n, y se calculan sus proporciones acumuladas observadas, 4 ,? = , donde el
a. La muestra es demasiado pequeña y no tiene garantías suficientes de ser representativa e subíndice i es el lugar que tienen valores menores o iguales al valor de dicho dato en la serie. La
insesgada. La solución es adquirir más datos. proporción acumulada de un dato es el porcentaje de datos que tienen valores menores o
b. Existen resultados extremos anómalos (demasiado altos o demasiado bajos). La solución es iguales al valor de dicho dato, lo que coincide aproximadamente con su cuantil. Los valores de
aplicar criterios de rechazo de resultados (se verán más adelante) 4 ,? = , se pueden estimar con la ecuación:
c. La población no se ajusta al modelo normal. La solución puede ser utilizar un modelo distinto del D
4 ,? = = × 100
modelo normal, o también, intentar alguna transformación de la variable, tal como la raíz +1
cuadrada o cúbica, y el logaritmo. Estas transformaciones no aseguran que se alcance la
normalidad, pero en algunos casos se consigue
ESTADÍSTICA DESCRIPTIVA

MODELO DE DISTRIBUCIÓN NORMAL Serie de pesadas (en gramos) de una muestra húmeda:

g 0.545 0.547 0.550 0.554 0.557 0.560 0.565 0.570 0.574 0.578 0.583 0.587

También se utilizan otras expresiones que difieren de esta ecuación en el valor de los
coeficientes que se suman y restad de i y n. Por ejemplo, la ecuación de Blom es:

D − 3/8
4 ,? = = × 100
+ 1/4
3. Los valores de HI,JK se utilizan para obtener los valores de LI,M N. Para un valor dado,
C ,<=> , se lee sobre la tabla de la distribución normal estándar, como el valor que deja a su
izquierda un área de valor 4 ,? = .

4.Los valores de C ,<=> se representan frente a los valores observados, ,? = . La presentación


del gráfico se puede mejorar tipificando los valores de ,? = para representar los pares (C ,? = ,
C ,<=> ).

ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA DESCRIPTIVA

INTERVALO DE CONFIANZA INTERVALO DE CONFIANZA

Significado de la distribución “t de Student”


Forma habitual de expresar los resultados: ± (P) , , V, … . . ,……….. X(', )

Probabilidad de que una medida cualquiera se encuentre fuera del intervalo + ± YZ:

S
Otra forma de expresar los resultados: ± Q(R) Q = 4(' − U ≤ ≤'+U )
P '= ± 1,96
T. “nivel de significación” Si fijamos T se fija U Esta afirmación no se cumple para el
5 % de los casos
t estadístico conocido como “t de student”

+ = ±Q R Si se dispone de la media de los n datos : '= ̅±


1,96
Intervalo de confianza Al tratarse de una media la varianza se reduce
Esta expresión indica la proximidad entre la y +. El nivel de significación (T) es la ]s
probabilidad de que la igualdad establecida NO se cumpla, esto es, R es la probabilidad
Si no se conoce el valor de Z: '= ̅±
de que la diferencia entre y + sea mayor de L. Dicho de otro modo, es el riesgo de que
' se encuentre fuera del intervalo. La t de Student es el estadístico que tiene en cuenta la incertidumbre adicional introducida
a los límites de confianza por hacer uso de s y no de Z.
ESTADÍSTICA DESCRIPTIVA

PRESENTACIÓN FINAL DE RESULTADOS


Los resultados finales deben presentarse obligatoriamente de forma que el lector tenga a la
vista la información significativa.
Reglas para expresar la dispersión: Se expresa con una sola cifra distinta de cero, más los
ceros necesarios para establecer el lugar donde se encuentra la cifra decimal.
Ejemplos: ±0,337 a ±0,3; ±0,0647 a ±0,06; ±48 a ± 50 (el cero es para establecer el lugar de
la incertidumbre)
Se hace una excepción a esta regla cuando el valor es inferior a 25, independientemente de
donde se encuentre la coma decimal. Con este criterio se evita que el redondeo distorsione
la desviación estándar en más de un 20%.
Ejemplos: ±0,25 si redondeo a ±0,2, la distorsión es del (0,25-0,2)/0,25 =20%, mientras que
el redondeo de ±0,26 a ±0,3 produce una dispersión del 15 %.
Reglas para expresar la media: Se informa exclusivamente con sus cifras significativas. Para
saber cuál es la primera cifra incierta se atiende al valor de la dispersión.
- Cuando la dispersión del resultado es mayor que la media, los ceros no escritos situados a
la izquierda de la primera cifra escrita pueden ser significativos.
Ejemplo : (4,67±59) g a (0±60) g muy podo intuitivo; si cambiamos las unidades a mg:
0,00467±0,059 a 0,00±0,06 (los ceros a la izquierda de 4 son significativos).
- Cuando la última cifra es 5 y todas las que siguen son ceros, la decisión del redondeo se
toma al azar.
- A lo largo de los cálculos, los datos intermedios no se redondean para no sesgar
resultados. El redondeo debe afectar sólo a la presentación de datos finales.