Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2011 Tortosa G. Manual Práctico de Quimiometría PDF
2011 Tortosa G. Manual Práctico de Quimiometría PDF
Quimiometra
1 Edicin (2011)
Diponible en
1
NDICE
Captulo 1. Introduccin
Captulo 2. Conceptos bsicos y Probabilidad.
2.1. El concepto de Probabilidad.
2.2. Distribucin de datos aleatorios.
2.3. El caso de la distribucin normalizada.
2.4. Muestras representativas y Teorema Central del Lmite
Captulo 3. Estadstica descriptiva.
3.1. El concepto de Estadstico
3.2. El sentido de un valor analtico.
3.3. Incertidumbre de un valor analtico.
3.4. Presentacin de resultados y propagacin de errores.
Captulo 4. Estadstica inferencial.
4.1. Contraste de hiptesis
4.2. Estadstico de contraste y concepto de p-valor.
4.3. Tipos de variables y clasificacin de los tests estadsticos.
Captulo 5. Tests estadsticos bsicos en anlisis qumico.
5.1. Anlisis para una muestra poblacional
5.1.1. Anlisis descriptivos
5.1.2. Test de Normalidad
5.1.3. Contraste de la media de una poblacin con un valor de referencia
5.1.3.1. Prueba de la t de Student (paramtrico)
5.1.3.2. Prueba de Signos (no paramtrico)
5.2. Anlisis para dos muestras poblacionales
5.2.1. Prueba de la t de Student (paramtrico)
5.2.2. Prueba de la U de Mann-Whitney para muestras independientes
(no paramtrico)
5.2.3. Prueba de Wilcoxon para muestras dependientes (no paramtrico)
5.3. Anlisis para ms de dos muestras poblacionales
5.3.1. Anlisis de la varianza (ANOVA, paramtrico)
5.3.2. Anlisis de Krustal-Wallis (no paramtrico)
5.4. Anlisis de la correlacin.
5.4.1. Regresin lineal
5.5. Cuadro resumen
Captulo 6. Bibliografa recomendada y recursos disponibles en internet.
2
Captulo 1. Introduccin
La Qumica Analtica tiene en la Estadstica una de sus herramientas
fundamentales. Esta imprescindible relacin ha dado lugar en los ltimos aos al
desarrollo de la Quimiometra, una disciplina que aplica las tcnicas matemticas de la
estadstica a los problemas analticos de la identificacin y cuantificacin de las
sustancias qumicas, siendo habitual el uso de la quimiometra en cualquier anlisis
qumico. En la actualidad, esta disciplina ha ganado importancia debido sobre todo por
cantidad de informacin que obtenemos a travs de los equipos instrumentales (los
cuales generan una gran cantidad de datos numricos) y por el incremento en la
capacidad de clculo de los ordenadores actuales.
Nota: Muchos de los ejemplos comentados en este Manual estn disponibles en internet a travs
de Applets desarrollados en Javascrip, por lo que se recomienda instalar un software para ello
(http://java.com/es/).
3
Captulo 2. Conceptos bsicos y Probabilidad.
Antes de profundizar en tcnicas estadsticas, es conveniente aclarar algunos
conceptos bsicos de probabilidad, los cuales nos ayudarn a entender mejor los
principios matemticos usados en quimiometra.
4
2.1. El concepto de Probabilidad.
Imaginemos que lanzamos una moneda al aire 40 veces. Con los resultados
obtenidos calculamos la Frecuencia relativa, decir, el cociente entre el nmero de veces
que se obtiene un resultado deseado (las veces que ha salido cara o cruz) con respecto
al total de veces que se realiza. Finalmente, el resultado lo representamos grficamente
y obtenemos lo siguiente:
Sacado de http://bcs.whfreeman.com/ips4e/cat_010/applets/Probability.html
Nota: si no tienes paciencia de tirar monedas, en la siguiente web puedes obtener los
resultados de este experimento (http://www.ematematicas.net/simulacionmoneda.php).
Tambin puedes verlo en esta web (est en ingls):
http://bcs.whfreeman.com/ips4e/cat_010/applets/Probability.html
As, podemos definir la probabilidad del suceso (en nuestro caso el lanzamiento
de monedas) como el valor al cual tiende la frecuencia relativa en un experimento. Por
lo tanto, con la probabilidad podemos conocer el comportamiento que rigen los
fenmenos aleatorios que estudiamos y estimar su resultado.
5
Al estudiar un fenmenos aleatorio, concretamente una variable de una
muestra de una poblacin (ejemplo: altura de un destacamento de soldados de un
ejrcito), los resultados podemos representar en forma de histogramas, es decir,
representando la frecuencia de los resultados obtenidos.
En este caso vemos que la distribucin de los datos aleatorios obtenidos puede
presentar comportamientos definidos. En este caso, la altura de los soldados presenta
una distribucin de campana de Laplace-Gauss y se denomina distribucin
normalizada. Existen muchos ejemplos de distribuciones, como las distribuciones
binomiales, Chi-cuadrado, F de Fisher-Snedecor, etc.
6
Ejemplos sacados de http://sebbm.bq.ub.es/BioROM/contenido/UIB/bioinfo/index.htm
7
Nota: con el fin de calcular la probabilidad, a esta ecuacin se le aplica una transformacin
matemtica para estandarizarla, es decir, para que el rea de la campana sea 1 (o el 100%).
Nota: Los conceptos de media y desviacin estndar se vern ms adelante y estn relacionados
con la exactitud y precisin respectivamente.
8
Ejemplo sacado de Miller y Miller (2009).
9
esta Figura, podemos saber que el 68% de los datos que se distribuyen normalmente
estn comprendido en el intervalo , el 95% en el intervalo 2 y finalmente, el
99,7% en el intervalo 3.
10
Veamos el Teorema Central del Lmite. Este nos dice que cuando analizamos
una poblacin de datos mediante varios subgrupos de muestras representativas
(ejemplo: queremos saber la poblacin media de los hombres de un pas y se cogen
varios grupos de individuos correspondientes a las principales ciudades del mismo),
cada una de ellas puede obtener una distribucin distinta entre ellas (Los hombres de
las ciudades del norte son ms bajos, y los del sur son ms variables, etc.). Si
aumentamos el nmero de ciudades que estudiamos (como por ejemplo a 30), la
distribucin de las medias de las alturas de todas las ciudades tender a una
distribucin normalizada. Este ejemplo lo podemos visualizar en la siguiente figura:
Ejemplo sacado de
http://terra.es/personal2/jpb00000/test
imaciondelamedia.htm
Aunque las teoras estadsticas nos indiquen el tamao muestral necesario para
nuestros experimentos, muchas veces esos valores estn en contraposicin con la
viabilidad tcnica y econmica de quien hace los estudios. Realizar un experimento con
una carga analtica de ms de 30 muestras por cada tratamiento puede ser inviable en
muchos casos.
11
Captulo 3. Estadstica descriptiva.
Para ilustrar este concepto, podemos ver las definiciones de los siguientes
estadsticos:
Media aritmtica:
Varianza:
12
Nota: Para tener una idea de otros conceptos, visitar
http://es.wikipedia.org/wiki/Parametro_estadistico
Para realizar este tipo de clculos, pinchar aqu:
http://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/Descriptive.htm
http://graphpad.com/quickcalcs/CImean1.cfm
Media: 0,50
Desviacin estndar: 0,02
Varianza: 0,0003
Coeficiente de variacin (%): 3,36%
Por lo tanto, los errores analticos se pueden clasificar en tres grandes grupos:
o Groseros o accidentales
o Aleatorios
o Sistemticos
Adems de estos, existen otros conceptos importantes que un analista tiene que
tener en cuenta:
13
- Precisin: describe los errores aleatorios. Hace mencin a la dispersin de
los datos con respecto al valor real. En el caso de las distribuciones
normalizadas de datos, hara referencia a la anchura de la campana
gaussiana siendo ms ancha cuanto ms dispersos estn los datos y
viceversa.
Nota: el verdadero valor est situado en el centro de cada circunferencia y las cruces
corresponden a cada repeticin del anlisis
14
3.3. Incertidumbre de un valor analtico.
Cul es el intervalo dentro del cual se puede suponer de forma razonable que
se encuentra el valor verdadero de la medida? Para eso primero debemos calcular el
error estndar de la media, que se define de la siguiente manera:
Intervalo de confianza:
15
donde tn-1 es un valor tabulado que depender del valor de confianza
son los grados de libertad,
donde s es la desviacin estndar,
y n es el nmero de muestras
Sacado de http://es.wikipedia.org/wiki/Distribucion_normal
16
Ejemplo sacado de Miller y Miller (2009)
Nota: el intervalo de confianza tiene sentido cuando tenemos muchas repeticiones. Cuando son
pocas, (n 10) no tiene mucho sentido
17
A la hora de expresar los resultados de un anlisis, las cifras significativas de un
resultado (decimales que suelen llevar) no pueden exceder a la precisin usada, es
decir, no tiene sentido dar un resultado de 0,0234234 g cuando la balanza que usamos
tiene de precisin 0,001 g.
Adems, para eso debemos tener en cuenta que los errores se propagan con las
operaciones aritmticas que hagamos a los descriptivos (o combinacin de cantidades
observables). Para eso es necesario conocer la precisin de cada observacin.
Su error:
M = M1 + m1 + M2 + m2 = 32 g
El resultado se expresar:
M =1310 30 g
18
Para medir la altura de un rbol, L, se mide la longitud de su sombra, L1, la
altura de un objeto de referencia, L2, y la longitud de su sombra, L3. Por semejanza:
L= L1 (L2 /L3)
Por tanto
L= 200 (100/10) = 2000 cm
Su error ser
L = (3,4/100) x 2000 = 68
L = 2000 70 cm
19
Captulo 4. Estadstica inferencial.
Puntual
Por intervalos
Por contraste de hiptesis
Para estudiar este caso, hemos ido a ro y hemos recogido muestras de agua
para analizarlas en el laboratorio. Tenemos dos posibles hiptesis antagnicas a
contrastar:
20
A obtener los resultados de los anlisis, vemos las siguientes posibilidades:
Como podemos observar, tenemos cuatro posibilidades. Dos de ellas en las que
no cometemos error en la formulacin de nuestra hiptesis.
Las otras dos nos informan del error que hemos cometido en nuestra hiptesis:
Nota: Para hacer un contraste de hiptesis, debemos definir muy bien cual es la hiptesis
nula (H0) y alternativa (H1), ya que todas las conclusiones se harn en base a esto.
Nota: Es usual utilizar el Error de tipo I, es decir, el error que comentemos al afirmar
que la hiptesis nula no es la correcta ya que es ms fcil de controlar.
21
Vemoslo grficamente:
22
4.2. Estadstico de contraste y concepto de p-valor.
Una vez vistas todas las posibilidades, cul es el criterio que debemos seguir
para poder afirmar u descartar una hiptesis? Para eso debemos calcular el estadstico
de contraste, que a su vez nos dar el p-valor.
Este es un parmetro que se calcula teniendo en cuenta que los datos cumplen
la distribucin normalizada y se relaciona con el rea de la curva la cual se
correspondera con la regin de rechazo, es decir, que si nuestra muestra est en esa
zona podramos descartar la hiptesis nula (H0).
Si ese valor fuese menor que el nivel de significacin () que hemos prefijado,
podramos rechazar la hiptesis nula.
Nota: los valores ms usados para son 0,05, 0,01 y 0,001, es decir, que la probabilidad de
acertar en nuestra afirmacin sera del 95%, 99% y 99,9% respectivamente.
23
En este ltimo caso, para obtener el p-valor, deberamos consultar las tablas
para la distribucin estandarizada de la t-Student, en la cual deberemos saber los
grados de libertad (n-1), siendo n el nmero de muestras.
Nota: En cualquier manual de estadstica podemos encontrar estas tablas y cualquier software
de estadstica las lleva incorporadas en sus anlisis dndote directamente el p-valor. Si no, se
pueden consultar en internet aqu:
http://es.wikibooks.org/wiki/Tablas_estadisticas/Distribucion_t_de_Student
Imaginemos que hemos analizado las muestras de agua del ro que pasa por al
lado de una granja. Hemos obtenido un valor de 54,3 5,2 mg L-1 al medir 20 muestras.
Vemos que los resultados siguen una distribucin normalizada, tal y como vemos en el
siguiente grfico:
24
Como podemos observar, nos ha salido un p-valor = 0.0001 (p-valor 0,05). Por
lo tanto, podemos rechazar la hiptesis nula y confirmar que la concentracin de
nitratos obtenida en las muestras analizadas es mayor que 50 significativamente (con
un 95% de probabilidad).
- Cualitativas. Son aquellas que expresan una propiedad de las muestras que
no se puede expresar numricamente (ejemplo: el color de los ojos). A su
vez, podemos clasificarlas en dos grupos:
25
o Discretas, en las cuales solo pueden adoptar valores enteros
(ejemplo: nmero de hijos, das, etc.).
Nota: en general, estos tests presentan la misma filosofa. Calculan estadsticos de contraste que
nos permitirn obtener un p-valor, el cual utilizaremos para afirmar la validez de nuestra
hiptesis nula H0 planteadas al compararlo con el valor de significancia (0,05, 0,01 y 0,001
segn convengamos).
26
Captulo 5. Tests estadsticos bsicos de inters en anlisis
qumico.
Sacado de
http://www.tuveras.com/estadistica/estadistica02.htm
27
En las siguientes pginas se pueden calcular:
- http://graphpad.com/quickcalcs/CImean1.cfm
- http://home.ubalt.edu/ntsbarsh/Business-
stat/otherapplets/Descriptive.htm
- http://www.openepi.com/OE2.3/Menu/OpenEpiMenu.htm
Sacado de http://en.wikipedia.org/wiki/Skewness
28
Sacado de http://www.uv.es/ceaces/base/descriptiva/curtosis.htm
Existen numerosas webs donde se pueden realizar este tipo de tests, cuyos
resultados suelen ser de este tipo:
Nota: cuando tengamos pocas repeticiones, este tipo de tests saldrn siempre normalizados. Si
los datos estn normalizados, deberemos usar los tests paramtricos y si no, los no paramtricos.
29
saber si la media de nuestros datos es diferente significativamente o no a un valor de
referencia que nosotros queremos comparar (hiptesis nula).
Sacado de http://www.aiaccess.net/English/Glossaries/GlosMod/e_gm_t_test.htm
http://www.graphpad.com/quickcalcs/OneSampleT1.cfm?Format=SD
http://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/MeanTest.htm
http://www1.assumption.edu/users/avadum/applets/applets.html
http://www.fon.hum.uva.nl/Service/Statistics/Sign_Test.html
30
Al igual que hemos visto anteriormente, se har un contraste de hiptesis y se
calcular el valor del estadstico t, para obtener finalmente, un valor de p con el que
decidiremos si rechazamos o no la hiptesis nula. Para utilizar esta prueba tenemos
que tener en cuenta que las dos muestras deben seguir una distribucin normalizada
En las siguientes pginas se pueden realizar este test con la posibilidad de elegir
si las muestras son independientes o dependientes:
http://graphpad.com/quickcalcs/ttest1.cfm
http://faculty.vassar.edu/lowry/tu_esp.html
Sacado de http://personales.upv.es/jcanizar/modulo_3/diferenciales_4.html
El cual contrastaremos con los valores de significancia (0,05, 0,01 y 0,001) para
as saber si existe diferencia estadsticamente significativa entre ambas poblaciones de
muestras.
http://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/Ustat.htm
http://faculty.vassar.edu/lowry/utest.html
31
Nota: Pata ms informacin, consultar esta web:
http://members.fortunecity.com/bucker4/estadistica/pruebaumw2mi.htm
http://faculty.vassar.edu/lowry/wilcoxon.html
http://www.fon.hum.uva.nl/Service/Statistics/Signed_Rank_Test.html
Sacado de http://www.bexcellence.org/Anova.html
http://www.seh-lelha.org/anova.htm
32
http://e-stadistica.bio.ucm.es/cont_mod_1.html#Anova
http://www.amstat.org/publications/jse/v18n2/ANOVAExercise.xls
http://www.physics.csbsju.edu/stats/anova.html
http://e-stadistica.bio.ucm.es/mod_anova/anova_applet.html
http://faculty.vassar.edu/lowry/ank3.html
Es similar al ANOVA pero cuando se cuentan con datos que nos siguen una
distribucin normalizada.
http://department.obg.cuhk.edu.hk/researchsupport/KruskallWallis.asp
33
Imaginemos que tenemos datos de dos variables, una dependiente y otra
independiente, y al contrastar dichas variables, la relacin matemtica que las relaciona
tiene forma de una recta de este tipo:
Y = a + bX,
Nota: La recta suele ser de primer orden aunque puede ser mayor
34
http://www.uv.es/jbosch/PDF/RectaMinimosCuadrados.pdf
35
Captulo 6. Bibliografa recomendada y recursos
disponibles en internet.
- Edicin digital:
36