Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Quimiometra
1 Edicin (2011)
Diponible en
Por favor, use este identificador para citar o enlazar este tem: http://hdl.handle.net/10261/42131
NDICE
Captulo 1. Introduccin
Captulo 2. Conceptos bsicos y Probabilidad.
2.1. El concepto de Probabilidad.
2.2. Distribucin de datos aleatorios.
2.3. El caso de la distribucin normalizada.
2.4. Muestras representativas y Teorema Central del Lmite
Captulo 3. Estadstica descriptiva.
3.1. El concepto de Estadstico
3.2. El sentido de un valor analtico.
3.3. Incertidumbre de un valor analtico.
3.4. Presentacin de resultados y propagacin de errores.
Captulo 4. Estadstica inferencial.
4.1. Contraste de hiptesis
4.2. Estadstico de contraste y concepto de p-valor.
4.3. Tipos de variables y clasificacin de los tests estadsticos.
Captulo 5. Tests estadsticos bsicos en anlisis qumico.
5.1. Anlisis para una muestra poblacional
5.1.1. Anlisis descriptivos
5.1.2. Test de Normalidad
5.1.3. Contraste de la media de una poblacin con un valor de referencia
5.1.3.1. Prueba de la t de Student (paramtrico)
5.1.3.2. Prueba de Signos (no paramtrico)
5.2. Anlisis para dos muestras poblacionales
5.2.1. Prueba de la t de Student (paramtrico)
5.2.2. Prueba de la U de Mann-Whitney para muestras independientes
(no paramtrico)
5.2.3. Prueba de Wilcoxon para muestras dependientes (no paramtrico)
5.3. Anlisis para ms de dos muestras poblacionales
5.3.1. Anlisis de la varianza (ANOVA, paramtrico)
5.3.2. Anlisis de Krustal-Wallis (no paramtrico)
5.4. Anlisis de la correlacin.
5.4.1. Regresin lineal
5.5. Cuadro resumen
Captulo 6. Bibliografa recomendada y recursos disponibles en internet.
Captulo 1. Introduccin
La Qumica Analtica tiene en la Estadstica una de sus herramientas
fundamentales. Esta imprescindible relacin ha dado lugar en los ltimos aos al
desarrollo de la Quimiometra, una disciplina que aplica las tcnicas matemticas de la
estadstica a los problemas analticos de la identificacin y cuantificacin de las
sustancias qumicas, siendo habitual el uso de la quimiometra en cualquier anlisis
qumico. En la actualidad, esta disciplina ha ganado importancia debido sobre todo por
cantidad de informacin que obtenemos a travs de los equipos instrumentales (los
cuales generan una gran cantidad de datos numricos) y por el incremento en la
capacidad de clculo de los ordenadores actuales.
La Estadstica describe el comportamiento aleatorio de las variables analticas
que usamos en el laboratorio. As, se puede usar para deducir las leyes de la
probabilidad que rigen dichos comportamientos, con el fin de hacer previsiones sobre
los mismos, tomar decisiones u obtener conclusiones. Por lo tanto, podemos clasificar a
la estadstica como descriptiva, la cual nos dar solo informacin detallada de un
conjunto de datos, e inferencial, cuando el objetivo del estudio se centra en derivar las
conclusiones obtenidas de nuestro estudio a un conjunto de datos ms amplio, es decir,
hacer predicciones de los comportamientos de las variables analticas.
As, el siguiente manual describe conceptos bsicos de probabilidad, de
estadstica descriptiva e inferencial, siempre desde un punto de vista prctico y
aplicado al anlisis qumico. Fruto de ese enfoque prctico, se ofrecen alternativas para
el desarrollo de los estudios estadsticos a travs de numerosos recursos gratuitos
disponibles actualmente en internet. Es importante constar que para una mayor
profundizacin en los conceptos tericos aqu comentados, se recomienda consultar los
textos didcticos referenciados que se han seguido para elaborar este texto, as como
las diversas fuentes de informacin comentadas en el ltimo captulo de este manual.
Este trabajo est dedicado al Dr. Ignacio F. Lpez Garca (Universidad de
Murcia) por sus enseanzas universitarias en quimiometra, al Dr. Flix Belzunce
Torregrosa (Universidad de Murcia) por trasmitirme sus conocimientos matemticos
de estadstica y a la Dra. Diana Marco (Universidad Nacional de Crdoba), por sus
importantes comentarios en la aplicacin de la estadstica en ecologa.
Nota: Muchos de los ejemplos comentados en este Manual estn disponibles en internet a travs
de Applets desarrollados en Javascrip, por lo que se recomienda instalar un software para ello
(http://java.com/es/).
Sacado de http://bcs.whfreeman.com/ips4e/cat_010/applets/Probability.html
Como podemos observar, la frecuencia relativa tiende a 0,5 conforme el nmero
de tiradas es mayor, o lo que es lo mismo, la probabilidad de tirar una moneda y sea
cara o cruz es del 50%.
Nota: si no tienes paciencia de tirar monedas, en la siguiente web puedes obtener los
resultados de este experimento (http://www.ematematicas.net/simulacionmoneda.php).
Tambin puedes verlo en esta web (est en ingls):
http://bcs.whfreeman.com/ips4e/cat_010/applets/Probability.html
As, podemos definir la probabilidad del suceso (en nuestro caso el lanzamiento
de monedas) como el valor al cual tiende la frecuencia relativa en un experimento. Por
lo tanto, con la probabilidad podemos conocer el comportamiento que rigen los
fenmenos aleatorios que estudiamos y estimar su resultado.
2.2.
2.3.
Nota: con el fin de calcular la probabilidad, a esta ecuacin se le aplica una transformacin
matemtica para estandarizarla, es decir, para que el rea de la campana sea 1 (o el 100%).
Veamos un ejemplo de qumica analtica, un anlisis cuantitativo de la
concentracin de nitrato en una muestra de agua:
0,51
0,51
0,49
0,50
0,50
0,47
0,50
0,47
0,48
0,51
esta Figura, podemos saber que el 68% de los datos que se distribuyen normalmente
estn comprendido en el intervalo , el 95% en el intervalo 2 y finalmente, el
99,7% en el intervalo 3.
Como ya hemos comentado, este tipo de distribucin es muy importante siendo
referencia para muchas pruebas estadsticas. Cuando nuestros datos no siguen esta
distribucin, una alternativa es transformarlos matemticamente mediante el clculo
del logaritmo, tal y como podemos ver en el siguiente ejemplo.
2.4.
10
Veamos el Teorema Central del Lmite. Este nos dice que cuando analizamos
una poblacin de datos mediante varios subgrupos de muestras representativas
(ejemplo: queremos saber la poblacin media de los hombres de un pas y se cogen
varios grupos de individuos correspondientes a las principales ciudades del mismo),
cada una de ellas puede obtener una distribucin distinta entre ellas (Los hombres de
las ciudades del norte son ms bajos, y los del sur son ms variables, etc.). Si
aumentamos el nmero de ciudades que estudiamos (como por ejemplo a 30), la
distribucin de las medias de las alturas de todas las ciudades tender a una
distribucin normalizada. Este ejemplo lo podemos visualizar en la siguiente figura:
Ejemplo sacado de
http://terra.es/personal2/jpb00000/test
imaciondelamedia.htm
Aunque las teoras estadsticas nos indiquen el tamao muestral necesario para
nuestros experimentos, muchas veces esos valores estn en contraposicin con la
viabilidad tcnica y econmica de quien hace los estudios. Realizar un experimento con
una carga analtica de ms de 30 muestras por cada tratamiento puede ser inviable en
muchos casos.
La solucin a este problema no es fcil, y se tiene que llegar a una relacin de
compromiso teniendo en cuenta la siguiente premisa: cuanto mayor sea el nmero de
repeticiones, ms potencia tendr nuestro estudio estadstico, y por tanto, las
conclusiones que saquemos.
11
3.1.
El concepto de Estadstico.
12
0,51
0,51
0,49
0,50
0,50
0,47
0,50
0,47
0,48
0,51
Media: 0,50
Desviacin estndar: 0,02
Varianza: 0,0003
Coeficiente de variacin (%): 3,36%
3.2.
Groseros o accidentales
Aleatorios
Sistemticos
13
Nota: el verdadero valor est situado en el centro de cada circunferencia y las cruces
corresponden a cada repeticin del anlisis
14
3.3.
Intervalo de confianza:
15
4,30
2,57
2,23
2,09
2,01
1,98
9,92
4,03
3,17
2,85
2,68
2,63
Sacado de http://es.wikipedia.org/wiki/Distribucion_normal
16
3.4.
Nota: el intervalo de confianza tiene sentido cuando tenemos muchas repeticiones. Cuando son
pocas, (n 10) no tiene mucho sentido
17
18
19
4.1.
Contraste de hiptesis.
20
Nuestra eleccin
Escogemos H0 como
cierta
Escogemos H1 como
cierta
Realidad
H0 es cierta
H1 es cierta
Decisin correcta de Tipo A
Error de tipo II (p= )
(p = 1-)
Decisin correcta de Tipo B
Error de tipo I (p = )
(p= 1-)
Como podemos observar, tenemos cuatro posibilidades. Dos de ellas en las que
no cometemos error en la formulacin de nuestra hiptesis.
-
Las otras dos nos informan del error que hemos cometido en nuestra hiptesis:
-
Nota: Para hacer un contraste de hiptesis, debemos definir muy bien cual es la hiptesis
nula (H0) y alternativa (H1), ya que todas las conclusiones se harn en base a esto.
21
Vemoslo grficamente:
22
4.2.
Una vez vistas todas las posibilidades, cul es el criterio que debemos seguir
para poder afirmar u descartar una hiptesis? Para eso debemos calcular el estadstico
de contraste, que a su vez nos dar el p-valor.
Este es un parmetro que se calcula teniendo en cuenta que los datos cumplen
la distribucin normalizada y se relaciona con el rea de la curva la cual se
correspondera con la regin de rechazo, es decir, que si nuestra muestra est en esa
zona podramos descartar la hiptesis nula (H0).
Si ese valor fuese menor que el nivel de significacin () que hemos prefijado,
podramos rechazar la hiptesis nula.
Nota: los valores ms usados para son 0,05, 0,01 y 0,001, es decir, que la probabilidad de
acertar en nuestra afirmacin sera del 95%, 99% y 99,9% respectivamente.
23
En este ltimo caso, para obtener el p-valor, deberamos consultar las tablas
para la distribucin estandarizada de la t-Student, en la cual deberemos saber los
grados de libertad (n-1), siendo n el nmero de muestras.
Nota: En cualquier manual de estadstica podemos encontrar estas tablas y cualquier software
de estadstica las lleva incorporadas en sus anlisis dndote directamente el p-valor. Si no, se
pueden consultar en internet aqu:
http://es.wikibooks.org/wiki/Tablas_estadisticas/Distribucion_t_de_Student
Como podemos observar, nos ha salido un p-valor = 0.0001 (p-valor 0,05). Por
lo tanto, podemos rechazar la hiptesis nula y confirmar que la concentracin de
nitratos obtenida en las muestras analizadas es mayor que 50 significativamente (con
un 95% de probabilidad).
4.3.
Cualitativas. Son aquellas que expresan una propiedad de las muestras que
no se puede expresar numricamente (ejemplo: el color de los ojos). A su
vez, podemos clasificarlas en dos grupos:
o
Nota: en general, estos tests presentan la misma filosofa. Calculan estadsticos de contraste que
nos permitirn obtener un p-valor, el cual utilizaremos para afirmar la validez de nuestra
hiptesis nula H0 planteadas al compararlo con el valor de significancia (0,05, 0,01 y 0,001
segn convengamos).
A continuacin, en el siguiente apartado veremos algunos tests estadsticos
bsicos que nos podremos encontrar en cualquier anlisis de muestras de inters
biolgico. Estas se centrarn en tres grandes grupos: anlisis para una muestra
poblacional, anlisis para varias muestras poblacionales y anlisis de regresin y
correlacin.
26
5.1.
Sacado de
http://www.tuveras.com/estadistica/estadistica02.htm
http://graphpad.com/quickcalcs/CImean1.cfm
http://home.ubalt.edu/ntsbarsh/Businessstat/otherapplets/Descriptive.htm
http://www.openepi.com/OE2.3/Menu/OpenEpiMenu.htm
Sacado de http://en.wikipedia.org/wiki/Skewness
28
Sacado de http://www.uv.es/ceaces/base/descriptiva/curtosis.htm
Existen numerosas webs donde se pueden realizar este tipo de tests, cuyos
resultados suelen ser de este tipo:
Nota: cuando tengamos pocas repeticiones, este tipo de tests saldrn siempre normalizados. Si
los datos estn normalizados, deberemos usar los tests paramtricos y si no, los no paramtricos.
Sacado de http://www.aiaccess.net/English/Glossaries/GlosMod/e_gm_t_test.htm
En estas pginas se pueden realizar este tets:
http://www.graphpad.com/quickcalcs/OneSampleT1.cfm?Format=SD
http://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/MeanTest.htm
http://www1.assumption.edu/users/avadum/applets/applets.html
5.2.
http://graphpad.com/quickcalcs/ttest1.cfm
http://faculty.vassar.edu/lowry/tu_esp.html
Nota: Para profundizar sobre esta prueba, consultar esta web:
http://www.fisterra.com/mbe/investiga/t_student/t_student.asp#dependientes
Sacado de http://personales.upv.es/jcanizar/modulo_3/diferenciales_4.html
El cual contrastaremos con los valores de significancia (0,05, 0,01 y 0,001) para
as saber si existe diferencia estadsticamente significativa entre ambas poblaciones de
muestras.
Para realizar esta prueba, se pueden consultar las siguientes webs:
http://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/Ustat.htm
http://faculty.vassar.edu/lowry/utest.html
31
5.3.
Sacado de http://www.bexcellence.org/Anova.html
Se basa en el contraste de las medias de las muestras y su varianza. Para saber
ms sobre los clculos aritmticos que incluyen, consultar las siguientes pginas:
http://www.seh-lelha.org/anova.htm
32
http://e-stadistica.bio.ucm.es/cont_mod_1.html#Anova
Finalmente, se calcular un estadstico de contraste F y que dar un valor de p
que compararemos segn nuestro nivel de significacin (0,05, 0,01 y 0,001). Este test
nos dir si las muestras poblacionales son distintas significativamente pero no entre si,
es decir, por parejas de muestras poblacionales. Para eso se realizan los tests post-hoc,
como los tests de Duncan, Tukey o Fisher (mnima diferencia significativa o LSD),
todos ellos basados en la t de Student.
5.4.
Anlisis de la correlacin.
http://www.uv.es/jbosch/PDF/RectaMinimosCuadrados.pdf
5.5.
Cuadro resumen.
35
Captulo 6. Bibliografa
disponibles en internet.
recomendada
recursos
Webs:
Statistical
Calculations!
36