Está en la página 1de 80

ESTADÍSTICA

EN QUÍMICA ANALÍTICA

IMPORTANCIA DE LA ESTADÍSTICA Y
LA QUIMIOMETRÍA EN LA QUÍMICA ANALÍTICA

Durante la realización de una análisis
cuantitativo es muy importante tomar en
cuenta todas las variables que pueden
afectar nuestro resultado, dentro de estos
están los factores provocados por los
instrumentos utilizados y los errores
provocados por quien maneja el material.

IMPORTANCIA DE LA ESTADÍSTICA Y
LA QUIMIOMETRÍA EN LA QUÍMICA ANALÍTICA

En el reporte de cualquier análisis
químico, es importante tomar en cuenta
este tipo de errores , hacer un análisis
de los resultados y así se podrá concluir
sobre él.

¿ Qué es estadística?
 La estadística es una colección de métodos
para planificar y realizar  experimentos, obtener
datos y luego analizar, interpretar, y formular
una conclusión basada en esos datos. Es la
ciencia encargada de recopilar, organizar,
analizar e interpretar información numérica  o
cualitativa, de manera que pueda llevar a
conclusiones válidas.

.

con objeto de d a lid i deducir las leyes que rigen esos fenómenos. La Estadística es la Ciencia de la iv t ip r sc e D a Sistematización. ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico. . tomar decisiones u obtener fe n I conclusiones.La Estadística se utiliza como tecnología al servicio de las ciencias donde la variabilidad y la incertidumbre forman parte de su naturaleza. recolección. ab b o r P ia c y poder de esa forma hacer previsiones sobre los en r mismos.

Medidas de tendencia central Medidas de dispersión Media aritmética Mediana Moda Percentiles (posición) Rango (amplitud) Rango intercuartílico Varianza Coef. de variación 7 .

.

 Mediana ◦ En una serie de datos ordenados (creciente o decreciente) es la puntuación o valor central de la distribución estadística  Datos no agrupados  Si el nº de datos es impar: valor central  Si el nº de datos es par: media aritmética de los 2 puntos centrales .

 Más representativa que la media cuando puntuaciones muy extremas.  Se puede calcular aunque algún intervalo carezca de límite. Mediana ◦ Características  Menos sensible que la media a la variación de las puntuaciones. .

 Moda ◦ Valor de la variable que más veces se repite en una serie estadística (máxima frecuencia)  Distribuciones: Unimodales o multimodales  Marca de clase (en intervalos) – Características: • Sencilla de calcular • Se puede calcular si algún intervalo no tiene límites • Poco representativa .

 Media ◦ Suma de todos los valores de una variable dividida por el número total de valores ◦ Sólo en variables cuantitativas • X =  xi / N .

 Media. Cálculo ◦ Datos no agrupados: aplicar fórmula ◦ Datos agrupados  En tabla de frecuencia: Suma de todos los valores multiplicados por sus frecuencias y dividido por el nº total. X =  xi fi / N .

 No se puede calcular si algún intervalo es de límite abierto.  No es recomendable si valores muy extremos . Media ◦ Características  La media es sensible a la variación de las puntuaciones.

 Complementan las de tendencia central para la descripción de una distribución . oscilación de los datos. Reflejan la dispersión. respecto al fenómeno estudiado.

 Amplitud o rango ◦ Diferencia entre el valor más alto y más bajo de la distribución.  Suele acompañar a la moda. .  Indica el “campo de variabilidad”.  Ofrece poca información sobre la agrupación de los datos.

la que mejor expresa la variabilidad del fenómeno ◦ Media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética •S2 =  (xi – x)2 / N •S2 =  xi2 / N – x2 – Para datos agrupados: •S2 =  fi(xi – x) 2 / N •S2 =  fixi2 / N – x2 . Varianza ◦ Junto a la desviación típica.

 Desviación típica ◦ Es la raíz cuadrada de la varianza •S2 =  xi2 / N – x2 – Para datos agrupados: •S2 =  fixi2 / N –x2 .

. la desviación típica será muy grande. toman el valor 0.  Si todos los datos de una distribución son iguales entre sí. Varianza y desviación típica ◦ Características  Ambas toman siempre valores positivos.  Sólo son aplicables a variables cuantitativas • La que más se suele usar es la desviación típica. • Si los datos están muy dispersos.

100 . Coeficiente de variación de Pearson ◦ Para poder comparar la dispersión entre 2 ó más variables entre sí. o una misma variable en 2 ó más grupos estudiados ◦ Es una medida relativa: Relaciona la media con la desviación típica • CV = S / X .

DATOS AGRUPADOS EN INTERVALOS: DATOS NO AGRUPADOS EN INTERVALOS: X  ni  Xi n Xi 4 3 2 1 0 Xi 4 3 2 1 0 SUPUESTO DE CONCENTRACION EN EL PUNTO MEDIO (Xi): X ni 1 3 7 6 3 ni 1 3 7 6 3 mitjana= Xi*ni 4 9 14 6 0 33 33/5= 6. En una distribución de datos estos pueden estar o no agrupados.6 Xi 18 20 15 17 12 14 9 11 6 8 3 5  ni  Xi n ni 20 30 60 40 30 20 P.65 . M. 19 16 13 10 7 4 mitjanna= Xi 18-20 15-17 12-14 9-11 6-8 3-5 PM*ni 380 480 780 400 210 80 2330 2330/200= ni 20 30 60 40 30 20 11.

124 Media=25 LA MEDIA ES MUY SENSIBLE A LAS PUNTUACIONES EXTREMAS 3.5. CUANDO HAYA VALORES EXTREMOS.4.¿CUANDO ELEGIR LA MEDIANA EN LUGAR DE LA MEDIA?: 1. EJEMPLO: 3. 2. CUANDO LA VARIABLE ESTE MEDIDA EN UNA ESCALA ORDINAL. YA QUE ESTOS CARECEN DE PUNTO MEDIO.6. PUES ESTOS DISTORSIONAN LA INTERPRETACION DE LA MEDIA.8. CUANDO HAYA INTERVALOS ABIERTOS. .

MAS DIFERENCIAS ENTRE ELLAS. .LAS TRES MEDIDAS DE TENDENCIA CENTRAL COINCIDEN CUANDO LA DISTRIBUCION ES UNIMODAL Y SIMETRICA (EJEMPLO: DISTRIBUCION NORMAL). CUANTO MAS ASIMETRIA.

f(X) Media Mediana Moda  X Datos simétricos: coinciden la media. la mediana y la moda .

99.0 95 y a más o menos 3σ es de 0. (Las propiedades continuan en la próxima lámina) . a más o menos 2σ es de .El área bajo la curva aproximado del promedio μ a más o menos una desviación estándar (1σ) es de 0.68.

. para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media. y un 50% de observar un dato menor. La curva normal es asintótica al eje de X. Tiene una única moda que coincide con su media y su mediana. Es simétrica con respecto a su media μ . Según esto.La forma de la campana de Gauss depende de los parámetros μ y σ.

    Podemos concluir que hay una familia de distribuciones con una forma común. diferenciadas por los valores de su media y su varianza. De entre todas ellas.  La desviación estándar (σ ) determina el grado de apuntamiento de la curva. más se dispersarán los datos en torno a la media y la curva será más plana. la más utilizada es la distribución normal estándar.  Cuanto mayor sea el valor de σ.  La media indica la posición de la campana. de modo que para diferentes valores de μ la gráfica es desplazada a lo largo del eje horizontal.  . que corresponde a una distribución de media 0 y varianza 1.

 La fiabilidad de un resultado se analiza de diferentes maneras  Se analizan patrones de composición conocida  Se aplican pruebas estadísticas a los datos  .Es imposible efectuar análisis químicos totalmente libres de errores o incertidumbres.

En ciencias e ingeniería. INCERTIDUMBRE. el error. Coloquialmente. INCERTIDUMBRE: es el intervalo o rango de los valores posibles de una medida. Incluye tanto los errores sistemáticos como aleatorios. ésta da una medida del error aleatorio. En ciencia e ingeniería. en la determinación del resultado de una medición. . el concepto de error tiene un significado diferente del uso habitual de este término. ERROR: es la medida del sesgo en el resultado de una medición. La incertidumbre de un resultado es bien diferente de la precisión. es usual el empleo del término error como análogo o equivalente a equivocación. está más bien asociado al concepto de INCERTEZA.

.

Este tipo de error es responsabilidad del material empleado y de su origen y presión de fabricación. Este tipo de errores son los que comete el operador del instrumento utilizado. son demasiado grandes. . y se denomina también sesgo de la medida. Estos errores afectan la precisión de un experimento.Errores Groseros o accidentales Son errores que son tan importantes que no existe alternativa real que abandonar el experimento y empezar de nuevo por completo. Sistemáticos Provocan que todos los resultados sean erróneos en el mismo sentido. Aleatorio Estos provocan que los resultados individuales difieran uno del otro de manera que caigan a ambos lados del valor medio.

.

.Nos indica si medimos u obtuvimos mas o menos que el valor experimental. y en qué cantidad excedimos del valor real o qué cantidad nos faltó.Es una forma de conocer el porcentaje de error que obtuvimos en nuestros resultados. ER = (valor experimental – valor teórico) x 100 (valor teórico) . Error absoluto. EA = valor experimental – valor teórico • Error relativo.. esto según el signo de la sustracción.

Los errores presentes en un estudio analítico modifican: • Precisión Es el grado de confianza con que se puede repetir un experimento y este puede dar los mismo resultados. Es utilizado como sinónimo de repetitibilidad. • Exactitud Es el grado de concordancia entre el resultado de un ensayo y el valor de referencia aceptado. .

Es la medida de tendencia central mas utilizada .Media. Media aritmética y promedio (X) son términos sinónimos.  Mediana es el resultado alrededor del cual se reparten los demás por igual. . Si la serie es un numero impar la mediana es el numero de la mitad. Si la serie es un numero par se toma el promedio del par central después de haber ordenado la serie de menor a mayor.Se obtiene dividiendo la suma de los valores de una serie y dividiendo por el numero de medidas del conjunto.

10. Ejemplo: calcular la media y la mediana de 10.06+10. 10.08+10. 10.  Media = X =10.20.08 +10.10 = 10.10.06.09 2 .20+10.08.10 = 10.11 4 Mediana = 10.

 Es el numero necesario de dígitos para expresar los resultados de una medición congruente con la precisión de medida. 3 decenas y 7 unidades  El numero de cifras significativas incluye todos los dígitos que se conocen mas el primer digito incierto. 237 : 2 centenas. .

067: Por ejemplo el numero 92.El numero de cifras significativas en una medición es independiente de la colocación del punto decimal. En este caso el cero si es una cifra significativa.0 el cero no se usa para localizar el punto decimal es significativo .067: Este numero tiene cinco cifras significativas independiente dondese coloque el punto decimal. Por ejemplo el numero 92. En el numero 727.

216 90. Tres cifras significativas . Cuatro cifras significativas.Ejemplos: 0.0670 Tres Cifras significativas. Tres cifras significativas.0 0.7 800.

 El término precisión describe la reproducibilidad de los resultados y se puede definir como la concordancia que hay entre los valores numéricos de dos o más mediciones que se han realizado de idéntica manera. La precisión sólo depende de la distribución de los errores aleatorios y no se relaciona con el valor verdadero ni con el valor especificado.Precisión. .

la varianza y el coeficiente de variación.Para describir la precisión de un conjunto de datos repetidos se utilizan tres términos muy conocidos:  La desviación estándar.  .

 La desviación estándar (DS/DE) es una medida de dispersión usada en estadística que nos dice cuánto tienden a alejarse los valores puntuales del promedio en una distribución. se usa n-1 . por lo que en el denominador en vez de n. Asi la varianza es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución. Aunque esta fórmula es correcta. en la práctica interesa realizar inferencias poblacionales.

C. METODOS ABSOLUTOS PARA EXPRESAR LA PRECISION  Desviación estándar  Desviación respecto a la media  Varianza:  Coeficiente de variación.V = S/Media *100 es la diferencia numérica entre un valor experimental y la media .

 Cuando no se conoce el valor verdadero se debe usar un valor aceptado.EXACTITUD : El término denota el grado de coincidencia del resultado de una medición con el valor verdadero o aceptado de la misma y se expresa en función del error. La exactitud implica una comparación con el valor verdadero o aceptado como tal.  .

Error relativo: Es el error absoluto dividido por la cantidad medida. Error Absoluto = 20.34 = 0.34 = 0.10% Error relativo = 0.0049 = 4. Ejemplo: Una muestra tiene 20.44%.9 partes por mil .       METODOS PARA MEDIR LA EXACTITUD Error absoluto: Es la diferencia entre el valor experimental y el valor real.1/20.34% de Fe y un analista encuentra que es 20.44-20.

. la precisión indica la concordancia entre las medidas que han sido realizadas de una misma forma. En términos generales la exactitud supone una comparación con un valor verdadero o aceptado como tal.

. en A buena exactitud y precisión. y en B mala exactitud y precisión. pero no buena exactitud.Esquema gráfico para comprender la relación entre exactitud y precisión En C existe buena precisión.

.

.

FUENTES DE ERRORES SISTEMÁTICOS  Errores instrumentales: Calibraciones deficientes  Errores del método: Dificiles de identificar  Errores personales: Descuido. Falta de atención .

Con los errores proporcionales el error absoluto varia con el tamaño de la muestra. Los errores sistemáticos pueden ser constantes o proporcionales  En los errores constantes el error absoluto es invariable con el tamaño de la muestra . .mientras el error relativo cambia al modificar dicho tamaño. en cambio el error relativo permanece constante.  Los errores proporcionales aumentan o disminuyen según el tamaño de la muestra.

Los errores sistemáticos
constantes o proporcionales.

pueden

ser

En los errores constantes, el error absoluto
es invariable con el tamaño de la muestra,
mientras en el error relativo cambia al
modificar el tamaño de la muestra.

Los errores proporcionales aumentan o
disminuyen según el tamaño de la muestra;
con estos errores el error absoluto varia con
el tamaño de la muestra en cambio el error
relativo permanece constante.

Son la principal fuente de incertidumbre en
una determinación.
 Muchas variables no controladas y de no
fácil
identificación
causan
errores
aleatorios.
 El efecto acumulativo de las incertidumbres,
aunque estas sean muy pequeñas, hace
que las mediciones por duplicado de una
serie fluctúen al azar.

Gloria María Mejía

Los errores aleatorios obedecen una curva
normal de error o curva de gauss.

Al iniciar el análisis estadístico de una serie
de datos, y después de la etapa de
detección y corrección de errores, un primer
paso consiste en describir la distribución de
las variables estudiadas y, en particular, de
los datos numéricos.

Un modo es con la curva de distribución
normal que muestra la frecuencia con que
se repiten los datos.

La población seria un numero de medidas muy grande cercano al infinito).   Los métodos estadísticos permiten categorizar y caracterizar los datos. Las leyes de la estadística se dedujeron para usarlas en poblaciones. ( caso del análisis de Ca en agua. y tomar decisiones objetivas en cuanto a su calidad e interpretación. . Hay que diferenciar entre muestra y población o universo. Para aplicarlas a muestras se debe hacer ajustes.

0004/0. 0.2043)*100 = 0.2043 Mediana M= (0.2049-0.0004 C.2042 Rango R = 0.Ejemplo 2.2039.0003 S= 0.2043)/4 = 0. La S. 0. la Mediana.2043)/2 = 0.2041.2039+0.2039 = 0. la desviación relativa y el C.001 La desviación relativa= Sumatoria de (Xi-X)/4=0. Calcular la X. La N de una solución se calculo con 4 titulaciones por separado y los resultados fueron 0. X = (0.2041+0.V.2043. El rango .2049.V = (0.2049+0.2% .2041+0. y 0.

.

Siempre es necesario indicar el nivel de confianza de los datos.  La probabilidad de equivocarnos se llama nivel de significancia y se simboliza α  .  Es un rango de valores en los que con una probabilidad determinada está un valor verdadero poblacional.  Generalmente son del 95% o 99%.

Se trabaja con las X  Se aplica el T de student.Se utiliza para comparar el resultado de un análisis realizado por dos métodos diferentes. La prueba T da una respuesta si o no a la hipótesis nula con cierta exactitud como del 95 o 99%  . Plantea la hipótesis de que las dos X son iguales.

Si t calculado es mayor que t de la tabla entonces los dos métodos son iguales Para poder calcular t hay que calcular primero la s de cada serie de datos .

Cómo determina si un valor es realmente un valor atípico y cómo decide si debe continuar o no con el análisis de datos? Uno de los problemas en el análisis de datos es manejar los valores atípicos dentro de un grupo de datos. Por lo general surgen dos preguntas: 1) ¿Es este valor realmente un valor atípico? 2) ¿Puedo eliminar este valor y continuar con el análisis de datos? . Un valor atípico es una observación con un valor que no parece corresponderse con el resto de los valores en el grupo de datos.

no para retirarlos del grupo de datos.Con respecto a la pregunta 2. una observación no debe retirarse a menos que una investigación halle una causa probable para justificar esta acción . Técnicamente. debe saberse que las pruebas estadísticas se utilizan para identificar valores atípicos.

¿qué debe hacerse? Un enfoque sería realizar un análisis de datos con el valor atípico y sin él. Si las conclusiones son diferentes. tal como la mediana de la muestra en lugar de la media. .Si en la investigación no se encuentra una causa probable. Otra opción es utilizar estimadores rigurosos para caracterizar los grupos de datos. entonces se considera que el valor atípico tiene influencia y esto debería indicarse en el informe.

Dos de las pruebas estadísticas utilizadas con mayor frecuencia en un grupo de datos son la prueba de Dixon y la prueba de Grubbs.  .  La prueba de Dixon utiliza relaciones de las diferencias entre datos que parecen atípicos comparados con los valores del grupo de datos.

 Una técnica rigurosa y amplia para identificar eficazmente múltiples valores atípicos es el procedimiento para muchos valores atípicos con generalización extrema de la desviación de Student. y por lo tanto no son adecuadas para la detección de múltiples valores atípicos.Estas técnicas están diseñadas para detectar un único valor atípico en un grupo de datos.  .

4.1.9.Por ejemplo. 4.3. 5. 3. Por lo tanto.9. el índice de Dixon es: (7.532 .5/4.8. 3.3. 4.3.8 El tamaño de la muestra es 7.8 – 5. 4.8 – 3.3)/(7.3) dividido por el espacio entre los valores más grandes y más pequeños en el grupo. 3.7 y 4.1) = 2. 4.8) y su vecino más próximo (5. 7.9. tomemos los datos 5.3 Ordenando los datos: 3.7. y la relación utilizada es el espacio entre el valor atípico (7. 7.1.9.7 = 0.

La tabla por lo general utiliza niveles de baja confianza tal como 1% o 5%. indicando que el valor 7. Para un n = 7 y un riesgo del 5%. n.8 es un valor atípico. El índice de Dixon 0. Si Dcalculado>Dtabulado se rechaza el dato El valor tabulado depende del tamaño de la muestra.507. el valor en la tabla es 0. que es el riesgo de rechazar una observación válida.532 excede este valor crítico. y el valor se declara valor atípico si supera ese valor crítico.Este valor se compara con un valor crítico de una tabla. . y de un nivel de confianza elegido.

Para aplicar la prueba de Dixon se requiere de un número de observaciones igual o mayor a 10. En el caso que las observaciones sean menores a 10 se utiliza como valor esperado el valor de preparación. .La prueba de Dixon se usa en un número pequeño de observaciones (menor a 26) y detecta elementos que se encuentren sesgados o que son extremos.

T. que es la diferencia absoluta entre el valor atípico. Para el ejemplo anterior. XO. y el promedio de la muestra (X) dividida por la desviación estándar de la muestra.48. s. el promedio de la muestra es = 4. La estadística calculada de la prueba es: .La prueba de Grubbs utiliza una estadística de prueba.86 y la desviación estándar de la muestra es = 1.

indicando que el valor 7.938 y el TCalculado = 1. .Para un n = 7 y un riesgo del 5%.99 excede este valor crítico.8 es un valor atípico. el valor tabulado es 1.

es incierto)  .24 tiene 4 cifras significativas (4.  Cifras significativas: Son todos los dígitos que se conocen con certeza y el primer digito incierto. Por ejemplo 30. el ultimo digito.Un indicador de la calidad de los datos es la utilización de las cifras significativas.

2000 tiene una cifra significativa.  Los ceros al final pueden o no ser significativos.  .0 tiene dos cifras significativas.El cero puede ser significativo o no según su ubicación en el numero. 2. 2x103 tiene una. Un cero rodeado por otros dígitos siempre es significativo.

En la multiplicación y la división se debe expresar el resultado con las cifras significativas del numero que tenga menor cifras significativas. Cuando se suman o restan números con notación científica se debe expresar el resultado en la misma potencia de 10.   Para las sumas y las restas el resultado debe tener el mismo numero de decimales que el numero que tiene menos decimales. .

 . Queda 61.  61.56  De todas maneras el resultado debe expresarse con la desviación estándar calculada.Redondeo de datos:  Se debe aproximar al numero mayor si el ultimo es mayor de 5 y al menor si el ultimo es menor de 5.555 se aproxima al numero par mas cercano .

Estadísticamente los objetivos del proceso de muestreo son:  1. Obtener el valor medio  2. Obtener una varianza que sea una estimación de la varianza poblacional con limites de confianza validos para la media.  .

Calidad de resultados     Selectividad Analito en medio de interferencias Limite de detección Promedio de bcos +3(desviación) Limite de cuantificación 5 ò 10 L. Gloria María Mejía Z .D.    Rango lineal Exactitud. Intervalo de trabajo Rango en que el método es exacto y preciso. Adición de cantidades  conocidas  GRÁFICOS DE CONTROL. Valor de referencia Precisión Desviación y CV Sensibilidad Pendiente  % Recuperación.

Curvas de calibración  Linealidad  Pendiente  Sensibilidad  Residuales  Coeficiente de correlación  Gloria María Mejía Z .

menores son los residuales Gloria María Mejía Z .Curvas de calibración: Mínimos Cuadrados  Modelo de regresión: Y=mx+b   Cuanto mas cercanos están los datos a la línea que se obtiene del análisis por mínimos cuadrados.

 Transformaciones para linearizar las funciones.Variables transformadas.  Gloria María Mejía Z .