Está en la página 1de 50

TRATAMIENTO

ESTADISTICO DE
MUESTRAS FINITAS

El anlisis qumico y la estadstica


La correcta utilizacin de los mtodos estadsticos permite
profundizar en el conocimiento de los fenmenos de la
variabilidad de manera que, aunque el conocimiento obtenido
sea imperfecto, permite asumir un riesgo conocido en la
interpretacin o toma de decisiones a partir de los datos
experimentales.
La Estadstica puede ser aplicada a conjuntos pequeos de
datos, especialmente a los obtenidos por medidas repetidas
(rplicas). No mejora los datos en el sentido de que elimine los
errores o incertidumbres, sino que los mejora en el sentido de
que permite establecer cotas o intervalos de incertidumbre
sobre ellos.

DEFINICIONES

INTERVALO DE CONFIANZA
Es el intervalo que se espera contenga el verdadero valor del
parmetro poblacional.
NIVEL DE CONFIANZA
Medido por (1-) es la probabilidad de que el intervalo de
confianza contenga al verdadero valor del parmetro
poblacional.
NIVEL DE SIGNIFICACION
Medido por indica el riesgo de que el intervalo de confianza
no contenga el verdadero valor del parmetro poblacional.

ANTES DE APLICAR EL ANLISIS ESTADISTICO A


NUESTROS DATOS DEBEMOS TOMAR EN CUENTA QUE:

LOS DATOS CUYA PRECISION Y EXACTITUD NO


SE CONOCEN (O NO SE INFORMAN) SON
INUTILES.
LA EXACTITUD QUE ES LA CERCANIA DE UN
VALOR MEDIDO AL VALOR VERDADERO, INCLUYE
EL CONCEPTO DE SESGO.
UN PROCESO DE MEDICIN DEBE SER NO
SESGADO
PARA
PRODUCIR
RESULTADOS
EXACTOS.

El anlisis qumico y la estadstica


Dentro del trabajo de un laboratorio de anlisis no se puede,
por lo general, llevar a cabo el estudio de la poblacin, sino
nicamente de una muestra, representativa de la anterior.
Por lo tanto, todos los parmetros estadsticos de la poblacin
han de estimarse a partir de los parmetros de la muestra.
La Estadstica permite abordar, con rigor cientfico,
problemas surgidos de la variabilidad de los datos y obtener
conclusiones acerca de la poblacin basndose en los datos
experimentales procedentes de una muestra.

Algunas definiciones...

Los requisitos bsicos para aplicar mtodos estadsticos a


los datos procedentes de una medida son :
El sistema de medida sea estable.
Las medidas individuales sean independientes unas de
otras.
Las medidas individuales
representativas de la poblacin.

sean

aleatoriamente

Esto significa que nuestro sistema est bajo control


estadstico.

Despus de llevar a cabo un anlisis de los


datos el objetivo es poder
generalizar los resultados para conjuntos ms
grandes de individuos
as como poder sacar conclusiones a partir de
los datos.
La PROBABILIDAD permite calibrar el poder de
nuestras conclusiones

Los datos que habitualmente se analizan provienen de


un experimento aleatorio:
Aleatorios o estocsticos
Experimentos
No aleatorios o deterministas
Un experimento aleatorio es aquel que bajo las mismas condiciones
puede producir resultados diferentes pero con una distribucin regular
de resultados para un nmero grande de repeticiones.
Un experimento es determinista si bajo las mismas condiciones
siempre conduce a un mismo resultado.
Las variables aleatorias definen de forma numrica los resultados de
un experimento aleatorio. Estas son aplicaciones que transforman los
resultados de un experimento aleatorio en nmeros con el fin de poder
realizar las operaciones ms usuales.

Antes de realizar cualquier inferencia estadstica es


necesario identificar la distribucin de probabilidad de
la variable aleatoria que se pretende analizar.
Algunos instrumentos para ello son:
Histograma, rango de la variable.
Grficos de caja
Pruebas de ajuste a una distribucin

Desviacin estndar:

i=n

i=1

xi - x2
n-1

Recordemos que en una distribucin normal desconocemos


y ( son nmeros infinitos)
Ya que trabajamos con muestras finitas entonces usamos x y
Esto implica que estos estimados estn sujetos a la incertidumbre, lo que
tenemos en realidad es una especie de curva de distribucin confusa en
la cual hay que basarse para cualquier prediccin de deseamos.
A fin realizar predicciones en base a una muestra finita de una poblacin
desconocida hacemos uso de la teora de Student y utilizaremos la t de
Student para tal fin.

En inferencia estadstica uno de los instrumentos ms


comunes son los intervalos de confianza para estimar
el valor de un parmetro de la poblacin.
Un intervalo de confianza del C% para un parmetro
es un intervalo de valores calculado a partir de los datos
de la muestra utilizando un mtodo que tiene una
probabilidad C de que dicho intervalo contenga el
verdadero valor del parmetro.
La media muestral y la desviacin estndar son buenos
estimadores puntuales de la media y la desviacin
estndar de la poblacin.
Dado que los datos son las observaciones de una variable
aleatoria, estos estimadores son a la vez variables
aleatorias. Por lo tanto tienen una determinada
distribucin, que en el caso de la media es Normal.

Grficamente: para una normal tipificada, un intervalo de confianza del


95% se puede representar como:
La probabilidad de que una
variable normal tipificada
tome valores en el intervalo
[-1.96,1.96] es del 95%.

95%

2.5%

2.5%

La t de Student como definicin del


intervalo de confianza tiene
siguiente expresin
n

tn-1 = ( x-

)
Rearreglando esta ecuacin podemos estimar el valor de
=

tn-1
n

La distribucin de Student tiene las mismas propiedades de


simetra que la normal tipificada.

Como trabajamos con la t de Student?


Un qumico determin el porcentaje de hierro en un mineral y
obtuvo los siguientes resultados
x = 15,30
= 0,10

a) Calcule el 95% de intervalo de confianza de la


media sabiendo que la t = 3,1824 para un n =
4.
b) Calcule el 99% de intervalo de confianza de la
media sabiendo que la t = 5,8408 para un n =
4.

n=4

Resultados:
a) 15,30 0,16 con el 95% de I.

15,1415,46
b) 15,30 0,29 con el 99% de I.C
15,0115,59

Analicemos
Porqu

la t de
student es menor
para el intervalo de
confianza de 95%
Tiene esto alguna
influencia en el

Es razonable ya
que con tan
pocos datos a
medida que
aumenta el
intervalo de
confianza de la
respuesta la

Conclusin
Si no conocemos x y no podemos utilizar la t de Student

Mientras ms pequea sea la muestra poblacional mayor


ser la t de Student

A medida que aumenta el intervalo de confianza requerido


con un muestreo pequeo mayor ser el nivel de confianza

Problema
En un establecimiento dedicado a la
elaboracin de alimentos balanceados
para aves, se afirma que su producto
aumenta el peso promedio de las aves en
30g diarios. En una muestra de 9 aves
tomadas al azar, se obtuvo un aumento
promedio de 35g con desviacin de 3,04
g. Estimar el intervalo de confianza del
95% para el verdadero aumento promedio

Problema,
Se sembr cierta variedad de trigo en
parcela de cierta localidad, se extrajo una
muestra al azar de 20 parcelas y se midi el
rendimiento. Se obtuvo un rendimiento de 58
kilogramos por parcela y una desviacin
tpica de 8 kg por parcela. Estimar la
varianza poblacional con un nivel de
confianza del 95%, sabiendo que el
rendimiento se distribuye normalmente

PRUEBA DE
SIGNIFICANCIA.
Pruebas
de
Hiptesis
Un segundo bloque de instrumentos para la inferencia
estadstica son las pruebas de hiptesis: Evalan la
evidencia de una afirmacin sobre la poblacin.
En estadstica una afirmacin sobre la poblacin se
plantea en forma de hiptesis de trabajo. Las dos
hiptesis complementarias se llaman:
Hiptesis nula (H0)
Hiptesis alternativa o de investigacin (H1)
Las hiptesis hacen siempre referencia a los parmetros
de la poblacin.

Hiptesis Nula H0: Suposicin acerca de


un parmetro de la poblacin.
Hiptesis Alternativa H1 : una afirmacin
que se acepta si los datos de la muestra
proporcionan evidencia acerca de que la
hiptesis nula es falsa
Nivel de Significancia: Probabilidad de
rechazar la hiptesis nula cuando es
verdadera
Error tipo
II: Aceptar
la hiptesis
nula
de tipo
I: Rechazar
la hipteis
nula
cuando es falsa.
verdadera.
Estadstica de prueba: Un valor que se
calcula con base en la informacin de la
muestra y que se utiliza para determinar si
se rechaza la hiptesis nula. Ej. La t de
student calculada
Valor crtico: Punto de divisin entre la

Qu es una prueba de
hiptesis?
Prueba de hiptesis: Es un
procedimiento
basado en la evidencia de la muestra
y en
la teora de probabilidad para
determinar si la
hiptesis es un enunciado razonable
por el
contrario debe ser rechazado

Que es una
Hiptesis?

Hiptesis: Es una suposicin


acerca de un parmetro de la
poblacin, que se desarrolla con
el objeto de probar algo
Ejemplo :
El ingreso medio de un Ingeniero
Agrnomo es de $3625.
20% de las parcela de soya de esa
regin estn afectadas por Roya.

COMO SE APLICA ?

Establecimiento de hiptesis nula y


alternativa.
Seleccin de un nivel de
significacin.
Identificacin de la Estadstica de
prueba.
Formulacin de una regla de
decisin
Tomar una muestra para llegar a

La prueba de hiptesis es un procedimiento


que especifica:
1. Para qu valores muestrales la decisin
ser no rechazar la hiptesis nula.
2. Para qu valores muestrales la hiptesis
nula ser rechazada a favor de la
alternativa.
P-valor: probabilidad que, bajo H0 el
estadstico de contraste tome un valor al
menos tan alejado como el realmente
obtenido.
Cuanto ms pequeo sea el p-valor mayor
es la evidencia en contra de H

En un contraste de hiptesis,
debemos aceptar o rechazar una de
las dos hiptesis planteadas.
Deseamos que nuestra decisin sea
correcta, pero a veces no lo ser. Hay
dos tipos de decisiones incorrectas:
Rechazar H0 cuando de hecho es cierta:
error de tipo I
Aceptar H0 cuando realmente es cierta H1:
error de tipo II
Observacin: el error tipo I = nivel de significacin =

En esquema:
Planteamiento del problema
Hiptesis nula y alternativa

Recogida de datos

Test estadstico

No rechazar la hiptesis nula

Rechazar la hiptesis nula


(aceptar la hiptesis alternativa)

PROCEDIMIENTO PARA APLICAR LA PRUEBA DE


SIGNIFICANCIA CON LA t DE STUDENT.
El enfoque estadstico es establecer una hiptesis nula o
alternativa
Por ejemplo: suponer que dos medidas son idnticas
Luego aplicamos la prueba t para saber si la hiptesis nula es
valida o no, con una cierta exactitud:
1. Calcular un valor de t utilizando la siguiente frmula.
t(n-1) = x1 x2

n1n2
n1+ n2

Donde x1 y x2 son las medias,


y 1 y 2 son las desviaciones estndar;
n1 y n2 son el nmero de resultados individuales
obtenidos en los dos mtodos distintos
Para utilizar esta ecuacin OBLIGATORIAMENTE debemos
suponer que las 1 y 2 son iguales ( toda suposicin involucra
una incertidumbre nueva que se introduce.)

2. Obtener el valor de t de una tabla establecida, en un grado


de libertad dado por (n1 + n2 2) y a un nivel de probabilidad
deseado.

Anlisis:
La hiptesis nula esta comprobada cuando:

ttab > tcal


Es decir x1 = x2 a una cierta probabilidad
En este ejemplo la prueba de hiptesis consiste en poder
determinar si existe una diferencia significativa entre dos
valores obtenidos para una muestra por dos mtodos
distintos.

Si la
ttabla < tcal
La hiptesis nula es incorrecta y se tienen que estudiar cual es
la razn que explique por que las medias de ambos anlisis
son diferentes entre si.
Para saber si podemos SUPONER que las desviaciones estndar
son iguales debemos determinar la relacin de varianza, tambin
llamada la prueba F
Cuando las desviaciones estndar son diferentes el
procedimiento es diferente y se aplica una ecuacin ms
compleja para la determinacin de t.

Prueba F
1. Calcular la relacin de las varianzas

F = 1 2
2 2

Siempre F tienen que ser > 1


por ende la varianza ms
grande es colocada como
numerador.

2. Buscar valores de F tabulada y comparar.


si

Ftab< Fcalc

Existe una diferencia significativa entre las varianzas y por


ende entre las desviaciones estndares.

1. Prueba F
2. Si Ftab > Fcalc
3. Aplicar Prueba t de significancia con ecuacin sencilla
4. Si

ttab > tcal

5. La prueba de hiptesis nula es correcta.


Es decir las medias comparadas son iguales con una cierta
probabilidad

Ejemplo:
Una muestra de carbonato de sodio se analiz mediante dos
mtodos diferentes, dando los siguientes resultados para el
porcentaje de analito
Es significativa la
Mtodo 1

Mtodo 2

x1 = 42,34
1 = 0,10
n1 = 5

x2 = 42,44
2 = 0,12
n2 = 4

diferencia entre las


desviaciones?
Es significativa la
diferencia entre las dos
medias a un nivel de
probabilidad del 95%

1) Determinar si el anlisis es de una cola o dos colas


2) Aplicar prueba F para determinar que ecuacin de t a utilizar
3) Determinar la t calculada y compararla con el valor crtico
correspondiente
4) Determinar si la hipotesis nula es aceptada o rechazada
5) Concluir a partir de los resultados anteriores.

Respuesta:
Fcalc= 1,44

Como

Ftab= 9,979

Ftab > Fcalc

tcalc = 1,369
ttab= 2,3646

2 > 1 buscamos en la
columna n-1 para
grande y en la fila n-1
pequea

La diferencia entre las desviaciones


estndar de los dos mtodos no es
significativa y se puede aplicar la
prueba t con la ecuacin sencilla
Como ttab > tcal entonces la
hiptesis nula es correcta y
la diferencia no es
significativa

mosca!!!! el hecho que las sean iguales,


no implica que las medias lo sean.

Cuando las desviaciones son diferentes


Si la prueba F determina que hay diferencia significativa en las
desviaciones, entonces debemos utilizar la siguiente ecuacin
para calcular el estadstico t:
t = |( x1 x2 )|

12 + 22
n1 n2

Y para calcular los grados


de libertad de t debemos
emplear:
(12 /n1+ 22/n2)2
1 4
+ 2 4
n12(n1-1) n22(n2-1)

Este valor se redondea a un


nmero entero

Concentracin de tiol (mM) en el lisado sanguineo de dos grupos


de voluntarios, siendo el primer grupo normal y el segundo
grupo Artritico reumatoideo (A.R). Determine si la concentracin
de tiol es un anlisis vlido para diferenciar a un paciente A.R,
con un nivel de significancia del 0,01
Normal 1,84 1,92, 1,92, 1,92, 1,85, 1,91, 2,07
A.R. 2,81, 4,06, 3,62, 3,27, 3,27, 3,76
Compruebe que:

n1= 7;

n2= 6

x1= 3,465

x2= 1,921

1= 0,076

2= 0,440

tcalc = 8,48
Grados de libertad =
5,3 ~ 5
t5tab= 4,0321 (P ()=
0,01)

Con 0,01 nivel de significancia se


rechaza la hiptesis nula. Es decir,
existe suficiente evidencia al 99%
de nivel de confianza que las
medias son diferentes y por ende el
anlisis ser valido para diferenciar
a los pacientes con A.R

Propiedades de la hiptesis nula.


1. En estadstica una hiptesis es una aseveracin o
afirmacin acerca de una propiedad de una poblacin.
2. La prueba de hiptesis es un procedimiento para probar
una aseveracin acerca de una propiedad de una
poblacin
3. Es importante tener en cuenta que si se acepta una
hiptesis nula no quiere decir que se ha comprobado que
es verdadera, solo implica que no se ha demostrado que
sea falsa.

CRITERIO PARA DESCARTAR UNA OBSERVACIN

Como decidir con fundamento estadstico si un resultado es


descartable o no?
Siempre que sepamos de ante mano que hemos cometido un
error en esa medida, lo descartaremos aunque concuerde con
el resto de las medidas.
El dilema que se nos establece surge cuando tenemos un
nmero pequeo de medidas: el resultado divergente ejerce
un efecto significativo sobre la media.

1. Debemos definir que tan grande debe ser la diferencia entre


el valor sospechoso y los otros datos.

Si elegimos una diferencia muy pequea, tendremos errores


tipo I o de primera clase. Esto implica que estaremos
rechazando datos que son validos. Ej. Que rechacemos una
hiptesis nula cuando debera de ser aceptada
Si por
1 el contrario elegimos una diferencia muy grande,
.
tendremos
errores tipo II o de segunda clase. Esto implica
que estaremos tomando en cuenta datos que son altamente
errneos. Ej. Que aceptemos una hiptesis nula cuando
debera de ser rechazada

Hiptesis, errores y Decisiones


Errores tipo I y tipo II
Estado verdadero de la
naturaleza

D
E
C
I
S
O
N
E
S

La
hiptesis
nula es
vlida
Decidimos
rechazar la Error tipo
hiptesis
I
nula
No
rechazamo
s la

Decisin

La hiptesis
nula no es
vlida

Decisin
correcta

Error tipo II

La Prueba Q
( Contraste de Dixon)

1. Calcular el intervalo de los resultados


2. Encontrar la diferencia entre el resultado sospechosos y su
vecino ms cercano.
3. Dividir la diferencia obtenida en el paso 2 entre el intervalo
del paso 1 para obtener el coeficiente de descarte Q.
4. Consultar una tabla de valores Q. Si el Qcalc > Qtab el dato se
puede descartar con un 90% de confianza que en realidad
estuvo sujeto a algn factor que no actu sobre las otras
mediciones.
Cuando las muestras son muy pequeas la prueba Q puede
generar errores tipo II. Sin embargo, es estadsticamente
correcta y provee una excelente justificacin para descartar
valores muy errneos.

Ejemplo:
Cuatro resultados obtenidos para determinar la molaridad de
una solucin fueron 0,1014, 0,1012, 0,1019 y 0,1016. Aplique la
prueba Q para determinar si el resultado 0,1019 puede ser
descartado.
Resultados
0,1014
0,1012
0,1016
x = 0,1014

Desviaciones (ppm)
0,0
2,0
2,0
x= 1,3

Q = 0,1019 0,1016
0,1019 0,1012

Diferencia con vecino ms


cercano
intervalo

Q = 0,43
Es Qcalc> Qtab?: NO
Por ende el dato no se descarta

Se obtuvieron los siguientes valores para la concentracin de


nitrito (mg l-1) en una muestra de agua de rio:
0.403, 0.410, 0.401, 0.380
a) La ltima medida es sospechosa. debera ser rechazada?
b) Si se aaden tres nuevas medidas a las dadas :
0.400, 0.413 y 0.411, Se debera an mantener 0.380?
Aplicar el contraste de Dixon y el contraste de Grubbs para
resolver el problema.

Contraste de Grubbs
Compara la desviacin entre el valor sospechoso y la media
muestral, con la desviacin estndar de la muestra. Este
contraste lo recomienda ISO preferentemente al de la prueba Q o
de Dixon
Para usar el contraste de Grubbs para un valor anmalo, es
decir, para probar que H0: todas las medidas proceden de una
misma poblacin, se calcula el estadstico G:
G = | valor sospechoso- x |/

Gcalc>Gtab se rechaza la
hiptesis nula y por
ende el valor

Donde la se calcula incluyendo el valor sospechoso. El


contraste supone una poblacin normal

La regla 2.5d
1. Calcular la media y la desviacin promedio de los resultados
buenos.
2. Encontrar la desviacin del resultado sospechoso a partir de
la media de los resultados buenos.
3. Si la desviacin del resultado sospechoso es por lo menos
2.5 veces la desviacin promedio de los resultados buenos se
descarta el resultado sospechoso. De lo contrario se conserva.
Mosca desviacin promedio
Esta regla se puede aplicar con confianza cuando la
muestra es grande de lo contrario genera errores tipo I

Utilizando los datos del ejemplo anterior determinar si el


resultado 0,1019 es descartable aplicado la prueba 2,5d
Qu hacer?
Por cual prueba nos decidimos?

Determinacin del tamao de la muestra


(xo 0)/ (/n) = t
Conociendo la desviacin aceptada y t (tabuladas) a
diferentes niveles de significancia podemos calcular x 0 y
el tamao de la muestra, siempre y cuando se conozca el
nivel de calidad aceptada y el nivel de calidad de
tolerancia 0 y 1

PROPAGACIN DE ERRORES
Para errores determinados
Cuando estn implicadas la adicin o substraccin, los errores
absolutos determinados se trasmiten directamente al
resultado.
Cuando estn implicados la multiplicacin o la divisin, los
errores relativos determinados se trasmitan directamente al
resultado.