Documentos de Académico
Documentos de Profesional
Documentos de Cultura
VALIDACIÓN DE MÉTODOS
DE MEDICIÓN Y ENSAYO
MODULO 1 ‐ CONCEPTOS ESTADÍSTICOS
©TCM. Técnicas de Control Metrológico, S.L. C/ Dtor. Alcay 16-18 - 50006 - Zaragoza Tel. 976 275 174
www.tcmetrologia.com E-mail: formacion@tcmetrologia.com
Depósito Legal: Z-1952-2010
CURSO
VALIDACIÓN DE LOS MÉTODOS DE ENSAYO
INDICE
1. CONCEPTOS ESTADÍSTICOS............................................................................................................................ 3
1.1 ESTADÍSTICA DESCRIPTIVA ............................................................................................................5
1.1.1 Variables aleatorias y continuas .............................................................................................. 5
1.1.2 Histogramas de frecuencias ...................................................................................................... 6
1.1.3 Medidas de tendencia central ................................................................................................... 7
1.1.4 Medidas de dispersión ................................................................................................................. 8
1.1.5 Distribuciones de probabilidad ............................................................................................ 10
1.1.6 Distribuciones continuas ......................................................................................................... 12
1.1.6.1 Distribución normal .......................................................................................................... 13
1.1.6.2 Distribución t-student ...................................................................................................... 17
1.2 ESTADÍSTICA INFERENCIAL ......................................................................................................... 17
1.2.1 Muestreo aleatorio ..................................................................................................................... 17
1.2.2 Estimación puntual .................................................................................................................... 20
1.2.3 Estimación por intervalos de confianza ............................................................................ 20
1.2.4 Intervalo de confianza para la medida (con muestras pequeñas) ......................... 24
1. CONCEPTOS ESTADÍSTICOS
Este apartado tiene como objetivo proporcionar los conocimientos básicos de estadística
para entender qué es, cómo se interpreta y expresa el resultado de una medida cuantitativa
con sus dos componentes, valor medido e incertidumbre asociada.
Así por ejemplo, mediante la estadística descriptiva podemos tener una idea concreta de lo
que ocurrirá al lanzar al aire un dado o una moneda un cierto número de veces.
La estadística descriptiva nos permite hacer una afirmación de lo que pasará con una
muestra a partir de una población conocida (razonamiento deductivo).
POBLACIÓN CONOCIDA MUESTRA
En este apartado se estudiarán algunos aspectos de la estadística descriptiva haciendo
hincapié en las distribuciones de probabilidad y, en particular, en las utilizadas con mayor
frecuencia los laboratorios de ensayo y calibración.
Estadística Inferencial (inductiva). Una vez que conocemos o hemos asumido un modelo
probabilístico para la población, podemos seguir el camino contrario, es decir, a partir de
una muestra o varias muestras hacer una afirmación sobre la población.
Por ejemplo, a partir de una encuesta se puede predecir con cierta seguridad el resultado
de unas elecciones, o haciendo un diagnóstico sobre unos individuos podemos conocer la
incidencia de una enfermedad en una determinada población.
La estadística inferencial nos permite hacer una afirmación sobre la población a partir de
una muestra (razonamiento inductivo).
POBLACIÓN CONOCIDA MUESTRA
La estadística inferencial tiene gran importancia en metrología ya que el valor medido y la
incertidumbre asociada son estimaciones estadísticas de la tendencia central y la
dispersión de una colección de valores verdaderos del mensurando.
Una o varias
MESURANDO Proceso de medida (ensayo) MEDIDA
lecturas
CONJUNTO DE
VALORES Media de los
Porción de
ATRIBUIBLES AL Muestreo estadístico
valores (muestra)
valores de la
MESURANDO muestra
(población)
Como se verá más adelante, el valor medido es un estimador sesgado de otros valores
verdaderos del mensurando.
Regresión y Correlación. La regresión determina como una variable está relacionada con
otras variables. La correlación determina el grado en que las variables están
correlacionadas.
El análisis de regresión calcula una función (ecuación de regresión), sin embargo el análisis
de correlación produce un índice diseñado para proporcionar una imagen inmediata de
cuán estrechamente se mueven las variables.
En este curso se estudiará la regresión simple (relación de una variable dependiente Y con
una sola variable independiente X, también llamada factor o regresor). Dentro de la
regresión simple se hará hincapié en la regresión lineal, cuando las variables X e Y se
relacionan a través de una recta.
Recuerda que...
Debido a las limitaciones de los sistemas de medición, todos los datos varían a saltos. Es
importante, sin embargo, tener presente, que algunos datos tienen la posibilidad de ser
medidos con la máxima exactitud que permitan los instrumentos utilizados. Tales datos
son inherentemente continuos, aun cuando para cualquier nivel de exactitud puedan
variar a saltos.
Recuerda que...
En la práctica, debido a las limitaciones de los sistemas de medición, todos los datos
varían a saltos. Por este motivo la "distancia" entre una medición y la siguiente depende
del equipo empleado, en concreto de su resolución.
Es importante tener presente, que algunos datos tienen la posibilidad de ser medidos con
la máxima exactitud que permitan los instrumentos utilizados. Tales datos son
inherentemente continuos, aun cuando para cualquier nivel de exactitud puedan variar a
saltos.
⚙ Por ejemplo...
Imaginemos en la siguiente tabla se han recogido los valores obtenidos en mg al pesar 80
muestras de una sustancia.
7,33 7,32 7,34 7,40 7,28 7,29 7,35 7,33 7,34 7,28
7 31 7,35 7,32 7,33 ,33 7,36 7,32 7,31 7,35 7,36
7,26 7,39 7,29 7,32 7,34 7,30 7,34 7,32 7,39 7,30
7,33 7,33 7,35 7,34 7,33 7,36 7,33 7,35 7,31 7,33
7,37 7,38 7,38 7,33 7,35 7,30 7,31 7,33 7,35 7,33
7,27 7,33 7,32 7,31 7,34 7,32 7,34 7,32 7,31 7,36
7,30 7,37 7,33 7,32 7,31 7,33 7,32 7,30 7,29 7,38
7,33 7,35 7,32 7,33 7,32 7,34 7,32 7,34 7,32 7,33
Tabla 1.1. Tabla de las masas en mg de las muestras pesadas.
En el histograma pueden verse las tres propiedades de una distribución como son:
tendencia central, dispersión y forma.(cambio de lugar)
Es una representación gráfica que muestra la frecuencia con que se repite un valor, o un
conjunto de valores comprendido entre dos extremos (intervalo de clase).
Para construir un histograma se pueden tomar en cuenta que el número de clases (k, en el
ejemplo k=8) no debe ser demasiado pequeño ni demasiado grande.
⚙ Por ejemplo...
La posición o tendencia central nos indica el valor alrededor del cual se agrupan todos los
datos.
Media aritmética
n
x i
X i 1
n
Es la suma de todos los valores de la distribución dividido por el número total de datos.
Si los datos están agrupados en clases con frecuencia absoluta fi, tenemos una nueva
expresión para la media, siendo ahora xi el valor representativo de cada clase (marca de
clase).
1 k
X xi fi
n i 1
Situando los datos analizados a lo largo de un eje, distanciados según su valor, y asignando
un peso idéntico a cada uno, la media se encuentra en el punto de equilibrio.
A los estadísticos que no son afectados por los valores extremos de la muestra, se les
denomina estadísticos robustos.
Mediana
es el valor de la distribución, suponiendo que ésta esté ordenada de menor a mayor, que
deja a su izquierda y a su derecha la misma frecuencia de observaciones, es decir, el valor
de la variable que ocupa el lugar central, supuesto un número impar de datos.
Si el número de datos fuese par, puede decirse que hay dos valores medianos, y se toma
como mediana la media aritmética de ellos.
La mediana tiene la ventaja sobre la media que en ella no influyen los valores extremos
(estadístico robusto).
Se obtiene calculando el valor medio de las diferencias al cuadrado de los valores respecto
al valor medio.
1 n
DCM ( x i X )2
n i 1
Recorrido
Varianza
( x i X )2
s2 i 1
n 1
( x i X )2
s i 1
n 1
La desviación típica está ubicada en alguna parte entre los valores de la desviación más
pequeña y más grande.
Si los datos están agrupados en clases con frecuencia absoluta fi, tenemos nuevas
expresiones para las medidas de dispersión, siendo ahora xi el valor representativo de cada
clase (marca de clase).
1 k
DCM ( x i X )2 f i
n i 1
Varianza:
k
( x i X )2 f i
s 2 i 1
n1
Desviación típica:
k
( x i
X )2 f i
s i 1
n1
( x i
X )2 f i
n
s
2 i 1
DCM
n1 n 1
s 2 DCM
Para explicar esto vamos a utilizar un ejemplo muy sencillo y conocido; la probabilidad de
ocurrencia de los distintos resultados cuando lanzamos un dado.
El gráfico nos muestra como la probabilidad de cada posible resultado dado es 1/6 (0,167)
Pr = lim(n/N) cuando N
Media y varianza
Ya se ha visto como se puede calcular la media y la varianza de una muestra a partir de las
frecuencias relativas.
x p( x )
2 ( x )2 p( x )
Valor esperado
E g( X ) g( x ) p( x )
Haciendo E ( X ) entonces g( x ) X
Haciendo g( x ) ( X )2 entonces 2 E ( X )2
La altura de las barras del histograma de frecuencias relativas representa el tanto por uno
de veces que se repite un intervalo de valores.
Conviene hacer un cambio de escala para que sea el área de las barras del histograma lo
que represente a la frecuencia relativa.
y = (f/n)/a
Siendo:
a, ancho de clase.
fi f1 f2 f
n ... n 1 Área A ahi ah2 ... ahn 1
n n n
fi
hi
na
Siendo:
f, frecuencia absoluta;
a, ancho de clase.
A la vez el incremento de la muestra permite una definición más fina de las clases, mientras
que el área sigue siendo igual a 1.
Una porción de área delimitada por un intervalo cualquiera [a,b] de la variable aleatoria
continua representa la probabilidad que tienen el conjunto de valores comprendidos en
dicho intervalo.
- + x
Figura 1.5. Campana de Gauss
2. A medida que se desplaza desde el punto medio (X=µ) hacia izquierda o derecha,
F(X) decrece de forma simétrica y exponencial:
4. El valor máximo se da en x = µ
1
y
2
5. Los puntos de inflexión son x = µ + y x = µ -
6. En toda distribución normal se puede saber el área que ocupa un intervalo a través
del estadístico Z que representa el número de desviaciones típicas que nos
separamos de la media. Por ejemplo;
68,26%
95,45% (2)
- +
x
99,73% (3)
Figura 1.6. Distribución de probabilidad normal
Con frecuencia se desea calcular la probabilidad (es decir, el área bajo la curva), más allá de
un valor X.
X X
Z Z
|Z| x.x0 x.x1 x.x2 x.x3 x.x4 x.x5 x.x6 x.x7 x.x8 x.x9
4,0 0,00003
3,9 0,00005 0,00005 0,00004 0,00004 0,00004 0,00004 0,00004 0,00004 0,00003 0,00003
3,8 0,00007 0,00007 0,00007 0,00006 0,00006 0,00006 0,00006 0,00005 0,00005 0,00005
3,7 0,00011 0,00010 0,00010 0,00010 0,00009 0,00009 0,00008 0,00008 0,00008 0,00008
3,6 0,00016 0,00015 0,00015 0,00014 0,00014 0,00013 0,00013 0,00012 0,00012 0,00011
3,5 0,00023 0,00022 0,00022 0,00021 0,00020 0,00019 0,00019 0,00018 0,00017 0,00017
3,4 0,00034 0,00032 0,00031 0,00030 0,00029 0,00028 0,00027 0,00026 0,00025 0,00024
3,3 0,00048 0,00047 0,00045 0,00043 0,00042 0,00040 0,00039 0,00038 0,00036 0,00035
3,2 0,00069 0,00066 0,00064 0,00062 0,00060 0,00058 0,00056 0,00054 0,00052 0,00050
3,1 0,00097 0,00094 0,00090 0,00087 0,00084 0,00082 0,00079 0,00076 0,00074 0,00071
3,0 0,00135 0,00131 0,00126 0,00122 0,00118 0,00114 0,00111 0,00107 0,00104 0,00100
2,9 0,00187 0,00181 0,00175 0,00169 0,00164 0,00159 0,00154 0,00149 0,00144 0,00139
2,8 0,00256 0,00248 0,00240 0,00233 0,00226 0,00219 0,00212 0,00205 0,00199 0,00193
2,7 0,00347 0,00336 0,00326 0,00317 0,00307 0,00298 0,00289 0,00280 0,00272 0,00264
2,6 0,00466 0,00453 0,00440 0,00427 0,00415 0,00402 0,00391 0,00379 0,00368 0,00357
2,5 0,00621 0,00604 0,00587 0,00570 0,00554 0,00539 0,00523 0,00508 0,00494 0,00480
2,4 0,00820 0,00798 0,00776 0,00755 0,00734 0,00714 0,00695 0,00676 0,00657 0,00639
2,3 0,01072 0,01044 0,01017 0,00990 0,00964 0,00939 0,00914 0,00889 0,00866 0,00842
2,2 0,01390 0,01355 0,01321 0,01287 0,01255 0,01222 0,01191 0,01160 0,01130 0,01101
2,1 0,01786 0,01743 0,01700 0,01659 0,01618 0,01578 0,01539 0,01500 0,01463 0,01426
2,0 0,02275 0,02222 0,02169 0,02118 0,02068 0,02018 0,01970 0,01923 0,01876 0,01831
1,9 0,02872 0,02807 0,02743 0,02680 0,02619 0,02559 0,02500 0,02442 0,02385 0,02330
1,8 0,03593 0,03515 0,03438 0,03362 0,03288 0,03216 0,03144 0,03074 0,03005 0,02938
1,7 0,04457 0,04363 0,04272 0,04182 0,04093 0,04006 0,03920 0,03836 0,03754 0,03673
1,6 0,05480 0,05370 0,05262 0,05155 0,05050 0,04947 0,04846 0,04746 0,04648 0,04551
1,5 0,06681 0,06552 0,06426 0,06301 0,06178 0,06057 0,05938 0,05821 0,05705 0,05592
1,4 0,08076 0,07927 0,07780 0,07636 0,07493 0,07353 0,07215 0,07078 0,06944 0,06811
1,3 0,09680 0,09510 0,09342 0,09176 0,09012 0,08851 0,08691 0,08534 0,08379 0,08226
1,2 0,11507 0,11314 0,11123 0,10935 0,10749 0,10565 0,10383 0,10204 0,10027 0,09853
1,1 0,13567 0,13350 0,13136 0,12924 0,12714 0,12507 0,12302 0,12100 0,11900 0,11702
1,0 0,15866 0,15625 0,15386 0,15151 0,14917 0,14686 0,14457 0,14231 0,14007 0,13786
0,9 0,18406 0,18141 0,17879 0,17619 0,17361 0,17106 0,16853 0,16602 0,16354 0,16109
0,8 0,21186 0,20897 0,20611 0,20327 0,20045 0,19766 0,19489 0,19215 0,18943 0,18673
0,7 0,24196 0,23885 0,23576 0,23270 0,22965 0,22663 0,22363 0,22065 0,21770 0,21476
0,6 0,27425 0,27093 0,26763 0,26435 0,26109 0,25785 0,25463 0,25143 0,24825 0,24510
0,5 0,30854 0,30503 0,30153 0,29806 0,29460 0,29116 0,28774 0,28434 0,28096 0,27760
0,4 0,34458 0,34090 0,33724 0,33360 0,32997 0,32636 0,32276 0,31918 0,31561 0,31207
0,3 0,38209 0,37828 0,37448 0,37070 0,36693 0,36317 0,35942 0,35569 0,35197 0,34827
0,2 0,42074 0,41683 0,41294 0,40905 0,40517 0,40129 0,39743 0,39358 0,38974 0,38591
0,1 0,46017 0,45620 0,45224 0,44828 0,44433 0,44038 0,43644 0,43251 0,42858 0,42465
0,0 0,50000 0,49601 0,49202 0,48803 0,48405 0,48006 0,47608 0,47210 0,46812 0,46414
Distr. normal
Distr. t´student con 5 gdl
Distr. t-student con 2 gdl
¿Sabías que...?
La distribución de Student fue descrita en 1908 por William
Sealy Gosset que trabajaba en las destilerías Guinness en
Dublín. Debido a que uno de los investigadores había publicado
un artículo que contenía secretos industriales de la destilería,
Guinness prohibió a sus empleados la publicación de artículos.
Por eso Gosset publicó sus investigaciones con el pseudónimo
Student.
Por tanto, se puede afirmar que “cada observación individual en una muestra aleatoria
es una variable aleatoria cuya distribución de probabilidad es la de la población p(x)
de la que procede.”
Por lo tanto, se concluye que una muestra aleatoria simple es aquella cuyas n
observaciones X1, X2,…, Xn son independientes. La distribución de cada X es la distribución
de la población p(x).
Cada observación es una variable aleatoria que tiene la media μ y desviación típica .
La aleatoriedad hace probable que una muestra sea representativa de una población
subyacente a partir de la cual se extrae.
⚙ Por ejemplo...
Imaginemos que la media de la población es μ = 69. Supongamos que tomamos de forma
aleatorio 5 individuos pertenecientes a esta población;
Por lo tanto, en nuestro ejemplo la media de la muestra 70 está más cerca de μ=69 que la
mayor parte de las observaciones individuales en la muestra.
Debido a que se promedia, la media de la muestra no varía tanto como los individuos de la
población. Esto se debe a que, al calcular la media de la muestra, una observación
individual extrema como X=76 tiende a diluirse por observaciones más típicas X=70, o
tiende a ser compensada por una observación en el otro extremo como X=65.
1
X X 1 X 2 ... X n
n
Al ser una combinación de variables aleatorias,X también es una variable aleatoria cuya
esperanza es:
1
E( X ) E ( X 1 ) E ( X 2 ) ... E ( X n )
n
Cada observación X tiene la distribución de la población con media , por tanto:
1
E( X ) ... 1 n
n n
Es probable que una media se encuentre un poco por encima o por debajo de µ debido a las
fluctuaciones del muestreo (suerte de extracción).
Partiendo de la expresión:
1
X X 1 X 2 ... X n
n
y calculando la varianza de una combinación lineal de variables aleatorias independientes,
se tiene:
1 2 1 2 1
X2 X 2 X ... 2 Xn2
n2 1
n 2
n
De nuevo se tiene en cuenta que cada observación X tiene la distribución de la población
p(x), con varianza s, de modo que:
1 2 n 2
2 ... 2
2 2 2
X
n n
Por tanto:
2
X2
n
La desviación típica de la media con respecto a su objetivo μ representa el error de de
estimación, por lo que suele llamarse Error Estándar.
EE X
n
Esta fórmula muestra que cuanto más grande es el valor de n, más pequeño se hace el error
estándar. Es decir, cuanto más grande es la muestra, mejor estimaX la media de la
población μ.
la media ;
la varianza 2;
la proporción .
La media de la muestra: ˆ x ;
La varianza de la muestra: ˆ 2 s 2 ;
X y s2 y p son variables aleatorias, cada una de ellas varía de muestra a muestra, según su
distribución muestral.
Por tanto, la estimación puntual dirá poco acerca del parámetro poblacional cuando la
variación entre una estimación y otra sea muy grande. Mejor que estimar el valor de μ a
partir de un estimador puntual sería construir un intervalo asociado al estimador que
probablemente contenga a μ.
Por ejemplo, dado que las medias muestrales fluctúan siguiendo la ley normal (cuando el
tamaño de la muestra es grande), se puede trazar un intervalo que recoja a un porcentaje
alto de las medias muestrales, por ejemplo al 95%.
Distribución de los
valores de la población
Distribución de las medias muestrales
de tamaño n
Z x
De igual modo, a partir de una media muestral cualquiera se puede trazar el mismo
intervalo Z x , este intervalo recogerá en su interior a la media poblacional en un
porcentaje de ocasiones equivalente al de las medias muestrales recogidas en dicho
intervalo.
σ
μ X Z
n
Z x El tamaño del intervalo que contenga a la media poblacional
dependerá, por un lado del valor del error estándar (grado de
Figura 1.10. Intervalo fluctuación de las medias muestrales) y por otro, de la confianza
que recoge la media
con la que se quiera garantizar que, en efecto, el intervalo
poblacional
contenga a μ.
El valor del error estándar se calcula a partir de la desviación típica de la muestra (similar a
la de la población, dado el tamaño grande de la muestra) y del tamaño de la muestra.
La confianza que se suele elegir es el 95% lo que dará lugar a un intervalo correcto 19 de
cada 20 veces.
Figura 1.11. Área con el 95% de los valores
A partir de la tabla de la distribución normal se observa que para una Pr=0,025, el valor Z
debe ser 1,96. Es decir, es necesario ir por encima y por debajo de la media 1,96 errores
estándar para alcanzar el 95% del área.
Por tanto:
Las dos expresiones anteriores son ciertas, pero no deben dar lugar a error, en ambas el
valor de μ es constante y X una variable.
1,96 X 1,96 X
En metrología, los intervalos de confianza se suelen construir con una confianza del
95,45%, de este modo, hay que desplazarse 2 errores estándar por encima y por debajo de
la media.
Pr( X 2σ X μ X 2σ X ) 95 ,45%
Pr(μ 2σ X X μ 2σ X ) 95 ,45%
s
X Z
n
⚙ Por ejemplo...
Supongamos que se analizan 180 muestras de agua de una zona geográfica. Cierto analito
da una concentración media de 0,82 mg/L y una desviación típica de 0,48 mg/L. ¿Cómo
podemos calcular un intervalo de confianza del 95,45% para el valor medio de
concentración de dicho analito?
X Z
n
La muestra estadística que tenemos está compuesta de 180 valores, por lo que podemos
considerar su desviación típica “s” como una estimación razonable de la desviación típica
de la población .
Sustituyendo,
0 ,48
X Z 0 ,82 2 0 ,82 0 ,071
n 180
Pr(I S) = 1‐
Pr(I S) = 1‐
El procedimiento general para deducir el intervalo consiste en partir del estadístico que
involucra al parámetro de interés y que tiene una distribución conocida. Tal estadístico es:
X
t
s/ n
el cual sigue una distribución t-student con n-1 grados de libertad. Por lo tanto, se pueden
ubicar en la tabla de esta distribución o en su gráfica, dos valores críticos t / 2 y t / 2 tales
que
X
Pr( t / 2 t / 2 ) 1
s/ n
Distribución estadístico t
gdl = n-1
=0,05 /2=0,025
t / 2 t / 2
0,025 1-=0,95 0,025
0
Figura 1.12. Distribución del estadístico t
s s
Pr X t / 2 X t / 2 1
n n
Es decir,
s s
I X t / 2 y S X t / 2
n n
Son los valores buscados que definen un intervalo al 100(1-)% para la media desconocida
.
En la tabla de la distribución t se puede ver que para una muestra mayor de 50, el intervalo
95% para la media es aproximadamente:
s
X 2
n
Para conservar el intervalo de confianza del 95% es necesario ampliar el tamaño del
intervalo.
s
X t
n
grados de libertad para obtener t. Es igual a los grados de libertad empleados para
calcular s, es decir a la cantidad de información utilizada para calcularla. Es el valor
del denominador gdl=n-1;
Siguiendo la notación empleada con carácter general en el curso t/2;gdl, el primer subíndice,
/2, representa al área de una cola.
Estos valores tabulados también pueden obtenerse empleando hojas de cálculo. Por
ejemplo para obtener tp; = t/2;gdl con Excel debemos emplear la siguiente expresión:
DISTR.T.INV(;gdl)
⚙ Por ejemplo...
Se analiza una muestra repitiéndose 4 veces la medición en las que obtienen los
siguientes valores 64, 65, 63, 64. Suponiendo que no existe más error en la medida que el
debido a la variabilidad observada, queremos calcular un intervalo de confianza del
95,45% para el valor verdadero de la muestra.
X
64 65 63 64
64 s
( x X ) 2
0 ,816
4 n 1
Según la tabla de la distribución t de student, para una confianza del 95% y gld= n - 1=3
se requiere una t = 3,18.
X 64
s 0,816
X t 64 3,18 64 1 ,30
n 2
t sx
DISTR.T.INV(1-0,95;3)
Una forma de reducir el intervalo calculado sería aumentar el tamaño de la muestra, ya que
de este modo aumenta el denominador y además se reduce el valor t.
s
X t
n