Está en la página 1de 21

C URSO

M a yo , 20 0 8
Vo lum en 2 , Nmero 5

DE

ESTADSTICA
Sociedad Espaola Sociedad Espaola de Bioqumica Clnica y Patologa Molecular (SEQC),
Calle Padilla 268, despacho 68, 08025-Barcelona, http://www.seqc.es

E Gua de estudio. 6. Estadstica aplicada (I) La


calidad analtica
1
Nombres propios: Harold Jeffreys (1891-1989) 6
Tests de significacin para el coeficiente de
correlacin
7
Problemas
11

Introduccin a

Bibliografa

: Regresin en R (1)

16

Gua de estudio. 6.

Estadstica aplicada
(I) La calidad analtica
En el contexto general del laboratorio clnico, la
calidad ha sido y ser cada vez ms un item
primordial. El contenido estadstico es, no
obstante, poco complejo: la estadstica
descriptiva ha sido siempre una pieza
emblemtica y la estadstica inferencia se limita
a sencillos problemas de evaluacin de medidas
de centralizacin y dispersin.
Sin embargo destacan dos aspectos concretos: la
validacin y la comparacin de mtodos
analticos tienen en el laboratorio clnico una
larga tradicin y extensa literatura, por lo que se
comentarn
a
continuacin
de
forma
independiente.

Conocimientos previos

Estadstica descriptiva: diagramas.


Estadstica Inferencial: comparacin
varianzas...
Regresin
ANOVA

de

Contenidos

Necesidad de la poltica de la calidad en el


mbito de las ciencias de la salud. Desde el
control final del producto a la gestin
integral de la calidad. Exigencias estadsticas
para la regulacin de la calidad: desde las
autorizaciones
administrativas
a
la
acreditacin.
Tipos de mtodos y errores analticos.
Experimentos para poner de manifiesto estos
errores.

Estadstica descriptiva aplicable: grficos de


dispersin, diagramas de LevyJennings,
diagramas de Pareto, diagramas causa
efecto...
Estadstica inferencial aplicable: test t,
ANOVA, regresin...

La bibliografa manejada para el estudio de la


estadstica descriptiva e inferencial es suficiente.
En los textos de ciencias del laboratorio clnico
suelen
contener
captulos
completos
(y
exhaustivos) sobre calidad con un apartado sobre
los aspectos estadsticos que suele ser suficiente.
Burtis CA, Ashwood ER. Tietz Fundamentals of
clinical chemistry. 5 ed. New York: Saunders,
2002.
Si se desea profundizar en este punto es
conveniente buscar una buena publicacin de
quimiometra (disciplina que conjuga la qumica
analtica con la estadstica). Algunas referencias
tiles son:
Miller JN, Miller JC. Estadstica y quimiometra
para qumica analtica. Pearson Prentice Hall,
2002.
Massart DL, Vandeginste B, Buydens L, De Jong
S, Lewi P, Smeyers-Verbeke J. Handbook of
chemometrics and qualimetrics, Amsterdam:
Elsevier, Vol 20 A 1997 y 20 B 1998
Finalmente, existen algunos libros dedicados
monogrficamente al estudio de la calidad con un
notable y detallado contenido estadstico:
Feigenbaum AV. Total quality control. 4 ed.
New York:McGraw Hill. (Prevista para 2009)
Montgomery DC. Introduction to statistical
quality control. 5 ed. New York: Wiley. 2005.
Burr IW. Statistical quality control methods.
New York: Marcel Dekker, 1976
Mullins E. Statistics for the quality control
chemistry laboratory. SRC: Cambridge, 2003

Validacin de mtodos analticos


Introduccin
Para saber si los resultados de un procedimiento
analtico son correctos, esto es precisos, exactos y
robustos, es esencial saber si el mtodo analtico
ha sido validado. La validacin consiste en estimar

Curso de estadstica
y juzgar si es aceptable la incertidumbre que
acompaa a toda medicin. Incertidumbre en la
medicin y trazabilidad son dos conceptos que
acompaan a la validacin.
En el contexto de la gestin de la calidad,
cuando se pretende un servicio de excelencia, la
validacin de los mtodos analticos constituye
una pieza clave en los procesos de certificacin
y, especialmente, de acreditacin. Cuando el
mtodo analtico se requiere adems, con
finalidad oficial (formando parte de la
documentacin para registrar un medicamento)
forense, etc. su validacin est regulada por
estrictas normas de procedimiento.
W.A. Wallis defini la estadstica como una
coleccin de mtodos para realizar decisiones
inteligentes cuando se afronta una situacin
incierta. La utilizacin de conceptos y
procedimientos estadsticos para la validacin de
mtodos analticos est justificada desde el
momento que se admite la necesidad de tratar
con incertidumbre en las observaciones. Esta
parte est estrechamente relacionada adems
con el diseo experimental, el anlisis
multivariado y los procedimientos estadsticos de
control de la calidad.

Objetivos
Al terminar esta parte del curso, los
participantes deben ser capaces de
Definir errores mdicamente aceptables
describir
las
prestaciones
y
caractersticas claves de los mtodos
analticos, estimando el tamao del error
analtico de un mtodo.
Distinguir entre cualificacin, validacin,
revalidacin y verificacin de un
procedimiento analtico.
Juzgar la aceptabilidad de un mtodo en
base a los errores observados.
Definir la calidad requerida para una
prueba de laboratorio.
Definir los requisitos de un mtodo
analtico, de acuerdo con las normas y
procedimientos estndar internacionales.
Comprender claramente los parmetros
de validacin y sus definiciones.
Identificar factores significativos para
que los resultados sean vlidos.
Identificar los requisitos reguladores y de
acreditacin para evaluar un mtodo.
Describir el proceso de validacin de un
mtodo analtico.
Disear,
planificar
organizar
y
seleccionar un estudio de validacin de
un mtodo.
Estimar el tamao muestral.
Recoger la cantidad de datos necesaria
para cada experimento.

Vol. 2, nm. 5, Pg. 2

Analizar, calcular e interpretar, mediante


las pruebas estadsticas apropiadas, las
prestaciones cuantitativas que presenta un
mtodo analtico.
Presentar los resultados de la validacin
de un mtodo analtico documentando la
sistemtica utilizada para realizar la
validacin del procedimiento analtico.
Redactar un procedimiento normalizado de
trabajo sobre validacin de mtodos en el
laboratorio clnico con el objeto de
acreditar un procedimiento analtico segn
la norma ISO 15189.
Aplicar las caractersticas de validacin y
cualificacin a los instrumentos de
laboratorio.

Contenidos

Necesidad de la validacin
Caractersticas claves del rendimiento de un
procedimiento analtico
Diseo de un estudio de validacin
Utilizacin de los datos del comparaciones
interlaboratorios laboratorio en la validacin
del procedimiento analtico
Utilizacin de los datos obtenidos en la
validacin de un procedimiento analtico
La incertidumbre de los procedimientos
analticos
Determinacin de la selectividad
Determinacin de la sensibilidad
Determinacin de la linealidad y del intervalo
dinmico
Determinacin de la detectabilidad: lmites de
deteccin y de cuantificacin
Determinacin de la imprecisin
Determinacin de la inexactitud
Robustez (rutgeness, robustness) y adecuacin
(suitability)

Bibliografa acerca de la validacin de

Curso de estadstica
critical investigation of its practice. Clin Chem.
2002;48(5):799-801;
author
reply
801-2.
http://www.clinchem.org/cgi/reprint/48/5/799
Krouwer JS. Setting performance goals and
evaluating total analytical error for diagnostic
assays. Clin Chem. 2002;48(6 Pt 1):919-27.
http://www.clinchem.org/cgi/reprint/48/6/919
Linnet K. Necessary sample size for method
comparison studies based on regression analysis.
Clin
Chem.
1999;45(6
Pt
1):882-94.
http://www.clinchem.org/cgi/reprint/45/6/882
Linnet K. Limitations of the paired t-test for
evaluation of method comparison data. Clin
Chem.
1999;45(2):314-5.
http://www.clinchem.org/cgi/reprint/45/2/314
Marquis P. Comparison of analytical methods in
Clinical
Chemistry.
http://www.multiqc.com/MethodComparison.pd
f
Martin RF. General deming regression for
estimating systematic bias and its confidence
interval in method-comparison studies. Clin
Chem.
2000;46(1):100-4.
http://www.clinchem.org/cgi/reprint/46/1/100
Mazzo DJ, Connolly M. Analytical method
comparison based upon statistical power
calculations. Pharm Res. 1992;9(5):601-6.
Parvin CA. A direct comparison of two slopeestimation techniques used in methodcomparison studies. Clin Chem. 1984;30(5):7514.
http://www.clinchem.org/cgi/reprint/30/5/751.
pdf
Petersen PH, Stockl D, Blaabjerg O, Pedersen B,
Birkemose E, Thienpont L, et al. Graphical
interpretation
of
analytical
data
from
comparison of a field method with reference
method by use of difference plots. Clin Chem.
1997;43(11):2039-46.
http://www.clinchem.org/cgi/reprint/43/11/20
39
Stockl D, Dewitte K, Thienpont LM. Validity of
linear regression in method comparison studies:
is it limited by the statistical model or the
quality of the analytical input data? Clin Chem.
1998;44(11):2340-6.
http://www.clinchem.org/cgi/reprint/44/11/23
40
Westgard JO. Points of care in using statistics in
method comparison studies. Clin Chem.
1998;44(11):2240-2.
http://www.clinchem.org/cgi/reprint/44/11/22
40
Westgard JO. Use and interpretation of common
statistical tests in method comparison studies.
Clin
Chem.
2008;54(3):612.
http://www.clinchem.org/cgi/reprint/54/3/612

Vol. 2, nm. 5, Pg. 4

Curso de estadstica
critical investigation of its practice. Clin Chem.
2002;48(5):799-801;
author
reply
801-2.
http://www.clinchem.org/cgi/reprint/48/5/799
Krouwer JS. Setting performance goals and
evaluating total analytical error for diagnostic
assays. Clin Chem. 2002;48(6 Pt 1):919-27.
http://www.clinchem.org/cgi/reprint/48/6/919
Linnet K. Necessary sample size for method
comparison studies based on regression analysis.
Clin
Chem.
1999;45(6
Pt
1):882-94.
http://www.clinchem.org/cgi/reprint/45/6/882
Linnet K. Limitations of the paired t-test for
evaluation of method comparison data. Clin
Chem.
1999;45(2):314-5.
http://www.clinchem.org/cgi/reprint/45/2/314
Marquis P. Comparison of analytical methods in
Clinical
Chemistry.
http://www.multiqc.com/MethodComparison.pd
f
Martin RF. General deming regression for
estimating systematic bias and its confidence
interval in method-comparison studies. Clin
Chem.
2000;46(1):100-4.
http://www.clinchem.org/cgi/reprint/46/1/100
Mazzo DJ, Connolly M. Analytical method
comparison based upon statistical power
calculations. Pharm Res. 1992;9(5):601-6.
Parvin CA. A direct comparison of two slopeestimation techniques used in methodcomparison studies. Clin Chem. 1984;30(5):7514.
http://www.clinchem.org/cgi/reprint/30/5/751.
pdf
Petersen PH, Stockl D, Blaabjerg O, Pedersen B,
Birkemose E, Thienpont L, et al. Graphical
interpretation
of
analytical
data
from
comparison of a field method with reference
method by use of difference plots. Clin Chem.
1997;43(11):2039-46.
http://www.clinchem.org/cgi/reprint/43/11/20
39
Stockl D, Dewitte K, Thienpont LM. Validity of
linear regression in method comparison studies:
is it limited by the statistical model or the
quality of the analytical input data? Clin Chem.
1998;44(11):2340-6.
http://www.clinchem.org/cgi/reprint/44/11/23
40
Westgard JO. Points of care in using statistics in
method comparison studies. Clin Chem.
1998;44(11):2240-2.
http://www.clinchem.org/cgi/reprint/44/11/22
40
Westgard JO. Use and interpretation of common
statistical tests in method comparison studies.
Clin
Chem.
2008;54(3):612.
http://www.clinchem.org/cgi/reprint/54/3/612

Vol. 2, nm. 5, Pg. 4

Curso de estadstica

Vol. 2, nm. 5, Pg. 5

 MODULO 1
 MODULO 2

 ANALISIS DATOS CUALITATIVOS

 ANALISIS DATOS CUALITATIVOS ejercicios resueltos

 MODULO 3
 MODULO 4

 ANALISIS DATOS CUALITATIVOS notas

 ANOVA

 ANOVA notas

 BONDAD DE AJUSTE

 BONDAD DE AJUSTE notas

 CONTRASTES VARIABLES
CUANTITATIVAS

 CONTRASTES VAR CUANTITATIVAS ejercicios


 CONTRASTES VAR CUANTITATIVAS notas

 ESTADISTICA INFERENCIAL

 ESTADISTICA INFERENCIAL ejercicios propuestos


 ESTADISTICA INFERENCIAL ejercicios resueltos
 ESTADISTICA INFERENCIAL notas

 ESTADISTICA ROBUSTA

 ESTADISTICA ROBUSTA notas

 MUESTREO

 MUESTREO BIBLIOGRAFIA

 PRESENTACIONES

 ANOVA presentacin
 ESTADISTICA NO PARAMETRICA presentacin
 INFERENCIA presentacin
 MUESTREO presentacin
 REGRESION Y CORRELACION presentacin
 TAMAO MUESTRAL presentacin

 SPSS

 SPSS
 SPSS ANOVA
 SPSS INFERENCIA

 TAMAO MUESTRAL

 TAMAO MUESTRAL ejercicios propuestos


 TAMAO MUESTRAL ejercicios resueltos
 TAMAO MUESTRAL notas

Curso de estadstica

Nombres propios:
Harold Jeffreys (1891-1989)

Matemtico, fsico y estadstico ingls reconocido


por sus contribuciones a mltiples reas de la
ciencia. A los 12 aos le fue concedida una beca
para estudiar en el Rutherford College de
Newcastle upon - Tyne. En 1907 estudi en el
Armstrong College, entonces parte de la
Universidad de Durham, pero que que ms tarde
sera la Universidad de Newcastle, para estudiar
matemticas, fsica, qumica y geologa. En 1914
gan una de las cuatro becas para estudiar
matemticas en Cambridge, en el St. Johns
College, institucin a la que estara vinculado el
resto de su vida. Durante la primera guerra
mundial trabaj en el Laboratorio Cavendish y al
final de la guerra en el Servicio Metereolgico,
ocupado en problemas de hidrodinamia. En 1922
regres a Cambridge para ensear matemticas
hasta 1932 en que pas a dar clases de geofsica
y desde 1946 de astronoma y filosofa
experimental como Pumian Professor, aunque
parece ser que como profesor era ms bien
penoso. De carcter tmido aunque sociable,
afectuoso y campechano fue muy respetado y
apreciado por sus impresionantes habilidades
matemticas y profundos conocimientos. Hasta
sus noventa aos cumplidos fue un empedernido
fumador y ciclista.
Su produccin cientfica fue notable desde el
punto de vista cuantitativo (alcanz los 400
artculos) y de la variedad de temas (mecnica
celestial, dinmica de fluidos, meteorologia,
geofsica i probabilidad). En 1953 fue nombrado
caballero y la Royal Society de Londres le
distingui en 1948 con la Royal Medal en
reconocimiento por sus trabajos geofsicos y
sobre astronoma del sistema solar. En 1960 se le

Vol. 2, nm. 5, Pg. 6


concedi la Copley Medal en reconocimiento de
sus trabajos, incluyendo ahora los de la teora de
la probabilidad. Como astrnomo estudi el
origen del sistema solar, los planetas exteriores y
su estructura y en 1924 public otra obra
notable, The earth: Its origin, history and
physical constitution, obra que tuvo reediciones
hasta los aos ochenta. Como geofsico estudi la
circulacin en la atmsfera y los terremotos y
fue de los primeros cientficos en proponer que
el centro de la tierrra era de consistencia
lquida. En 1935 public Earthquakes and
mountains. Como matemtico, su obra ms
notable, escrita en colaboracin con su esposa
Bertha Swirles Jeffreys y publicada en 1946 es
Methods of mathematical physics en que
desarrolla las parte de las matemticas puras
que se requeriran con mayor frecuencia en
fsica. La mayor parte de sus artculos sobre
estadstica estn en el volumen 6, Mathematics,
probability & miscellaneous other science de sus
obras completas.
Sus aportaciones a la teora de la probabilidad y
estadstica se resumen en su libro Theory of
probability publicado en 1939 y en la veitena de
artculos relacionados con este tema publicados
entre 1930 y 1964. Su filosofa es claramente
Bayesiana (que el denominaba probabilidad
inversa) y su intencin, la aplicacin de la
estadstica a la fsica. En su juventud, en 1914,
la lectura de la obra de Karl Pearson Grammar of
Science tuvo una notable influencia sobre su
pensamiento acerca de las bases probabilsticas
del razonamiento inferencial en ciencia. Sus
nuevas ideas bayesianas le grangearon la
enemistad
de
Sir
Ronald
A.
Fisher,
probablemente el estadstico ms influyente del
siglo XX, con quien mantuvo unas relaciones con
Ronald A. Fisher no precisamente cordiales. Sus
conceptos de la probabilidad (Fisher fue un
frecuentista convencido y beligerante) les
apartaron diametralmente. Fisher en su famosa
obra Statistical methods for research workers ni
tan slo menciona los mtodos bayesianos. Con
el tiempo parece ser que el antagonismo se
apacigu y deriv en una cierta tolerancia
mutua. Algunos artculos en que se puede
rastrear las duras descalificaciones que se
hicieron son:
Fisher RA. Inverse probability and the use of
likelihood. Proc Cambridge Phil Soc, 1932;
28: 257-61.
Jeffreys H. On the theory of errors and least
squares. Proc Cambridge Phil Soc A, 1932;
138: 48-55.
Jeffreys H. On the prior probability in the
theory of sampling. Proc Cambridge Phil Soc,
1933; 29: 83-7.
Fisher RA. The concepts of inverse
probability and fiducial probability referring

Curso de estadstica
to unknown parameters. Proc Royal Soci,
1933; 139: 343-8.
Jeffreys H. Probability, statistics, and the
theory of errors. Proc Royal Soc A, 1933;
140: 523-35.
Fisher RA. Probability, likelihood and the
quantity of information in the logic of
uncertain inference, Proc Royal Soc A, 1934;
146: 1-8.
Jeffreys H. Probability and scientific method,
Proc Royal Soci A, 1934; 146: 9-16.
Aunque en Cambridge coincidi con conocidos
filsofos especialistas en lgica, como J. M.
Keynes, no est probado que les tratara
asiduamente. Lo que si parece cierto es una
cierta influencia de Jeffreys sobre A. Turing,
como parece dedurcirse del pensamiento de este
limo.

Bibliografa
Aldrich J. The statistical education of Harold
Jeffreys. Int Stat Rev, 2005; 73: 289-308.
Bolt BA. Sir Harold Jeffreys and geophysical
inverse problems. Chance, 1991; 4: 15-7.
Brush SG. Discovery of the earths core. Am J
Phys, 1980; 48: 705-24.
Cook AH. Sir Harold Jeffreys, biographical
memoirs of fellows of the Royal Society. 1991;
37: 303-31.
Geisser S. The contributions of Sir Harold
Jeffreys to bayesian inference. En: Zellner A,
ed.: Bayesian analysis in econometrics and
statistics: Essays in honor of Harold Jeffreys.
Amsterdam: North-Holland. 1980, 13-20.
Good IJ. The contributions of Jeffreys to
bayesian statistics. En: Zellner A, ed.: Bayesian
analysis in econometrics and statistics: Essays in
honor of Harold Jeffreys. Amsterdam: NorthHolland. 1980, 21-34.
Howie D. Interpreting probability: controversies
and developments in the early twentieth
century, New York: Cambridge University Press,
2002.
Lapwood ER. Contributions of Sir Harold Jeffreys
to theoretical geophysics. Math. Scien, 1982; 7:
69-84.
Lindley DV. Jeffreys's contribution to modern
statistical thought. En: Zellner A, ed.: Bayesian
analysis in econometrics and statistics: essays in
honor of Harold Jeffreys. Amsterdam: NorthHolland. 1980: 35-40.
Lindley DV. Sir Harold Jeffreys. Encyclopedia of
biostatistics. Vol. 3. Chichester: Wiley. 1998:
2124-5.
Lindley DV. Sir Harold Jeffreys. Chance, 1991; 4:
10-14 , 21.
Swirles B, Lady Jeffreys. Harold Jeffreys: some
reminiscences. Chance, 1991; 4; 22-6.

Vol. 2, nm. 5, Pg. 7


Zellner A. Jeffreys, Sir Harold (1891-1989)
International encyclopedia of the social and
behavioral
sciences.
Kidlington,
Oxford:
Pergamon. 2001: 7960-3.

Tests de significacin para


el coeficiente de correlacin
1. Test t para el coeficiente de
correlacin
Objetivo
Comprobar si el coeficiente de correlacin
muestral r es estadsticamente diferente de
cero.

Limitaciones
Las variables X y Y cuyos valores muestrales
( x , y ) originan el coeficiente de correlacin r
poseen una distribucin bivariada normal y la
relacin ente ambas es lineal.

Hiptesis
Las hiptesis nulas y alternativas son:

H 0 : r = 0

H1: r 0
Sea una muestra de tamao n de valores

{( x , y ) , ( x
1

, y 2 ) , , ( x n , y n )

Procedimiento
Sea una muestra de tamao n de valores

{( x , y ) , ( x

, y 2 ) , , ( x n , y n )
El coeficiente de correlacin r se estima como:
1

Curso de estadstica
n

r =

(y

x)

( y

i =1

( x
i =1

Vol. 2, nm. 5, Pg. 8

y)
n

i =1

y)

donde:
n

x =

x
i =1

n
n

y =

y
i =1

Estadstico
El estadstico a calcular es,

t =

r
1 r 2

n2

Este estadstico seguir una distribucin t de


Student con

Curso de estadstica

Vol. 2, nm. 5, Pg. 11

Problemas
1. El servicio de extracciones a pacientes externos de un Laboratorio est organizado de modo que se
cita a dichos pacientes para un da determinado dejando a su eleccin la hora en que deben
presentarse. El responsable de esta rea ha anotado el nmero de pacientes que acude cada hora en
que se presta el servicio. El resultado de estas observaciones se resume en la tabla I.
Se supone que el nmero de pacientes que acude en las diferentes horas es mutuamente
independiente y que se desconoce la forma en que se distribuyen tales cantidades.
El responsable del Laboratorio desea obtener una estimacin del nmero de extracciones que se
realiza al da con un margen de confianza no inferior al 80 %.

media

desviacin tpica

56
221
259
110

9
8
6
7

7.00 a 8.00
8.01 a 9.00
9.01 a 10.00
10.01 a 11.00

Solucin
La estimacin puntual de la media de extracciones diaria ser:

p = x1 + x 2 + x 3 + x 4

56 + 221 + 259 + 110 = 646


Por tratarse de grupos independientes, la estimacin de la desviacin tpica diaria ser:

p2 = s12 + s 22 + s 32 + s 42
9 2 + 8 2 + 6 2 + 7 2 = 230

p =

p2 = 15,166

Por la acotacin de Tchebychev se tiene que

1
= 0,80
k2
1
k =
= 2, 236
0, 20

Por tanto, el intervalo de pacientes que acudir al servicio de extracciones, con una probabilidad mayor
del 80 %, ser:

Pr x ( p k p , + k p ) 0,80

Pr ( x ( 646 2, 236 15,166 , 646 + 2, 236 15,166 ) ) 0,80


Pr ( x ( 612 , 680 ) ) 0,80
Es decir, el responsable de las extracciones del Laboratorio puede esperar recibir cada da entre 612 y 680
pacientes, con una alta (80 %) probabilidad.

Curso de estadstica

Vol. 2, nm. 5, Pg. 10

Decisin: nivel de significacin


Si el valor de Z es superior al valor crtico
(tabulado en la tabla de la distribucin normal)
se rechaza la hiptesis nula con la
correspondiente probabilidad .
Ejemplo
Se han medido las concentraciones catalticas de
GGT en dos hospitales. Se desea comparar los
coeficientes de correlacin obtenidos entre estas
concentraciones catalticas y la edad del
paciente.

Hospital 1
27
0, 65

n
r
n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

Hospital 2
24
0, 74

1 + 0, 65
1 + 0, 74
Z ln
= 1,551 ln
= 1,901
1 0, 65
1 0, 74

z=

23
n-2
1483,2
suma
59,3
media
-0,076
r
-0,365
t
t crtica 1,714

15
24
12
22
17
21
19
13
15
13
16
9
21
25
19
22
15
14
13
25
26
21
25
14
27

463
18,5

-8,96
4,25
7,28
5,22
-6,63
1,93
-10,13
9,37
-7,23
-0,57
4,45
-0,54
0,94
-6,15
-4,51
7,15
-6,12
-2,51
-2,28
9,95
-2,83
4,50
-5,09
14,86
-6,35

1,551 1,901
= 1,17
0, 299

Ya que el valor crtico

z ( 0, 05 ) =1,96 es

superior al valor hallado, no se rechaza la


hiptesis nula.
El ejemplo se resolvera en Excel de la siguiente
forma:

Y
X
GGT- media edad-media
GGT edad
50,4
63,6
66,6
64,6
52,7
61,3
49,2
68,7
52,1
58,8
63,8
58,8
60,3
53,2
54,8
66,5
53,2
56,8
57,0
69,3
56,5
63,8
54,2
74,2
53,0

1
1
+
= 0, 299
27 3 24 3

-3,52
5,48
-6,52
3,48
-1,52
2,48
0,48
-5,52
-3,52
-5,52
-2,52
-9,52
2,48
6,48
0,48
3,48
-3,52
-4,52
-5,52
6,48
7,48
2,48
6,48
-4,52
8,48

(GGT-media) x
(edad-media)
31,538
23,277
-47,477
18,181
10,082
4,788
-4,861
-51,715
25,464
3,163
-11,210
5,161
2,335
-39,865
-2,163
24,896
21,543
11,341
12,571
64,453
-21,182
11,170
-32,988
-67,159
-53,850

(GGT(edadmedia)2 media)2
80,274
18,043
53,024
27,294
43,998
3,727
102,549
87,772
52,331
0,328
19,790
0,294
0,886
37,847
20,300
51,181
37,457
6,296
5,187
98,931
8,019
20,286
25,916
220,764
40,326

12,390
30,030
42,510
12,110
2,310
6,150
0,230
30,470
12,390
30,470
6,350
90,630
6,150
41,990
0,230
12,110
12,390
20,430
30,470
41,990
55,950
6,150
41,990
20,430
71,910

-62,5058 1062,8188 638,2400

Curso de estadstica

Vol. 2, nm. 5, Pg. 11

Problemas
1. El servicio de extracciones a pacientes externos de un Laboratorio est organizado de modo que se
cita a dichos pacientes para un da determinado dejando a su eleccin la hora en que deben
presentarse. El responsable de esta rea ha anotado el nmero de pacientes que acude cada hora en
que se presta el servicio. El resultado de estas observaciones se resume en la tabla I.
Se supone que el nmero de pacientes que acude en las diferentes horas es mutuamente
independiente y que se desconoce la forma en que se distribuyen tales cantidades.
El responsable del Laboratorio desea obtener una estimacin del nmero de extracciones que se
realiza al da con un margen de confianza no inferior al 80 %.

media

desviacin tpica

56
221
259
110

9
8
6
7

7.00 a 8.00
8.01 a 9.00
9.01 a 10.00
10.01 a 11.00

Solucin
La estimacin puntual de la media de extracciones diaria ser:

p = x1 + x 2 + x 3 + x 4

56 + 221 + 259 + 110 = 646


Por tratarse de grupos independientes, la estimacin de la desviacin tpica diaria ser:

p2 = s12 + s 22 + s 32 + s 42
9 2 + 8 2 + 6 2 + 7 2 = 230

p =

p2 = 15,166

Por la acotacin de Tchebychev se tiene que

1
= 0,80
k2
1
k =
= 2, 236
0, 20

Por tanto, el intervalo de pacientes que acudir al servicio de extracciones, con una probabilidad mayor
del 80 %, ser:

Pr x ( p k p , + k p ) 0,80

Pr ( x ( 646 2, 236 15,166 , 646 + 2, 236 15,166 ) ) 0,80


Pr ( x ( 612 , 680 ) ) 0,80
Es decir, el responsable de las extracciones del Laboratorio puede esperar recibir cada da entre 612 y 680
pacientes, con una alta (80 %) probabilidad.

Curso de estadstica

Vol. 2, nm. 5, Pg. 12

2. Si a cada uno de los pacientes del problema anterior se le practica una media de m = 14,3
determinaciones diferentes, cul ser la productividad del Laboratorio (expresada como un intervalo
del nmero de determinaciones diarias) con una seguridad no inferior al 80 %

Solucin
La estimacin de la media de determinaciones diarias es

d = p m

d = 646 14,3 = 9237,8


Es decir, el laboratorio puede esperar, con una probabilidad del 80 %, realizar unas 9238 determinaciones
diarias. La desviacin tpica ser:

d2 = p2 m 2
d2 = 230 204, 49 = 47032, 7
d = 216,87
Por tanto, el intervalo de determinaciones que realizar el laboratorio, una probabilidad no inferior al 80
%, ser:

Pr d ( d k d , d + k d ) 0,80

Pr ( d ( 9237,8 2, 236 216,87 , 9237,8 + 2, 236 216,87 ) ) 0,80


Pr ( d ( 8752,9 , 9722, 7 ) ) 0,80
Es decir, el responsable de operaciones del Laboratorio puede esperar realizar cada da entre 8753 y 9723
determinaciones, con una alta (80 %) probabilidad.

Comentarios
Para resolver este problema deben utilizarse los conceptos de esperanza matemtica (media o valor
esperado) de una variable aleatoria continua y de desigualdad de Tchebychev2. La desigualdad de
Tchebychev permite establecer una acotacin inferior a la probabilidad de que el valor de una variable
aleatoria continua de varianza no infinita est a cierta distancia de la media, y una acotacin superior a la
probabilidad de que caiga fuera de esta distancia respecto de la media. Para demostrar la desigualdad de
Tchebychev se debe previamente conocer el teorema de la desigualdad de Markov3.

Conceptos previos
Variable aleatoria es una funcin X que relaciona cada elemento s de un espacio muestral asociado

a un experimento E , ( s ) , un nmero real x s .

Variable aleatoria continua es la variable aleatoria X que adquiere un nmero infinito, no numerable,
de posibles valores.

Funcin densidad de probabilidad de una variable aleatoria continua X es una funcin f ( x ) que
verifica las siguientes propiedades:

(a) f ( x ) 0
(b)

f ( x) d x = 1

Funcin distribucin de una variable aleatoria continua X es una funcin F ( x ) que asigna a todo
nmero real x la probabilidad de que X sea igual o menor que x :
2

En honor al matemtico ruso Pafnuty Lvovich Tchebychev (o Chebyshev) (1821-1894). Ocasionalmente se denomina desigualdad o
acotacin de Bienaym-Tchebychev, asociando el nombre de su amigo, traductor y colega francs Irnne-Jules Bienaym (Pars,
1796-1878)
3
En honor al matemtico ruso Andrei Andreyevich Markov (1856-1922).

Curso de estadstica

Vol. 2, nm. 5, Pg. 13


F ( x ) = Pr ( X x ) =

f (t ) d t

que verifica las siguientes propiedades:


(a) F ( ) = lim F ( x ) = 0
x

(b) F ( + ) = lim F ( x ) = 1
x+

(c) F ( x ) es una funcin no decreciente


(d) Pr ( a X b ) = F ( b ) F ( a )
(e) Si F ( x ) es derivable, entonces f ( x ) =

d F ( x)
dx

Esperanza matemtica (valor esperado, media aritmtica) de una variable aleatoria continua X cuya
funcin densidad de probabilidad f ( x ) es:

E( X ) = =

x f ( x) d x

que verifica, entre otras, las siguientes propiedades:


(a) la esperanza matemtica de la suma de dos o ms funciones de una variable aleatoria es la suma de
los valores esperados de las funciones:

E ( f ( X ) g ( X ) h ( X )) = E ( f ( X )) + E ( g ( X )) + E ( h ( X ))

(a) la esperanza matemtica de una constante es esta constante

E(k ) = k

(b) la esperanza matemtica del producto de una constante por los valores de variable es igual al
producto de esta constante por la esperanza de los valores de la variable:

E ( k f ( X )) = k E ( f ( X ))

si la variable aleatoria continua se expresa mediante otra funcin: Y = g ( X ) , se puede expresar la


esperanza matemtica de Y utilizando X :

E (Y ) = = E ( g ( X ) ) =

g ( x) f ( x) d x
y h( y) d y

Momento centrado de segundo orden de la variable aleatoria continua X o varianza, var ( X ) , es:

var ( X ) = E x E ( X )

)=

(x)

f ( x) d x

Teorema y desigualdad de Markov


Dada una variable aleatoria continua X cuya funcin densidad de probabilidad es f ( x ) y una funcin no
negativa de esta variable g ( x ) sea cual sea el valor de x (esto se expresa formalmente como

g ( x ) 0 x ), se verifica, para cualquier valor k , que la probabilidad de que el valor de g ( x ) sea


igual o mayor a k es inferior a 1

del valor medio de X :

Pr ( g ( x ) k )

1
E ( g ( x ))
k

Curso de estadstica

Vol. 2, nm. 5, Pg. 14

Demostracin
Supngase que la funcin g ( x ) es la siguiente:

g(x)

Y se define un valor k , e modo que los valores de g ( x ) k definen un dominio W definido por la zona
sombreada:

g(x)
W

La esperanza matemtica de la funcin g ( x ) es, segn se vio anteriormente:

E ( g ( x )) =
y la del dominio W :

E (W ) =

Es evidente que:

g ( x) f ( x) d x

g ( x) f ( x) d x
W

E ( g ( x ) ) E (W )

Teniendo

presente

la

g ( x) f ( x) d x

propiedad

de

la

g ( x) f ( x) d x

funcin

de

distribucin

mencionada

anteriormente

f ( x ) d x = 1 y la definicin del dominio W como aquellos valores de la distribucin que superan a

f ( x ) d x = Pr ( g ( x ) k ) , resulta
E ( g ( x )) = g ( x ) f ( x ) d x g ( x ) f ( x ) d x

k , es decir

k f ( x) d x k f ( x) d x
W

k Pr ( g ( x ) k )

Curso de estadstica

Vol. 2, nm. 5, Pg. 15

Es decir,

Pr ( g ( x ) k )
y de forma simtrica, su complementario:

1
E ( g ( x ))
k

Pr ( g ( x ) < k ) 1

E ( g ( x ))
k

expresin que se conoce como desigualdad de Markov.

Desigualdad de Tchebychev
Se demuestra a partir del resultado del teorema de Markov. Se define
(a) la variable aleatoria

g ( x ) = ( x E ( x )) = ( x )
2

que obviamente satisface la condicin del teorema de Markov de ser una funcin no negativa; y
(c) la constante k

x2

para expresar la desigualdad de Markov descrita anteriormente:

Pr ( x ) < k
La expresin E

2
x

) 1

E (x)

k 2 x2

(( x ) ) se ha definido antes como el segundo momento centrado de la distribucin de


2

la variable aleatoria continua:

E (x)
y por tanto:

E (x)

Por tanto quedar:

k 2 x2

)=

2
x

x2
1
= 1 2 2 = 1 2
k x
k

Pr ( x ) < k 2 x2 1
2

o:

Pr ( ( x ) < k x ) 1
expresin que se denomina desigualdad de Tchebychev.
Ms operativas son las expresiones siguientes:

1
k2

1
k2

Pr ( x < k x2 ) = Pr ( k x2 < x < k x2 ) =


Pr ( k x2 < x < + k x2 )

=
2
2
Pr ( x k x < < x + k x )

La primera de estas dos ltimas expresiones representa la acotacin mnima para la probabilidad de que la
variable ase encuentra dentro de los valores de un intervalo centrado en la media, y la segunda la
probabilidad mnima de que la media se encuentre dentro de un intervalo centrado.
Esta expresin es la que se ha utilizado para resolver el problema. Es importante para poder realizar
inferencias sobre la media de la poblacin de una variable aleatoria continua de varianza
cuando se desconoce su distribucin

x2 conocida,

Curso de estadstica

Vol. 2, nm. 5, Pg. 16

Conclusin
La media y la varianza de una muestra extrada de una poblacin de distribucin desconocida permiten
obtener un intervalo alrededor de la media que contiene una fraccin de las observaciones, exactamente

un 100 1 1

k2

%. Resultado que permite objetivar la intuicin de que las observaciones ms alejadas

de la media son menos probables de aparecer. Adems permite establecer de modo cuantitativo una
acotacin de esta probabilidad.

Cuestin adicional
Es posible utilizar la desigualdad de Tchebychev para disear una prueba de deteccin de datos
extremos?

Introduccin a

: Regresin en R (1)

Es posible que R no sea el programa informtico de estadstica ms sencillo de utilizar pero no cabe duda
que es uno de los ms potentes y econmico. Tambin en lo que hace referencia al anlisis estadstico de
dos variables ofrece numerosas posibilidades.

Funciones lm( ) y glm( )


Las funciones bsicas para el clculo de los coeficientes de regresin en R son lm( ) que corresponde a
linear model y glm( ) que corresponde a generalized linear model. Su sintaxis incluye los siguientes
argumentos (con los valores por defecto) es:
glm(formula, family = gaussian, data, weights, subset, na.action, start = NULL,
etastart, mustart, offset, control = glm.control(...), model = TRUE, method =
"glm.fit", x = FALSE, y = TRUE, contrasts = NULL, ...)
Los principales argumentos u opciones que se requieren son:
data

family

formula
method

na.action

Marco de datos (data frame) opcional que contiene las variables del modelo. Si stas
no estn en data, R las tomar de environment(formula), que habitualmente
es el entorno donde se est realizando el procedimiento glm
Descripcin de la distribucin del error y funcin de enlace que se desea usar en el
modelo. Puede ser referido como un vector de caracteres, una funcin o el resultado de
llamar a una funcin de familia
Para realizar diferentes tipos de regresin en R, la sintaxis ser:
logstica
family = binomial
de Poisson
family = poisson
normal
family = gaussian
gamma
family = Gamma
normal inversa
family = inverse.gaussian
Objeto de la clase "formula": descripcin simblica del modelo a ajustar.
Mtodo de ajuste. Por defecto (glm.fit) utiliza el procedimiento de los mnimos
cuadrados compensado iterativamente (IWLS, iteratively reweighted least squares4). Por
ahora slo existe la alternativa model.frame que no realiza realizar ajuste
este argumento permite diferentes opciones para tratar los datos ausentes (NAs). Por
defecto utiliza el valor na.omit ( ) Si se omite este argumento, R toma
el valor que el usuario fij (si lo hizo) en options (por defecto, na.fail).
Otros valores posibles son: NULL (no hacer nada), o na.exclude.

4
Se trata de un algoritmo robusto, esto es, resistente a la presencia moderada- de elementos extremos. Pueden obtenerse ms
detalles en http://sepwww.stanford.edu/public/docs/sep103/antoine2/paper_html/index.html

Curso de estadstica
subset
...
weights

Vol. 2, nm. 5, Pg. 17

vector opcional que especifica un subconjunto de observaciones a ser utilizadas en el


ajuste
argumentos proporcionados por, o para, otra funcin
vector numrico (o NULL) opcional de ponderaciones que puede ser utilizado en el
proceso de ajuste

Ejemplo de utilizacin
1. Datos
Supngase los datos (simulados) que se han utilizado anteriormente:

Curso de estadstica

Vol. 2, nm. 5, Pg. 18

Para revertir el proceso se utilizar la funcin dettach( ) que libera el archivo de su condicin de
defecto.

3. Regresin
Para calcular los parmetros de la regresin se utiliza la funcin lm( ) (modelo lineal):
que proporciona el resultado siguiente

De hecho es un caso particular del moelo lineal generalizado que se obtiene mediante la funcin glm( ):
o, simplemente:
que produce un resultado ms completo:

4. Almacenamiento del resultado


Estos resultados se presentan de forma efmera. Con seguridad se desear tenerlos almacenados en algn
sitio para no tener que reproducir continuamente dicho clculo. Para ello basta con asignarle un objeto:
o
Mediante esta instruccin, se ha asignado al objeto lm.lineal o glm.lineal el resultado de calcular la
regresin de FAL sobre GGT. Observese que no se produce ninguna salida. Para visualizar el resultado
debe pedirse
o
O, simplemente,
Obtenindose los respectivos resultados anteriores.
El haber creado el objeto gml.lineal tiene utilidades adicionales:

5. Informacin adicional
La funcin summary( ) (ateriormente aplicada a una variable, FAL, proporcionaba un resumen descriptivo
de FAL), cuando se aplica a un objeto de esta clase:

Curso de estadstica

Vol. 2, nm. 5, Pg. 19

A su vez, aplicandola al resultado del modelo general


proporciona la informacin adicional sobre la regresin:

6. Residuales
An se puede sacar ms partido a esta clase de objetos, por ejemplo, en el estudio de los residuales.
Aplicando la funcin residuals( ) se obtienen los residuales:

que produce la siguiente presentacin de resultados:

Lgicamente este resultado es idntico al obtenido en el modelo generalizado:

Obviamente de trata de una presentacin poco informativa: unicamente el residual debajo del nmero de
observacin correspondiente en la lista de datos. Sin embargo, esta informacin (tambin efmera) puede
reconvertirse en un objeto (en este caso una variable) de la misma forma que la salida de la funcin glm( )
se haba convertido en el objeto glm.lineal:
o para hacerlo ms sencillo,

Curso de estadstica

Vol. 2, nm. 5, Pg. 20

La variable res puede ser entonces sujeto de diversas funciones como por ejemplo un grfico de dispersin
o

-10

-5

res

10

15

que producen el siguiente diagrama:

10

15

20

25

Index

Un diagrama de cajas se puede obtener con las funciones:

-10

-5

10

15

O un histograma, con:
o

4
3
2
1
0

Frequency

Histogram of res

-15

-10

-5

0
res

10

15

Curso de estadstica

Vol. 2, nm. 5, Pg. 21

7. Valores ajustados
La funcin fitted.values() aplicada a la salida de glm( ), en el ejemplo glm.lineal, permite
hallar los valores ajustados por la regresin, y que ahora ya se almacenern en una nueva variable, por
ejemplo, de nombre pred:

que contienen tales valores:

-10

-5

res

10

15

Esta nueva variable permitir, por ejemplo dibujar un diagrama de dispersin de los valores residuales
frente a los ajustados, informativo acerca de la linearidad y heteroscedasticidad de las distribuciones o de
la presencia de valores extremos:

59.25

59.30

59.35

59.40

pred

8. Consideraciones finales
No hay que olvidar que R es en realida un lenguaje de programacin y el resultado de la funcin glm es
ms que un resultado de clculo (de ah el nombre objeto) sino el conjunto de varios subojetos que a
su vez pueden ser operados. Por ejemplo, el primer elemento del objeto glm.linear es otro objeto que
contiene los coeficientes de regresin que peueden ser presentados de forma convencional:

Y si slo se desea referenciar, por ejemplo, la interceptacin de la ordenada:

o la pendiente:

Informacin que, a su vez, puede ser introducida en una variable que a su vez puede ser sujeta a clculos
como cualquier otro valor en R: