Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Instituto Epidemiología
de Salud
Carlos III
Roberto Pastor-Barriuso
BIOESTADÍSTICA
Centro Nacional de
Instituto Epidemiología
de Salud
Carlos III
MINISTERIO Centro
DE ECONOMÍA Nacional de
Y COMPETITIVIDAD Instituto
de Salud
Epidemiología
Carlos III
Centro Nacional de Epidemiología
Instituto de Salud Carlos III
Monforte de Lemos, 5
28029 MADRID (ESPAÑA)
Tel.: 91 822 20 00
Fax: 91 387 78 15
http://www.isciii.es
http://creativecommons.org/licenses/by-nc-sa/2.1/es/
EDITA: CENTRO NACIONAL DE EPIDEMIOLOGÍA – Instituto de Salud Carlos III
Madrid, diciembre de 2012
Roberto Pastor-Barriuso
Científico Titular
2 Probabilidad 13
2.1 Introducción 13
2.2 Concepto y definiciones de probabilidad 14
2.3 Probabilidad condicional e independencia de sucesos 16
2.4 Regla de la probabilidad total 18
2.5 Teorema de Bayes 18
2.6 Referencias 20
vii
Índice
5 Inferencia estadística 59
5.1 Introducción 59
5.2 Estimación puntual 60
5.3 Estimación por intervalo 62
5.3.1 Distribución t de Student 62
5.3.2 Intervalo de confianza para una media poblacional 63
5.4 Contraste de hipótesis 67
5.4.1 Formulación de hipótesis 67
5.4.2 Contraste estadístico para la media de una población 69
5.4.3 Errores y potencia de un contraste de hipótesis 72
5.5 Referencias 76
viii
Índice
ix
Índice
x
TEMA 1
ESTADÍSTICA DESCRIPTIVA
1.1 INTRODUCCIÓN
La estadística es la rama de las matemáticas aplicadas que permite estudiar fenómenos cuyos
resultados son en parte inciertos. Al estudiar sistemas biológicos, esta incertidumbre se debe al
desconocimiento de muchos de los mecanismos fisiológicos y fisiopatológicos, a la incapacidad
de medir todos los determinantes de la enfermedad y a los errores de medida que inevitablemente
se producen. Así, al realizar observaciones en clínica o en salud pública, los resultados obtenidos
contienen una parte sistemática o estructural, que aporta información sobre las relaciones entre
las variables estudiadas, y una parte de “ruido” aleatorio. El objeto de la estadística consiste en
extraer la máxima información sobre estas relaciones estructurales a partir de los datos recogidos.
En estadística se distinguen dos grandes grupos de técnicas:
yy La estadística descriptiva, en la que se estudian las técnicas necesarias para la organización,
presentación y resumen de los datos obtenidos.
yy La estadística inferencial, en la que se estudian las bases lógicas y las técnicas mediante
las cuales pueden establecerse conclusiones sobre la población a estudio a partir de los
resultados obtenidos en una muestra.
El análisis de una base de datos siempre partirá de técnicas simples de resumen de los datos y
presentación de los resultados. A partir de estos resultados iniciales, y en función del diseño del
estudio y de las hipótesis preestablecidas, se aplicarán las técnicas de inferencia estadística que
permitirán obtener conclusiones acerca de las relaciones estructurales entre las variables
estudiadas. Las técnicas de estadística descriptiva no precisan de asunciones para su
interpretación, pero en contrapartida la información que proporcionan no es fácilmente
generalizable. La estadística inferencial permite esta generalización, pero requiere ciertas
asunciones que deben verificarse para tener un grado razonable de seguridad en las inferencias.
A continuación se definen algunos conceptos generales que aparecen repetidamente a lo
largo de la exposición:
yy Población es el conjunto de todos los elementos que cumplen ciertas propiedades y entre
los cuales se desea estudiar un determinado fenómeno.
yy Muestra es un subconjunto de la población seleccionado mediante un mecanismo más o
menos explícito. En general, rara vez se dispone de los recursos necesarios para estudiar a
toda la población y, en consecuencia, suelen emplearse muestras obtenidas a partir de
estas poblaciones.
Pastor-Barriuso R. 1
Estadística descriptiva
yy Variables son propiedades o cualidades que presentan los elementos de una población.
Las variables pueden clasificarse en:
Variables cualitativas o atributos son aquellas que no pueden medirse numéricamente
y que, a su vez, pueden ser:
—— Nominales, en las que no pueden ordenarse las diferentes categorías.
—— Ordinales, en las que pueden ordenarse las categorías, pero no puede establecerse
la distancia relativa entre las mismas.
Variables cuantitativas son aquellas que tienen una interpretación numérica y que se
subdividen en:
—— Discretas, sólo pueden tomar unos valores concretos dentro de un intervalo.
—— Continuas, pueden tomar cualquier valor dentro de un intervalo.
En la práctica, todas las variables continuas que medimos son discretas en el sentido de
que, debido a las limitaciones de los sistemas de medida, las variables continuas no
pueden adoptar todos los valores dentro de un intervalo. De cara a los análisis posteriores,
la principal distinción se establece, por tanto, entre variables con relativamente pocas
categorías (como número de hijos) frente a variables con muchas categorías (como
niveles de colesterol en sangre).
2 Pastor-Barriuso R.
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia
Medidas de tendencia central
central de la muestra sirven tanto para resumir los resultados observados como para
Ejemplo 1.7 En la muestra del estudio EURAMIC la media 6 del colesterol 5HDL es
ligeramente superior a la mediana (1,223 y 1,175 mmol/l, respectivamente). En
consecuencia, la distribución de estos 10 valores del colesterol HDL es aproximadamente
simétrica con un leve sesgo positivo.
4 Pastor-Barriuso R.
de estos
x G = ∏
consecuencia, la distribución x i 10
= nvalores del
x1 x 2 ⋅ ... ⋅ xcolesterol
n .
HDL es
i =1
aproximadamente simétrica con un leve sesgo positivo. Medidas de posición: cuantiles
1.2.3 Media geométrica
En la práctica, la forma más sencilla de calcular la media geométrica consiste en
La1.2.3
media geométrica, denotada por xG , se define como la raíz n-ésima del producto de
1.2.3 Media
calcular Mediageométrica
primero geométrica
el logaritmo de cada valor muestral, hallar a continuación la media de
los
La
La
los
valores
media
logaritmos
de una muestra
mediageométrica,
geométrica,
y deshacer
de tamaño
denotada
denotada
finalmentepor laxGn, ,, se define
define como
transformación como raízn-ésima
lalaraíz
logarítmica. n-ésima
Paradeldelproducto losdede los
producto
calcular
valores de una muestra de tamaño n,
los valores
logaritmos se de una muestra
puede de tamaño
usar cualquier base, n, 1 / n y cuando el logaritmo y el
n siempre
x G = ∏ x i = n x1 x 2 ⋅ ... ⋅ x n .
antilogaritmo estén en la misma base. i =Notar
1 1que
/n la media geométrica sólo puede
n
En la práctica, la forma más xsencilla G = ∏de x i calcular
= n x1lax 2media
⋅ ... ⋅ x ngeométrica
. consiste en calcular
emplearse
primero como
el medida
logaritmo de de
cada tendencia
valor central
muestral, en variables
hallar a que
continuación
En la práctica, la forma más sencilla de calcular la media geométrica consiste
i =1 tomanla valores
media de positivos.
losenlogaritmos y
deshacer finalmente la transformación logarítmica. Para calcular los logaritmos se puede usar
cualquier
calcular base, siempre
primero
En la práctica, laelforma ymás
logaritmocuando el logaritmo
de cada
sencilla devalor y ellaantilogaritmo
muestral,
calcular mediahallar estén en
a continuación
geométrica la misma
consiste laen base.deNotar
media
Ejemplo 1.8 Para calcular la media geométrica del colesterol
que la media geométrica sólo puede emplearse como medida de tendencia central en variables HDL en la muestra
que
los tomanprimero
calcular valores
logaritmos elpositivos.
y deshacer
logaritmofinalmente
de cadalavalor transformación
muestral, hallar logarítmica. Para calcular
a continuación la medialos de
del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los
Ejemplo
los logaritmos
logaritmos 1.8 Para
y deshacer
se puede calcular labase,
finalmente
usar cualquier media geométrica
la transformación
siempre y cuandodel colesterol
logarítmica. HDL
Para
el logaritmo en la muestra
ycalcular
el los del
valores
estudio yEURAMIC,
a continuación se se calcula
halla primero suelmedia aritmética,
logaritmo natural de cada uno de los valores ya
consecuencia, la distribución de estos 10 valores del colesterol HDL es
continuación
logaritmos
antilogaritmo seestén
puede se calcula
enusar
la misma su media
cualquier
base.base, aritmética,
Notarsiempreque lay cuando el logaritmosólo
media geométrica y elpuede
aproximadamente simétrica 1 10 con un leve log(0sesgo
,89) +positivo.
... + log(1,53)
antilogaritmo estén enlog
la
emplearse como medida deGtendencia x =
misma
base.
10 i =1
log x
Notar
central i =que
en la media geométrica
variables sólo puede
10que toman valores positivos.
emplearse como medida de tendencia − 0,117central
+ ... + 0en ,425
variables que toman valores positivos.
1.2.3 Media geométrica= = 0,155.
Ejemplo 1.8 Para calcular la media 10geométrica del colesterol HDL en la muestra
LaLa mediageométrica,
media
Ejemplo geométrica es, porlatanto,
denotada ,=seexp(0,155)
por xGgeométrica define delcomo=colesterol
1,168
la raízmmol/l.
n-ésimaendel producto de
del estudio1.8 Para calcular
EURAMIC, media
se halla primero el logaritmo naturalHDL de cada la muestra
uno de los
La media geométrica es, por tanto, xG = exp(0,155) = 1,168 mmol/l.
Allos
igual que la
valores
del demediana,
estudio la media
una muestra
EURAMIC, dehalla
se geométrica
tamaño n, eleslogaritmo
primero útil comonatural medidade decada
tendencia
uno decentral
los para
valores
variables muyyasimétricas,
a continuación
en lasseque
calcula su media
un pequeño aritmética,
grupo de observaciones extremas tienen una
excesiva
Al igual influencia sobre la la
que ylaamediana,
valores media
continuación se aritmética.
media geométrica
calcula La1 /media
su media es
n útil
geométrica
como medida
aritmética, tienedelatendencia
ventaja adicional de
presentar un tratamiento estadístico 10 sencillo
más n
que la mediana.
1
log xG = x G= log ∏x x i= log(=0n,89 x1)x 2+ ⋅...
...+⋅ xlog(
n .
1,53)
central para variables muy asimétricas, 10
1 i10=1
en lasi
que un pequeño
i =1 log(0,89) + 10 grupo
... + log(1,53 de) observaciones
log x G = log x i =
− 0,i117 + ... + 0,425
1.3 MEDIDAS
extremas tienen unaDE POSICIÓN:
excesiva = 10 CUANTILES
influencia =1
sobre la media 0,15510 .
= aritmética. La media geométrica
En la práctica, la forma más sencilla de calcular
− 0,117 +10... + 0,425 la media geométrica consiste en
Los cuantiles indican la posición=relativa de una observación = 0,155con . respecto al resto de la muestra.
8
10
calcular primero
A continuación el logaritmo
se describen de cadamás
los cuantiles valor muestral, hallar a continuación la media de
utilizados:
La media geométrica es, por tanto, xG = exp(0,155) = 1,168 mmol/l.
yy Percentiles son los valores de una variable que dejan un determinado porcentaje de los
losLalogaritmos y deshacer
media geométrica por tanto, laxGtransformación
es,finalmente = exp(0,155) =logarítmica.1,168 mmol/l. Para calcular los
datos por debajo de ellos. Así, por ejemplo, el percentil 10 es el valor superior al 10% de
las observaciones,
Allogaritmos
igual que se pero inferior
la mediana, media al 90% restante. Lacomomediana corresponde, por tanto, al
puede usarlacualquier geométrica
base, siempre es útil
y cuando medida de tendencia
el logaritmo y el
percentil 50. En una muestra de tamaño n, previamente ordenada de menor a mayor, el
Al igual que la mediana, la media geométrica es útil como medida de tendencia
percentil
central p-ésimo
para variables
antilogaritmo esténseendefine
muy la como:
asimétricas,
misma base.enNotar
las que que unlapequeño grupo de observaciones
media geométrica sólo puede
central np/100
Sipara es un número
variables entero, la media
muy asimétricas, deque
en las las observaciones
un pequeño grupo(np/100) y (np/100 + 1)-ésimas.
de observaciones
emplearse
extremas tienen como
una medida de
excesiva tendenciasobre
influencia central
la en variables
media que toman
aritmética. La valores
media positivos.
geométrica
Si np/100 no es un número entero, el valor k-ésimo de la muestra, siendo k el menor
extremas tienen
entero una excesiva
superior a np/100.influencia sobre la media aritmética. La media geométrica
8
Ejemplo
yy Deciles, 1.8 Para acalcular
corresponden la media10,
los percentiles geométrica
20, ..., 90.del
Loscolesterol HDL
deciles se en lapara
utilizan muestra
dividir
8
la muestra en 10 grupos de igual tamaño.
del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los
yy Quintiles, corresponden a los percentiles 20, 40, 60 y 80, y dividen la muestra en 5 grupos
de igual tamaño.
valores y a continuación se calcula su media aritmética,
Pastor-Barriuso R. 5
1 10 log(0,89) + ... + log(1,53)
log x G = log x i =
10 i =1 10
− 0,117 + ... + 0,425
mmol/l. De igual forma, como 10p/100 = 2,5 no es un número entero para p = 25,
Estadística descriptiva
el percentil 25 es el tercer valor de la muestra, que corresponde a 0,87 mmol/l.
diferencias
realizar inferencias
1.4.1 acerca entrey cada
de los
Varianza valor de
parámetros
desviación la muestra ycorrespondientes.
poblacionales
típica su media, dividida
A por el tamaño muestral
semenos
continuación La 1, muestral,
varianza
describen denotada
los principales por s2, se define
estimadores como la suma
de la tendencia de los
central cuadrados de las diferencias
de una
entre cada valor de la muestra y su media, dividida por el tamaño muestral menos 1,
variable. media, el número de valores independientes de la muestra (denominado “grados de
1 n 1 n 2
2
s = 2
( xi − x ) = x i − nx 2 .
libertad”) para el cálculo denla−varianza
1.2.1 Media aritmética
1 i =1 n − 1 i =1 la media y n - 1 valores, el
es n - 1 (conocida
Como puede apreciarse, cuanto más dispersos estén los datos, mayores serán los cuadrados de
valor restante se(x
deduciría automáticamente). sumaUna .justificación más formal paradeesta
La media aritmética,
las
Como denotada
desviaciones i – x ), se
por
puede apreciarse, define
y cuanto
mayor comola
será
más lavarianza
dispersos des2cada
estén uno
Notar
los de las
que
datos, los desviaciones
mayores serán loscada valor
2
respecto de la media se elevan al cuadrado para evitar que se compensen las desviaciones
definición
positivas de por
la varianza
(valores se aaporta en el2Tema 5.
valores muestrales dividida
cuadrados de lassuperiores
el número
desviaciones delaobservaciones
media)
(x i - x )con lasrealizadas.
y mayor negativas
será la(valores
Si denotamos
varianza inferiores
s2. Notaraquela media).
las Cabe
destacar también que, en la fórmula de la varianza muestral, el denominador es n – 1 en lugar de n.
por n el tamaño
Esto Lasevarianza
muestral
debey por
ademuestral
xcada
que,i eluna
valores observado
vez difícil de interpretar
calculada para el como
sujeto
lalamedia, medida
elsei-ésimo,
número ide=de1,dispersión,
valores ya que sus
..., n, independientes
desviaciones valor respecto de media elevan al cuadrado para evitar quedesela
muestra (denominado “grados de libertad”) para el cálculo de la varianza es n – 1 (conocida la
unidades
la media vendría
mediadada son
y npor las
– 1las de la el
valores, variable originalse
valorpositivas
restante al deduciría
cuadrado.automáticamente).
La medida de dispersión más
compensen desviaciones (valores superiores a la media)Una con justificación
las negativasmás
formal para esta definición de la varianza se aporta en el Tema 5.
utilizada es la desviación típica o desviación estándar s, que se define como la raíz
(valores inferiores
La varianza 1a nlaesmedia).
muestral x +de
difícil Cabe + ...destacar
x 2interpretar
+ x n comotambién que,
medida deen la fórmula
dispersión, yade
quelasus
varianza
unidades
x = xi = 1 .
son las de la variable
cuadrada de la varianza original
n i =1 al cuadrado.
n La medida de dispersión más utilizada es la desviación
muestral,
típica el denominador
o desviación estándar es n - 1seen
s, que lugarcomo
define de n.laEsto raízse debe a que,
cuadrada de launa vez calculada la
varianza
mbio de escala (unidades). Si se multiplica 19 10i =1cada uno 2de los (0,89 − 1,223
datos de una) 2 + ...9 + (1,53 − 1,223) 2
valores muestrales dividida s 2 = por
90,111
el ( xnúmero
− x )
+i ... + 0,094
de
= observaciones realizadas.
92
Si denotamos
DE TENDENCIA CENTRAL = i =1
= 0,156 (mmol/l)
stra por una porconstante,
n el tamaño la varianza
muestralresultante
y por
0,111 xi el +es 9igual
valor
... a la varianza
+ 0,observado
094 parainicial
el sujeto pori-ésimo, i = 1, ..., n,
= = 0,156 (mmol/l) 2
tendencia central 9 valor
onstante mediainforman
allacuadrado acerca
y la desviación
vendría dada porde cuáles
típica esigual
el a lamás representativo
desviación típica
yy la desviación típica por s = 0,156 = 0,395 mmol/l.
la desviación
nada
ial porvariable o, dicho
dicha constante; y ladesidesviación
forma
yi = cxequivalente,
i, entonces
típica por sestos
2
y ns==c s0
2estimadores
2
y sy == cs
x ,156 xindican
0,395. Unmmol/l.
cambio
Algunas propiedadesxde= la varianza 1 x + x + ... + x
x i = y la desviación .típica son:
1 2 n
é valor se agrupanAlgunas los datos observados.deLas
propiedades n
la medidas
varianza de
y latendencia
n valores
desviación típica son:
scala que se realizayy con Cambio frecuencia
de origen es (traslación).
la división i =1 de todos
Si se suma losuna constante de una
a cada uno de los datos de una muestra,
Algunas
la varianza propiedades de la varianza
y la desviación típica noycambian; la desviación si yi = típica
xi + c, son:
entonces sy2 = sx2 y sy = sx.
uestra sirven tanto para resumir los resultados observados como para
stra por su desviación
La media típica. La desviación
es la medida de (unidades).
tendencia típicacentral
de la variable
más utilizadaresultantey de
yy Cambio de escala Si se multiplica cada unomás de fácil
los datos de una muestra por
cias acerca de los parámetros una constante, la varianza
poblacionales resultante es igual
correspondientes. A a la varianza inicial por la constante al
, por tanto,interpretación.
igual a 1. Corresponde al “centro de gravedad”
cuadrado y la desviación típica es igual a ladedesviación
los datos de la muestra.
típica inicial porSu dicha constante;
11
e describen los principales cxi, entoncesde
si yi = estimadores sy2la = ctendencia
2 2
sx y sy =central csx. Undecambiouna de escala que se realiza con frecuencia
edades delprincipalcambio de origen
limitación y escala
es que se emplean
está muy para la estandarización de
es la división de todos los influenciada
valores de una pormuestra
los valorespor su extremos y, entípica.
desviación este La desviación
11
típica de la variable resultante será, por tanto, igual a 1.
que consiste caso,en puede
restarlenoa ser los un
valores de unadevariable
fiel reflejo la tendenciasu media centraly dividirlos por
de la distribución.
Las propiedades del cambio de origen y escala se emplean para la estandarización de variables,
itmética
ción que consiste
típica. La variable en restarle
estandarizada a los valores
resultante de una0variable
tiene media y desviación su media y dividirlos por su desviación
1.2típica.
MEDIDAS
Ejemplo La 1.4 DE
variable TENDENCIA
En este estandarizada
y en los sucesivos CENTRAL
resultante tiene media
ejemplos sobre 0estimadores
y desviación típica 1; essedecir, si zi =
muestrales,
sética, si zi = (x(x
decir,denotada por
-
ii – x x)/,s
)/s se
xx,, define
entonces
entonces comoz =
= la
00 ysuma
y sszz == de
1.
1. cada uno de los
utilizarán los valores
Las medidas de tendencia central informan del colesterol HDLacerca obtenidos de cuál en loses el10valor
primeros sujetos del
más representativo
ales dividida por el número de observaciones realizadas. Si denotamos
go intercuartílico 1.4.2 Rango intercuartílico
estudio
de una “European
determinada Study o,
variable ondicho
Antioxidants,
de formaMyocardial
equivalente,Infarction and Cancer
estos estimadores of
indican
muestral y porEl xi rango
el valor observado
intercuartílico para el
se define sujeto i-ésimo, i = 1, ..., n,
ntercuartílico se define como la diferencia entrecomo el tercer la diferencia
y el primer entre el tercer y el primer cuartil (percentiles
cuartil
the
alrededor
75 y 25,Breast“ (EURAMIC),
derespectivamente).
qué valor se agrupan un estudio
El rangolos datos multicéntrico
observados.indica
intercuartílico de casos layamplitud
Las medidas controles realizado
de tendencia
del 50% central de la
a dada por muestra y se usa como medida de dispersión cuando la variable presenta valores extremos. En
es 75 y 25, respectivamente). El rango intercuartílico indica la amplitud del
entre
central 1991
de lasuele
tal caso, y 1992
muestra en ocho
sirven tantode
ir acompañado países para Europeos
resumir los
la mediana e Israel
como para
resultados evaluar
medida observados el efecto
de tendenciacomo de los
para
central.
al de la muestra y1se usa como n
x +medida
x 2 + ... +dexdispersión cuando la variable
x=
realizar x i = 1 1.11
inferencias
Ejemplo acercaAde
n
los. parámetros
partir de los poblacionales
10 valores correspondientes.
del colesterol HDL ordenados A
n i =1 n 5de menor a
alores extremos. En tal mayor,caso,los percentiles
suele ir acompañado 25 y 75de vienen determinados
la mediana como por la tercera (0,87 mmol/l) y octava
continuación observaciónse describen(1,53los principales
mmol/l), estimadores El
respectivamente. de rango
la tendencia central de
intercuartílico se una
calcula entonces
latendencia
medida de tendencia central más utilizada y de más
central. como la diferencia entre ambos percentiles, 1,53 – 0,87 = 0,66 mmol/l.fácil
variable.
Corresponde al “centro de gravedad” de los datos de la muestra. Su
1.4.3 Coeficiente de variación
mplo 1.11 A 1.2.1 partirMedia
de los 10 valores del colesterol HDL ordenados de menor a
aritmética
ción es que estáElmuy influenciada
coeficiente de variación por lossevaloresdefine como extremos y, en este
el cociente entre la desviación típica y la media aritmética,
or, los percentiles media25 yaritmética,
Laexpresado 75comovienen determinados
denotada
porcentaje, por xpor
100s/ seladefine
.,Este tercera
estimador (0,87
como nolammol/l)
suma
está dey cada
afectado poruno de losde escala ya que,
cambios
ser un fiel reflejo de la tendencia central de la distribución.
al multiplicar los valores de una variable por un mismo factor, tanto la media como la desviación
va observación (1,53muestrales
típica
valores mmol/l),por
cambian respectivamente.
dicho por
dividida factor El
su rango
el ynúmero de intercuartílico
cociente se
permanece inalterable.
observaciones realizadas.El Si coeficiente
denotamosde variación
relaciona la desviación típica con la media y es útil para comparar la variabilidad de diferentes
1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
n el tamaño
porvariables con distintas y por xiAsí,
muestralmedias. por ejemplo,
el valor unapara
observado desviación i-ésimo,
típica
el sujeto de 10i kg n, muestra de
= 1,en...,una
adultos con un peso medio de 70 kg indicaría un mismo grado de dispersión que una desviación
los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
la media vendría dada por 12
Pastor-Barriuso R. 7
European Study on Antioxidants, Myocardial Infarction and Cancer of
1 n x + x 2 + ... + x n
x =
t“ (EURAMIC), un estudio multicéntrico de casos
n i =1
xyi controles
= 1
nrealizado
.
realizar inferencias acerca de los parámetros poblacionales correspondientes. A
Estadística descriptiva
continuación se describen los principales estimadores de la tendencia central de una
variable.
típica de 0,5 kg en una muestra de recién nacidos con un peso medio de 3,5 kg (ambos coeficientes
de variación son 100·10/70 = 100·0,5/3,5 = 14,3%).
1.2.1 Media aritmética
Ejemplo 1.12 El coeficiente de variación de los 10 primeros valores del colesterol HDL
en
Laelmedia
estudio EURAMIC
aritmética, denotada por x ,=se
sería 100s/ 100·0,395/1,223
define como la =suma
32,3%; es decir,
de cada uno la
dedesviación
los
típica es aproximadamente un tercio de la media.
valores muestrales dividida por el número de observaciones realizadas. Si denotamos
1.5 REPRESENTACIONES
por n el tamaño muestral yGRÁFICAS
por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n,
En el análisis e interpretación de los datos de un estudio, es importante no limitarse a realizar medidas
la media vendría dada por
de resumen numéricas. Las medidas de tendencia central y dispersión deben completarse con gráficos
que permitan observar directamente las características y relaciones de las variables estudiadas. En
esta sección se revisan los principales métodos
1 n gráficos
x +para
x 2 +presentar
... + x n y resumir una variable.
x = xi = 1 .
n i =1 n
1.5.1 Diagrama de barras
La media
Los diagramas es la medida
de barras de tendencia
son adecuados para central más utilizada
representar variables ycualitativas
de más fácily cuantitativas
discretas. En estos diagramas se representan las categorías de la variable en el eje horizontal y sus
interpretación.
frecuencias (absolutas Corresponde
o relativas) enalel“centro de gravedad”
eje vertical. Para cada de los datos
categoría devariable
de la la muestra. Su
se construye
un rectángulo de anchura constante y altura proporcional a la frecuencia. Los rectángulos están
principal
separados limitación
unos de otros poresla que estádistancia
misma muy influenciada porlalos
para reflejar valores extremos
discontinuidad y, en este
de la variable.
caso, puede no ser un fiel reflejo de la tendencia central de la distribución.
Ejemplo 1.13 La representación del diagrama de barras del hábito tabáquico en el grupo
control del estudio EURAMIC se ilustra en la Figura 1.1. De los 700 controles del estudio que
no habían padecido
Ejemplo 1.4 un
Eninfarto
este y agudo
en los de miocardio,
sucesivos todos salvo
ejemplos sobreuno presentaban
estimadores información
muestrales, se
sobre el consumo de tabaco. De éstos, un 27,2% (190/699) eran nunca fumadores, un 35,3%
(247/699) eran exlos
utilizarán fumadores, y elcolesterol
valores del restante 37,5%
HDL (262/699)
obtenidoseran fumadores
en los actuales.
10 primeros sujetos del
estudio
40 “European Study on Antioxidants, Myocardial Infarction and Cancer of
entre
30 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los
Frecuencia relativa (%)
5
20
10
Figura 1.1 Diagrama de barras del hábito tabáquico en el grupo control del estudio EURAMIC.Figura 1.1
8 Pastor-Barriuso R.
Representaciones gráficas
150
125
100
Frecuencia absoluta
75
50
25
Figura 1.2 Histograma y polígono de frecuencias del colesterol HDL en el grupo control del estudio
EURAMIC.
Pastor-Barriuso R. 9
Estadística descriptiva
Ejemplo 1.15 La Figura 1.3 muestra el gráfico de tallo y hojas del colesterol HDL en los
100 primeros controles del estudio EURAMIC con datos para esta variable. Los 2 valores
más bajos del colesterol HDL son 0,21 y 0,26 mmol/l, cuyo tallo común es 0,2 y sus
respectivas hojas son 1 y 6, que aparecen a la derecha de la primera línea del gráfico. El
siguiente tallo es 0,3, que no tiene ninguna hoja ya que no hay valores entre 0,30 y 0,39
mmol/l, y lo mismo sucede con el tallo 0,4. En el tallo 0,5 hay una hoja igual a 7, que
corresponde al valor 0,57 mmol/l. En el tallo 0,6 hay 5 hojas (35558), que corresponden a
los 5 valores del colesterol HDL entre 0,60 y 0,69 mmol/l y que son 0,63, 0,65, 0,65, 0,65 y
0,68 mmol/l. El resto de los tallos se interpreta de la misma manera. A partir de este gráfico
resulta sencillo calcular los cuantiles; así, por ejemplo, la mediana se obtendría como la
media de los valores ordenados en las posiciones 50 y 51, (1,10 + 1,12)/2 = 1,11 mmol/l.
2 0,2 16
0 0,3
0 0,4
1 0,5 7
5 0,6 35558
3 0,7 467
12 0,8 002344455579
13 0,9 0013334566779
13 1,0 0111123455559
9 1,1 023456789
15 1,2 000023356689999
7 1,3 1223778
6 1,4 345789
6 1,5 133689
2 1,6 44
2 1,7 34
2 1,8 36
1 1,9 0
1 2,0 9
Figura 1.3 Gráfico de tallo y hojas del colesterol HDL en los 100 primeros controles del estudio EURAMIC.
Figura 1.3
10 Pastor-Barriuso R.
Representaciones gráficas
Ejemplo 1.16 La Figura 1.4 muestra el diagrama de caja del colesterol HDL en el grupo
control del estudio EURAMIC. Como puede observarse, esta distribución presenta un
leve sesgo positivo ya que el límite superior de la caja está ligeramente más alejado de la
mediana que el límite inferior.
2,5
2
Colesterol HDL (mmol/l)
1,5
0,5
Figura 1.4 Diagrama de caja del colesterol HDL en el grupo control del estudio EURAMIC. Figura 1.4
Pastor-Barriuso R. 11
Estadística descriptiva
1.6 REFERENCIAS
12 Pastor-Barriuso R.
TEMA 2
PROBABILIDAD
2.1 INTRODUCCIÓN
yy El suceso unión A∪B es el evento constituido por los elementos que pertenecen a A o B, o
a ambos a la vez.
yy El suceso intersección A∩B es el evento formado por los elementos que pertenecen
simultáneamente a A y B.
yy Sucesos disjuntos, incompatibles o mutuamente excluyentes son aquellos que no pueden
ocurrir simultáneamente; es decir, su intersección es el conjunto vacío, A∩B = ∅.
yy El suceso complementario del suceso A, denotado por Ac, es el evento que ocurre cuando
no se realiza A.
Estos sucesos están representados en los diagramas de la Figura 2.1. En general, las
operaciones entre sucesos se rigen por la teoría de conjuntos, de la cual pueden derivarse algunas
propiedades importantes como A∪(B∩C) = (A∪B)∩(A∪C), A∩(B∪C) = (A∩B)∪(A∩C),
(A∪B)c = Ac∩Bc y (A∩B)c = Ac∪Bc.
Pastor-Barriuso R. 13
Probabilidad
B B
(a)AA∪B
persona, los sucesos = (0, 1] y B = (1,5, ∞) son mutuamente
(b) A∩Bexcluyentes ya que
= (1, ∞).
B
sensibilidad,
Ejemplola 2.2
especificidad y los valoresdepredictivos
En el experimento de lasa pruebas
supervivencia diagnósticas.
los 6 meses de 4 pacientes con
cáncer, la unión de los sucesos B = {1, 2} y C = {2, 3, 4} es B∪C = {1, 2, 3, 4} y su
intersección es B∩C = {2}. Al medir los niveles de colesterol HDL de una persona, los
2.2 CONCEPTO Y 1]
sucesos A = (0, DEFINICIONES
y B = (1,5, ∞) sonDE PROBABILIDAD
mutuamente excluyentes ya que A∩B = ∅. Asimismo,
en este experimento el complementario de A es el suceso Ac = (1, ∞).
El concepto de probabilidad es intuitivo, tal y como se refleja en el lenguaje cotidiano:
En este tema se define el concepto de probabilidad y se introducen las reglas básicas para
operar con probabilidades.
la probabilidad de un sucesoEstas reglas
refleja constituyen la
la verosimilitud debase paraocurra,
que éste el cálculo e interpretación
de forma que de
los procedimientos de inferencia estadística (por ejemplo, el valor P de un contraste de hipótesis
–véase Tema
los sucesos más5–)probables
y permiten también
se darán con evaluar la sensibilidad,
mayor frecuencia que loslamenos
especificidad y los
probables. Sinvalores
predictivos de las pruebas diagnósticas.
embargo, para abordar la probabilidad de forma sistemática, es necesaria una definición
2.2 CONCEPTO Y DEFINICIONES DE PROBABILIDAD
rigurosa, a la vez que compatible con nuestra intuición. Dos definiciones de
El concepto de probabilidad es intuitivo, tal y como se refleja en el lenguaje cotidiano: la
probabilidad de
probabilidad de un
usosuceso
comúnrefleja
son: la verosimilitud de que éste ocurra, de forma que los sucesos
más probables se darán con mayor frecuencia que los menos probables. Sin embargo, para
• Definición frecuentista (von Mises). Al repetir un experimento indefinidamente,
abordar la probabilidad de forma sistemática, es necesaria una definición rigurosa, a la vez que
compatible con nuestra intuición. Dos definiciones de probabilidad de uso común son:
la probabilidad de un suceso es el límite del cociente entre el número de veces que
yy Definición frecuentista (von Mises). Al repetir un experimento indefinidamente, la
probabilidad
ocurre dicho de un suceso
suceso es el límite
y el número del cocienterealizados,
de experimentos entre el número de veces que ocurre
dicho suceso y el número de experimentos realizados,
#A
P(A) = lim ,
n →∞ n
cumplan losaxiomática
yy Definición siguientes axiomas:
(Kolmogorov). La probabilidad es una función que asigna a cada
posible suceso de un experimento un valor numérico, de tal forma que se cumplan los
negatividad: P(A) ≥ 0,
(i) Noaxiomas:
siguientes
(i) (ii)No negatividad: P(
Normatividad: P(A) Ω) ≥= 0, 1,
(ii) Normatividad: P(W) = 1,
Aditividad:SiSiAA, 1A, A, 2...
(iii) (iii)Aditividad: , ...son
sonsucesos
sucesosmutuamente
mutuamenteexcluyentes,
excluyentes,entonces
entonces
1 2
axiomática se derivan
∞ algunas propiedades importantes de la función ∞ de
P Ai = P( A1 ∪ A2 ∪ ...) = P( A1 ) + P( A2 ) + ... = P( Ai ) .
axiomática se derivan algunas propiedades importantes de la función de
probabilidad: i =1 i =1
Notar que esta definición de probabilidad tan sólo especifica las propiedades generales
probabilidad:
- P(
Notar
que ∅
debe ) tener
que =esta
0, una
definición
función de probabilidad,
probabilidad tan
perosólo especifica
no permite las propiedades
la asignación de probabilidades
a- un
P(∅suceso
) = 0, concreto. No obstante, de la definición axiomática se derivan algunas
- P(Ac) =que
generales
propiedades P(A),tener de
1importantes
- debe unalafunción
funciónde
deprobabilidad,
probabilidad:pero no permite la
c
- P(AP(∅)
(iv) ) = 1=-0,P(A),
asignación
- Si A estádeincluido
probabilidades a un
en B, A ⊂ B, suceso concreto.
entonces No obstante, de la definición
P(A) ≤ P(B),
P(A
-(v) Si A
c
1 – P(A),
) =incluido
está en B, A ⊂ B, entonces P(A) ≤ P(B),
- 0 ≤ P(A) ≤ 1,
(vi) Si A está incluido en B, A ⊂ B, entonces P(A) ≤ P(B),
- 0 ≤ P(A) ≤ 1,
0 ≤ P(A) ≤ 1, Para cualquier colección de sucesos A1, A2, ...,
- Sub-aditividad:
(vii)
4
- Sub-aditividad: Para cualquier colección de sucesos A1, A2, ...,
(viii) Sub-aditividad: Para cualquier colección de sucesos A1, A2 , ...,
∞ ∞
P Ai ≤ P( Ai ) ,
i∞=1 i∞=1
P Ai ≤ P( Ai ) ,
i =1 i =1
- Principio
(ix) Principio de de
inclusión-exclusión:
inclusión-exclusión: Sean
SeanA1,AA,2A
, ..., AkAsucesos
, ..., sucesoscualesquiera,
cualesquiera,
1 2 k
- Principio de inclusión-exclusión: Sean A1, A2, ..., Ak sucesos cualesquiera,
k k
P Ai = P ( Ai ) − P( Ai ∩ A j ) + ...
ik=1 ik=1
P Ai = P(k A ) − P( Ai ∩ A j ) + ...
1≤ i < j ≤ k
+1i
i =1 + i(=−1 1) P( A1≤1 i <∩j ≤Ak 2 ∩ ... ∩ Ak ).
+ (−1) k +1 P( A1 ∩ A2 ∩ ... ∩ Ak ).
Del tercer axioma de la probabilidad se deduce que, si dos sucesos son mutuamente
Del tercer axioma
excluyentes, de la probabilidad
la probabilidad se deduce
de la unión es la que,
sumasi de
dossus
sucesos son mutuamente
probabilidades por separado. El
Del tercer de
principio axioma de la probabilidad
inclusión-exclusión se deduceeste
generaliza que,resultado
si dos sucesos son mutuamente
para sucesos no necesariamente
excluyentes, la probabilidad de la unión es la suma de sus probabilidades por separado.
excluyentes, la probabilidad de la unión es la suma de sus probabilidades por separado.
El principio de inclusión-exclusión generaliza este resultado para sucesos no Pastor-Barriuso R. 15
necesariamente
El excluyentes: la probabilidad
principio de inclusión-exclusión
Probabilidad generalizadeeste
la unión de dos
resultado sucesos
para cualesquiera
sucesos no es
Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada
la suma de sus probabilidades
necesariamente excluyentes: lapor separado, menos
probabilidad la probabilidad
de la unión de lacualesquiera
de dos sucesos intersección,es
población de adultos es 0,20, la probabilidad de ser diabético es 0,03 y la
excluyentes: la probabilidad de la unión de dos sucesos cualesquiera es la suma de sus
la suma de sus probabilidades
P(Apor
∪B)separado,
= P(A) +menos
P(B)de-la probabilidad
P(A ∩B). de la intersección,
probabilidades por separado,
probabilidad menos la probabilidad
de ser simultáneamente bebedor yladiabético
intersección,
es 0,01. Si se denota por
B al suceso
Este principio puede P(Aya∪por
ser aplicarse
bebedor B) D
= P(A)
colecciones P(B)
+con
al suceso
- P(A∩B).
ser
másdiabético, la probabilidad
de dos sucesos. Así, por de que un
ejemplo,
Este principio puede aplicarse a colecciones con más de dos sucesos. Así, por ejemplo, para tres
individuo
para principio
Este tres sucesosdecualesquiera,
puedeesta población sea bebedor,
quecondiabético
asecolecciones
cumple o ambos a laAsí,
vez por
viene
sucesos cualesquiera, se aplicarse
cumple que más de dos sucesos. ejemplo,
Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada
determinada
para tres por
sucesos cualesquiera,
P(A∪B∪se C)cumple
= P(A) que
+ P(B) + P(C)
población de adultos es 0,20, la probabilidad de ser diabético es 0,03 y la
- P(A∩B) - P(A∩C) - P(B∩C)
P(B∪D)P(A=∪P(B)
B∪C)+ =P(D)P(A)- P(B ∩D)+ =P(C)
+ P(B) 0,20 + 0,03 - 0,01 = 0,22.
probabilidad de ser simultáneamente bebedor
+ P(A∩B∩C). y diabético es 0,01. Si se denota por
- P(A∩B) - P(A∩C) - P(B∩C)
B al suceso ser bebedor y por D al suceso ser diabético, la probabilidad de que un
Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada
2.3población
PROBABILIDAD
de adultos CONDICIONAL E INDEPENDENCIA DE SUCESOS
individuo de esta es 0,20, lasea
población probabilidad
+ P(A de ser diabético
∩B∩diabético
bebedor, C). o ambos aesla0,03 y la probabilidad5 de
vez viene
ser simultáneamente bebedor y diabético es 0,01. Si se denota por B al suceso ser bebedor
D al suceso
La yprobabilidad de un
pordeterminada sersuceso
por puede
diabético, la depender de laderealización
probabilidad de otrode
que un individuo suceso. Así, por sea
esta población
5
bebedor, diabético o ambos a la vez viene determinada por
ejemplo, la probabilidad de tener un infarto de miocardio es diferente en los hombres
P(B∪D) = P(B) + P(D) - P(B∩D) = 0,20 + 0,03 - 0,01 = 0,22.
que en las mujeres; es decir, la probabilidad del suceso tener un infarto de miocardio
2.3 depende
PROBABILIDAD
2.3 del suceso serCONDICIONAL
PROBABILIDAD hombre
CONDICIONAL EE INDEPENDENCIA
o ser mujer. DESUCESOS
El concepto matemático
INDEPENDENCIA DE SUCESOS
que permite
La probabilidad
formalizar de un
cómo sesuceso puede
modifica la depender de de
probabilidad la realización defunción
unrealización
suceso en otro suceso. Así,espor
de otro la ejemplo,
La probabilidad de un suceso puede depender de la de otro suceso. Así,
la probabilidad de tener un infarto de miocardio es diferente en los hombres que en las mujeres; por
es decir, la probabilidad
probabilidad del suceso
condicional. Entenertener un
general, lainfarto de miocardio
probabilidad depende
delessuceso del suceso ser hombre
B condicionada
ejemplo, la probabilidad de un infarto de miocardio diferente en los hombresal
o ser mujer. El concepto matemático que permite formalizar cómo se modifica la probabilidad
de un suceso
suceso
que enAlasenmujeres;
se función
define esdedecir,
como otro la
esprobabilidad
la probabilidad condicional.
del suceso tener unEninfarto
general, la probabilidad del
de miocardio
suceso B condicionada al suceso A se define como
depende del suceso ser hombre o ser mujer. El
P(concepto
A ∩ B) matemático que permite
P(B|A) = .
formalizar cómo se modifica la probabilidad dePun
( Asuceso
) en función de otro es la
De forma intuitiva, condicionar por el suceso A es equivalente a seleccionar por este suceso.
probabilidad condicional. En general, la probabilidad del suceso B condicionada al
Así,DeP(infarto|hombre) es equivalente
forma intuitiva, condicionar por el suceso A es equivalente
a seleccionar en primer lugar a los
a seleccionar porhombres
este y
posteriormente determinar
suceso A se define como su probabilidad de tener un infarto de miocardio.
no suceso.
expuestos y RR
Así, = P(D|E)/P(D|Eesc) equivalente
P(infarto|hombre) es el riesgo arelativo de la en
seleccionar enfermedad entre
primer lugar los
a los
El concepto de probabilidad condicional tiene numerosas aplicaciones en epidemiología y
salud pública. Por ejemplo, si D es el sucesoP(tener A ∩ Buna
) deenfermedad y E es el suceso estar
expuestos
hombres y ylosposteriormente
no expuestos.
expuesto a un factor de riesgo,determinar
P(D|E) es su
P(B|A) probabilidad
la =probabilidad
P ( A)
tener
. de la un infartoentre
enfermedad de miocardio.
los expuestos,
P(D|E ) es la probabilidad de la enfermedad entre los no expuestos y ψ = P(D|E)/P(D|Ec) es el
c
El concepto
riesgoEjemplo
relativo de deenfermedad
probabilidad condicional tiene ynumerosas aplicaciones en
2.5laContinuando entre
con ellos expuestos
ejemplo anterior,loslanoprobabilidad
expuestos. de que un
De forma intuitiva, condicionar por el suceso A es equivalente a seleccionar por este
epidemiología y salud pública. Por ejemplo, si D es el suceso tener una enfermedad y E
Ejemplo
bebedor 2.5 diabético
sea Continuando con como
se calcula el ejemplo anterior, la probabilidad de que un bebedor
suceso. Así, P(infarto|hombre)
sea diabético se calcula comoes equivalente a seleccionar en primer lugar a los
es el suceso estar expuesto a un factor de riesgo, P(D|E) es la probabilidad de la
hombres y posteriormente determinarPsu( Bprobabilidad
∩ D) 0,01 de tener un infarto de miocardio.
P(D|B) = c =
enfermedad entre los expuestos, P(D|E ) es la probabilidad = 0,05
de la enfermedad entre los
P( B) 0,20
El concepto de probabilidad condicional tiene numerosas aplicaciones en
6
epidemiología y salud
y la probabilidad de pública.
que un noPorbebedor si Ddiabético
ejemplo,sea es el suceso
comotener una enfermedad y E
16 es el suceso
Pastor-Barriuso R. estar expuesto a un factor de riesgo, P(D|E) es la probabilidad de la
c P( B c ∩ D) P( D) − P( B ∩ D) 0,03 − 0,01
P(D|B ) = = c = de la enfermedad
= 0,025.
P( B c ) P(D|E ) es
enfermedad entre los expuestos, 1 −laPprobabilidad
( B) 1 − 0,20 entre los
Así, el riesgo de diabetes es el doble en los bebedores que en los no bebedores,
P( B ∩ D) 0,01
c (B c ∩ D
PP(D|B) = ) P( D) − P = ( B ∩ D=)0,05 0,03 − 0,01
P(D|B ) c=
RR = P(D|B)/P(D|B ) = 0,05/0,025 ==P2.( B) =
0,20Probabilidad = 0,025.
c
P( B ) 1 − P( B) − 0,20 e independencia de sucesos
1condicional
Se ydice
la probabilidad
queeldos
Así, riesgo
de que
sucesos sonun
de diabetes
no bebedor seasidiabético
independientes comode uno no afecta a la
la bebedores
es el doble en los ocurrenciaque en los no bebedores,
y la probabilidad de que un no bebedor sea diabético como
probabilidad c A y B son independientes si P(B|A) = P(B|Ac) = P(B) o,
RR =del otro;
P(D|B)/P(D|B
c
es decir,
P( B )c = ∩0,05/0,025
D) P( D)=−2.P( B ∩ D) 0,03 − 0,01
P(D|B ) = = = = 0,025.
P( B ) c
c 1 − P( B) 1 − 0,20
de forma equivalente, si P(A|B) = P(A|B ) = P(A). En consecuencia, si dos sucesos son
Se dice
Así, que dos
el riesgo desucesos
diabetesson es el independientes
doble en los sujetos si la ocurrencia
bebedoresdeque unoennolos afecta a la
no bebedores,
independientes,
Así, el riesgo
ψ = P(D|B)/P(D|Bpuede probarse
de diabetes
c esque
) = 0,05/0,025 el doble = 2.en los bebedores que en los no bebedores,
probabilidad del otro; es decir, A y B son independientes si P(B|A) = P(B|Ac) = P(B) o,
RR = P(D|B)/P(D|Bc) = 0,05/0,025 = 2.
Se dice que dos sucesos son P(A∩B) = P(A)P(B|A)
independientes P(A)P(B).de uno no afecta a la probabilidad
si la=ocurrencia
de forma equivalente, si P(A|B) = P(A|Bc) = P(A). En consecuencia, si dos sucesos son
del otro; es decir, A y B son independientes si P(B|A) = P(B|Ac) = P(B) o, de forma equivalente,
es=que
decir, c riesgo relativo es distinto de la unidad, RR = 2 ≠ 1. Esta dependencia
si P(A|B)
PorSe dice
tanto,
P(A|B dosel)sucesos
dos sucesos
independientes,
= P(A). son
puedetambién
En consecuencia,
probarse independientes
pueden
si doslasucesos
que definirse sicomo ocurrencia son independientes,
independientes de unosinolaafecta puede
a la probarse
probabilidad
que
se refleja también en elAhecho y B son de que la probabilidad de ser= simultáneamentec
probabilidad
de su intersección del otro; es decir,
es igual al producto la probabilidad sideP(B|A)
de independientes cada suceso P(B|A por) = P(B) o,
separado.
P(A∩B) = P(A)P(B|A) = P(A)P(B).
de bebedor y diabético P(A|B) no = esP(A|B
el producto
c
) = P(A). de susEn probabilidades,
Porforma
tanto,equivalente,
dos sucesossitambién pueden definirse como consecuencia,
independientes si dossi lasucesos son de su
probabilidad
PorEjemplo
tanto,
intersección dos2.6
es igual
es decir, A partir
sucesos
al producto
el riesgo de
tambiénlos
relativo resultados
pueden
de es del
definirse
la probabilidad ejemplo
distinto de la de como anterior, puede
independientes
cada suceso
unidad, RR = 2 por concluirse
si
≠ 1.separado. la que
probabilidad
Esta dependencia
independientes, puede probarse que = 0,01 ≠ 0,20⋅0,03 = P(B)P(D).
P(B∩D)
los sucesos
de Ejemplo
su intersección
se refleja padecer
es diabetes
igual al y serde
el producto bebedor
de
quelala no son independientes
probabilidad dedecada
ser suceso dadopor queseparado.
la
2.6 tambiénA partirende hecho
los resultados del probabilidad
ejemplo anterior, simultáneamente
puede concluirse que los
sucesos padecer diabetes P(A∩B) y ser= bebedor
P(A)P(B|A) no son independientes dado que la probabilidad
= P(A)P(B).
probabilidad
Notar que lael de ser diabético
yprobabilidad node esintersección
la diferente ende bebedores
dos que en no bebedores,
bebedor
es
de ser decir,
diabético diabético
riesgo relativo
es diferente esen el
es producto
distinto dede
bebedores lasus
que unidad,
en nosucesos
RR = 2cualesquiera
probabilidades,
bebedores, ≠ 1. Esta dependencia
Ejemplo 2.6 A partir de los resultados del ejemplo anterior, puede concluirse que
es decir,
Por tanto, el riesgotambién
dos sucesos relativopuedenes distinto de la como
definirse unidad, RR =c2 ≠ 1. Esta
independientes si ladependencia
probabilidad
se refleja también en el P(D|B)
hecho
P(B∩D)y=ser = de
P(A∩B) 0,05
que
0,01 ≠
= 0,025
la =
probabilidad
P(A)P(B|A)
≠ 0,20⋅0,03 P(D|B );
de ser
P(B)P(D). simultáneamente
los sucesos padecer diabetes bebedor no son=independientes dado que la
se refleja
de su intersección también
es igual en el hecho
al producto de que
de lade la probabilidad
probabilidad de ser simultáneamente
es decir,
bebedor el riesgo relativo
y diabético no eses distinto
el producto ladeunidad, ψde= cada
sus probabilidades,2 ≠ 1.suceso por separado.se refleja
Esta dependencia
probabilidad
no equivale
también en al producto de ser
el hecho de sus diabético es
que probabilidades, diferente
la probabilidad salvo en bebedores
de serque que en
ambos sucesosbebedor
simultáneamente no bebedores,
sean y diabético
bebedor
Notar que y diabético
la probabilidadno es el de producto
la de sus de
intersección probabilidades,
dos sucesos cualesquiera
no es el producto de sus probabilidades, 7
Ejemplo 2.6 A
independientes. Enpartir
general, de P(B∩D)
los
para resultados
= 0,01del
cualquier ejemplodeanterior,
≠ 0,20⋅0,03
conjunto = c puede
P(B)P(D).
sucesos A1, A2,concluirse
..., Ak, la que
P(D|B) = 0,05 ≠ 0,025 = P(D|B );
P(B∩D) =P(A∩B) 0,01 ≠ 0,20⋅0,03
= P(A)P(B|A) = P(B)P(D).
los sucesosdepadecer
probabilidad diabetes es
su intersección y ser bebedor no son independientes dado que la
Notar que la probabilidad de la intersección de dos sucesos cualesquiera
Notar que la al
noprobabilidad
equivale probabilidad
producto dede la probabilidades,
intersección
es diferente de en dos sucesos cualesquiera
Notar que
P(Ala ∩A
de ser diabético
probabilidad
∩...∩A ) = desus
P(Ala intersección
)P(A ∩...∩A de |A
salvo
bebedores
dos
)
que ambos
sucesos que ensucesos
no bebedores,
cualesquiera sean
7
1 2 k 1 2 k 1
probabilidad
condicionales de su deintersección es )P(A
la fórmula= anterior
P(A se2|Areducen a probabilidades no condicionales y, en
1 1)P(A3|A1∩A2)⋅…⋅P(Ak|A1∩A2∩...∩Ak 1). –
P(A1∩A2∩...∩Ak) = P(A1)P(A2∩...∩Ak|A1)
Enconsecuencia,
el P(A
caso–1∩A la
de2∩...∩A
que probabilidad
estos
k) = P(A sucesosde la sean
1)P(A2∩...∩A
intersección
mutuamente
k|A1)
es igualindependientes,
al producto de sus las probabilidades
condicionales de la fórmula= anterior P(A )P(Ase 1)P(A3∩...∩A
2|Areducen k|A1∩A2) = ... no condicionales y, en
a probabilidades
En el caso de que estos sucesos 1sean mutuamente
probabilidades, independientes, las probabilidades
consecuencia, la probabilidad de la intersección
= P(A1)P(A2|A1)P(A3∩...∩Ak|A1∩A es igual al producto
2) = ...
de sus probabilidades,
condicionales de la fórmula = P(A 1)P(A2|A1)P(A3|A1∩A2)⋅…⋅P(Ak|A1∩A2∩...∩Ak-1).
anterior se reducen a probabilidades no condicionales y, en
k
= P(A1)P(A2|A1)P(A3|A1∩A2)⋅…⋅P(Ak|A1∩A2∩...∩A k
k-1).
P Ai = P(A1∩A2∩...∩Ak) = P(A1)P(A2)⋅…⋅P(Ak) = ∏ P( Ai ) .
consecuencia,
En el caso de que i =la
1 probabilidad
sucesosdesean
estos la intersección
mutuamenteesindependientes,
igual al producto lasi =1de sus
probabilidades
En el caso de que estos sucesos sean mutuamente independientes, las probabilidades
probabilidades,
condicionales de la fórmula anterior se reducen a probabilidades no condicionales y, en
condicionales
2.4 REGLAdeDE la fórmula anterior se reducen
LA PROBABILIDAD a probabilidades no condicionales y, en
TOTAL
consecuencia, lak probabilidad de la intersección es igual al producto de sus Pastor-Barriuso R. 17
k
Pprobabilidad
consecuencia, la Ai = P(Ade
1∩A ∩...∩Ak) = P(A
la2intersección )P(A2al)⋅…⋅P(A
es 1igual de∏
k) =
producto susP( Ai ) .
La
probabilidades, i =1
probabilidad no condicional de un suceso B se relaciona con su probabilidad
i =1
i =1 i =1
espacio muestral; es decir, A y Ac son sucesos exhaustivos A∪Ac = Ω y mutuamente
Probabilidad
excluyentes A∩Ac = ∅.
2.4 REGLA DE LA PROBABILIDAD TOTAL
Así,
En la probabilidad
general, para unnoconjunto
condicional de B esAla
de sucesos 1, Amedia ponderada
2, ..., A k globalmentede lasexhaustivos
probabilidades
y
2.4 LaREGLA DE LA PROBABILIDAD TOTAL
probabilidad no condicional de un suceso B se relaciona con su probabilidad
condicionales de B dadoque Ac. Estauna
A yformen descomposición de la probabilidad sedel sucesoqueB en
Lamutuamente
probabilidadexcluyentes
no condicional de un suceso partición
B se relacionadel espacio muestral,
con su verifica
probabilidad condicionada
condicionada en la ocurrencia o no de otro suceso A mediante la fórmula
en la ocurrencia o nocde otro suceso A mediante la fórmula
términos de A y A es aplicablek porque estos sucesos k
constituyen una partición del
P(B) =P(B) = +PP(A
P(A∩B) ( Ai c∩
∩B)
B) == P(A)P(B|A)
P( Ai ) P( B Ai )c,)P(B|Ac).
+ |P(A
espacio muestral; es decir, A y A son sucesos exhaustivos A∪Ac = Ω y mutuamente
i =1
c
i = 1
decir, En
A ygeneral,
epidemiología, para un
Ac son sucesos
donde conjunto
emplean de
seexhaustivos con sucesos
A∪A c
= WA1y, A
frecuencia 2, ...,
mutuamente
las Ak globalmente
particiones.excluyentes exhaustivos
A∩Aal
Por ejemplo, c
y
=dividir
∅.
En general, para un conjunto de sucesos A1, A2, ..., Ak globalmente exhaustivos y mutuamente
mutuamente
la población excluyentes que formen unaestán
partición del espacio muestral, se verifica que
excluyentes queenformen
gruposuna
de edad y sexo
partición delseespacio empleando categorías
muestral, se globalmente
verifica que
exhaustivas y mutuamente excluyentes. k En general,k siempre que se divide la población
P(B) = P( Ai ∩ B) = P( Ai ) P( B | Ai ) ,
en estratos se aplica una partición i =1
a esa población.i =1
P( A ∩ B) 0,30⋅0,075P(+A0,10⋅0,300
) P( B | A) = 0,0645,
P(A|B) == 0,60⋅0,020 +
= .
P( B) P( A) P( B | A) + P( A c ) P( B | A c )
resultando
El teorema 64,5secasos
de Bayes porfrecuencia
usa con 1000 personas.
en la evaluación de pruebas diagnósticas. Cuando
El teorema
se desarrolla una de Bayesdiagnóstica
prueba se usa con yfrecuencia en lasus
se comparan evaluación de con
resultados pruebas diagnósticas.
los de un patrón oro
(método de referencia en el diagnóstico de la enfermedad), suelen determinarse los siguientes
Cuando se
parámetros desarrolla una propias
o características prueba diagnóstica
de la pruebaydiagnóstica:
se comparan sus resultados con los de un
En la aplicación clínica de una pruebaPdiagnóstica ( D c ) P(− | Dac una ) determinada población (1 − P ) E interesa conocer,
c
VP − los
sin embargo, = Psiguientes
( D | −) = parámetros: = .
| D)c P(− | D ) P(1 − S )PS + (1 − P) E
c c
P( D) P (−P| (DDc))+P(P+( D
yy Valor VP + = P ( Dc | +positivo
VP −predictivo
)=
= P( D | −) = P( Des laPprobabilidad
( D ) P(− | D de ) tener la = enfermedad (1 − Pentre
) E las personas
, que
) P(+ | D) + P( D cc ) P(+ | D cc ) = PS P ( 1
+ (1 − P)(1 − E ) .
− S ) + (1 − P ) E
P ( D )
tienen un resultado positivo, VP+ = P(D|+). P ( − | D ) + P ( D ) P ( − | D )
P( D) P(+ | D) PS
yy ValorVPpredictivo
Ejemplo P( D
+ =2.8 negativo
La| +sensibilidad
)= es de la probabilidad
la prueba ELISA de nopara tener = la enfermedad entre,las personas
c detectar seropositividad
P(negativo,
D) P(+ | DVP– ) + P( D c
) Pc (+ | D ) PS + (1 − P)(1 − E )
que tienen un resultado
c P ( D c ) P= (−P(D | D c |–).) (1 − P ) E
VP −al=virus
Ejemplo
frente P( D
2.8 La de −inmunodeficiencia
)=
|sensibilidad de la prueba
humana ELISA
c es del para = y su especificidad
c detectar
99% seropositividad es. del de la
Aplicando el teorema de Bayes, P( D) Ppueden (− | D) +calcularse
P( D ) P(− los| Dvalores) P(1predictivos
− S ) + (1 − en P) Efunción
prevalencia de la enfermedad en la población c y de la sensibilidad y especificidad de la prueba
frente
96%. al
En virus
una cde inmunodeficiencia
población con una P( D )P (− | D c de
humana
prevalencia )es infección
del 99% ypor − P ) Ede es del
el(1virus
su especificidad
diagnóstica,
VP − = P( D | −) = = .
P( D) P (− | D) + P( D ) P(− | D ) P(1 − S ) + (1 − P) E
c c
Ejemplo
96%. 2.8 La
En una
inmunodeficiencia sensibilidad
población con del de0,3%,
una la
P (prueba
prevalencia(+ |ELISA
D) Púnicamente Dde ) infección para detectar
por elseropositividad
virus
PS de con un
VP + = P ( D | + )humana = el 6,9% = de las personas ,
P( D) P(+ | D) + P( D c ) P(+ | D c ) PS + (1 − P)(1 − E )
frente al virus
inmunodeficiencia
resultado positivode inmunodeficiencia
humana
del test ELISA del 0,3%, humana
únicamente
estarán realmentees del el 99%
6,9%yde
infectadas, sulas especificidad
personas con es un del
Ejemplo 2.8 La sensibilidad de la prueba ELISA para detectar seropositividad
c P ( D c ) P(− | D c ) (1 − P ) E
96%.VPEn
resultado P( D
− =una | −del
población
positivo ) =test conELISAuna prevalencia
estarán realmente de infección = por el virus de
infectadas, .
frente al virus de inmunodeficienciaP(PS D) P (− | D)humana + P( D )es c
0P,003 −| D
(del ⋅ 0,)99y Psu(1especificidad
99% c
− S ) + (1 − P)es E del
VP+ = = = 0,069,
inmunodeficiencia PShumana
+ (1 − Pdel )(1 −0,3%,E ) únicamente
0,003 ⋅ 0,99 el + 06,9% ,997 ⋅de 0,04
las personas con un
96%. En una PS una prevalencia de 0,003 ⋅ 0,99 por el virus de
VP+población
= con = infección = 0,069,
Ejemplo 2.8 LaPS sensibilidad
+ test P)(1de
(1 − ELISA − Elaestarán
) prueba
0,003 ELISA
⋅ 0,99 +para detectar
⋅ 0,04 seropositividad frente al
0infectadas,
,997
resultado positivo del realmente
virus de inmunodeficiencia
mientras que prácticamente
inmunodeficiencia humana del humana
todas 0,3%, las es del 99%
personas
únicamente conyelresultado
su 6,9%especificidad
de negativo
las personasesestarán
delcon
96%. un En una
Ejemplo 2.8 La sensibilidad de la prueba ELISA
población con una prevalencia de infección por el virus de inmunodeficiencia humana del para detectar seropositividad
mientras
0,3%,
libres de
resultado que
únicamente
la prácticamente
infección,
positivo el testPS
del6,9% de todas
ELISA las
las personas personas
estarán con
realmente un0con
,003 resultado
⋅infectadas,
resultado 0,99 positivo negativo del estarán
test ELISA estarán
frente alVP+
virus =de inmunodeficiencia = humana es del 99% y su = 0,069, es del
especificidad
realmente infectadas, PS + (1 − P)(1 − E ) 0,003 ⋅ 0,99 + 0,997 ⋅ 0,04
libres de la infección,
96%. EnVP- una población (1 −PS P) Euna prevalencia 00de
con ,,997
003 ⋅⋅ 00,,99
infección 96 por el virus de
VP+ == =
= =
= 1,000.
0,069,
PPS
mientras que prácticamente +(1S(1)−−+PP()1todas
(1 − )( −1 −P)EE las
) 00,,003
personas
003 ⋅⋅ 00,,con
01 +
99 + 00,,997
resultado
997 ⋅⋅ 00,,negativo
96
04 estarán
E 0,997 ⋅ 0,96
inmunodeficiencia
VP- = humana del 0,3%, = únicamente el 6,9% de las=personas 1,000. con un
mientras
libres de que P(1 − S ) + (1todas
prácticamente
la infección, − P) las E personas
0,003 ⋅ 0con ,01 +resultado
0,997 ⋅ 0,negativo96 estarán libres de la
Sin embargo,
mientras
infección, que en una
prácticamente población todas de alto
las riesgo
personas
resultado positivo del test ELISA estarán realmente infectadas, concon una
resultadoprevalencianegativo del virus
estaránde
i =1
2.6 REFERENCIAS
edades entre
Esto es, 65–74,
el 18,6, 75–84
34,9 y ≥ 85
y 46,5% de años, respectivamente.
los casos de la enfermedad de Alzheimer tienen
1. Billingsley P. Probability and Measure, Third Edition. New York: John Wiley & Sons, 1995.
edades entre 65–74, 75–84 y ≥ 85 años, respectivamente.
2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury Press, 2002.
2.6 REFERENCIAS
3. Feller W. An Introduction to Probability Theory and Its Applications, Volume 1, Third
Edition. New York: John Wiley & Sons, 1968.
2.6 REFERENCIAS
4. 1.Rosner
Billingsley P. Probability
B. Fundamentals and Measure,
of Biostatistics, Third
Sixth Edition.
Edition. New York:
Belmont, John Wiley
CA: Duxbury & 2006.
Press,
1. Sons, 1995. P. Probability and Measure, Third Edition. New York: John Wiley &
Billingsley
Sons, 1995.
12
12
20 Pastor-Barriuso R.
TEMA 3
VARIABLES ALEATORIAS Y
DISTRIBUCIONES DE PROBABILIDAD
3.1 INTRODUCCIÓN
Ejemplo 3.1 A continuación se definen algunas variables aleatorias para los experimentos
del Ejemplo 2.1 del tema anterior. En el experimento consistente en observar la
supervivencia a los 6 meses de 4 pacientes con cáncer sometidos a tratamiento, una
variable aleatoria X podría ser el número de supervivientes, que tomaría los valores X =
0, 1, 2, 3 ó 4 en función del número de pacientes que hayan sobrevivido a los 6 meses.
Alternativamente, podría definirse otra variable aleatoria Y como el número de muertes,
cuyos valores serían Y = 0, 1, 2, 3 ó 4 en función del número de muertes observadas. Para
el experimento de medir el colesterol HDL de una persona, la variable aleatoria X más
natural sería el nivel de colesterol HDL en mmol/l, que podría tomar cualquier valor
positivo. Si el interés se centra en saber si los niveles de colesterol HDL son superiores o
inferiores al umbral de 0,90 mmol/l, otra variable aleatoria Y podría definirse como Y = 0
si el nivel observado es inferior a 0,90 mmol/l y 1 en caso contrario. La elección de los
valores 0 y 1 es arbitraria, bastaría con asignar dos valores distintos para diferenciar
ambos tipos de resultados.
Como las variables aleatorias son funciones definidas sobre el espacio muestral, sus posibles
valores tendrán asociada una probabilidad, que corresponderá a la probabilidad del suceso
constituido por aquellos resultados del experimento que toman dichos valores. Los diferentes
valores de una variable aleatoria y las probabilidades asociadas constituyen la distribución de
probabilidad de la variable.
Pastor-Barriuso R. 21
Variables aleatorias y distribuciones de probabilidad
F(x)P(X
como la probabilidad de observar P(X
= un valor
∈A) = P( XPo=( igual
≤=x)menor Xx =) .xai )x,.
i
xi ∈ A
xi ≤ x
μ = E(X) = x P( X = x ) .
i ≥1
i i
Tabla
La esperanza es la media3.1 Función
de los valores xde masa de probabilidad y
i ponderados por su probabilidad y representa
función de distribución del número de supervivientes
a los de
así el valor promedio 6 meses de 4aleatoria.
la variable pacientesNotar
con cáncer sometidos
que la media a se puede
muestral
tratamiento.
calcular de forma similar, multiplicando cada
Número valor observado
Función de la variable por su
Función
de supervivientes de masa de distribución
frecuencia relativa. (x) P(X = x)una
La varianza poblacional de F(x) = aleatoria
variable P(X ≤ x) discreta X,
0 0,1296 0,1296
abreviada por σ o var(X), 1se define
2
como 0,3456
la esperanza del 0,4752
cuadrado de la desviación de
2 0,3456 0,8208
3 0,1536 0,9744
la variable respecto de su media,
4 0,0256 1,0000
0,4
σ 2 = var(X) = E(X - μ)2 = (x
i ≥1
i − μ ) 2 P( X = xi )
1
0,8
0,3 = x
i ≥1
2
i P( X = x i ) − μ 2 = E(X2) - μ2.
0,6
P(X = x) 0,2 F(x)
0,4
5
0,1
0,2
0 0
0 1 2 3 4 0 1 2 3 4
x x
(a) (b)
Figura 3.1 Función de masa de probabilidad (a) y función de distribución (b) del número de supervivientes
a los 6 meses de 4 pacientes con cáncer sometidos a tratamiento.
Figura 3.1
Pastor-Barriuso R. 23
así el valor promedio de la variable aleatoria. Notar que la media muestral se puede
Variables aleatorias y distribuciones de probabilidad
calcular de forma similar, multiplicando cada valor observado de la variable por su
distribución
igual a 1.a En
igual binomial toma
la práctica,
1. En valores
resulta
la práctica, en kcalcular
tedioso
resulta = 0,
tedioso lasnlas
1, ...,
calcular con probabilidad
probabilidades de de
probabilidades una distribución
24 Pastor-Barriuso R. 6 una distribución
binomial mediante
binomial la fórmula
mediante anterior.
la fórmula PorPor
anterior. ello, en en
ello, la Tabla 1 del
la Tabla Apéndice
1 del se facilitan
Apéndice se facilitan
6
características sometidos a una misma terapia.
Distribuciones de probabilidad discretas
observar
fórmula la Por
anterior. supervivencia (o muerte)
ello, en la Tabla en pacientes
1 del Apéndice con un determinado
se facilitan las probabilidades cáncer binomiales
para n = 2, 3, ..., 20 y π = 0,05, 0,10, ..., 0,50.
sometidos al mismo tratamiento. Si por estudios previos se sabe que la
En general, la distribución binomial se aplica al estudio de observaciones repetidas e
independientes de una misma variable dicotómica (con sólo dos resultados posibles), tal como
supervivencia a los 6 meses en dichos pacientes es del 40%, el número de
el resultado de un tratamiento (éxito o fracaso) en pacientes de similares características
sometidos a una misma terapia.
supervivientes a los 6 meses en una muestra de 4 pacientes seguirá una
dado que el resultado en cada paciente es independiente y todos tienen una misma
Ejemplo 3.5 binomial
distribución En los ejemplos
X de parámetros anteriores, n = se 4 yha π considerado
= 0,4. el experimento de observar
probabilidad de supervivencia del 0,4. En general,
la supervivencia (o muerte) en pacientes con un determinado cáncer la probabilidad desometidos
que al mismo
tratamiento.
Utilizando Si
las por
leyes estudios
de la previos
probabilidad, se sabe que
si denotamos la supervivencia
por Si al sucesoa los 6 meses
dedeque en dichos
dado
sobrevivanque 2 el resultado
pacientes en cada
cualesquiera paciente
puede es independiente
descomponerse,
pacientes es del 40%, el número de supervivientes a los 6 meses en una muestra de 4 y
en todos
función tienen una
qué misma
pacientes seguirá
sobreviva el i-ésimo unapaciente,
distribución binomial X de de que
parámetros n = 4únicamente
y π = 0,4. los
probabilidad
pacientes sobrevivan, como la probabilidad
de supervivencia del 0,4. En general, sobrevivan
la probabilidad de que
Utilizando las leyes de la probabilidad, si denotamos por Si al suceso de que sobreviva el
dado
dos quepaciente,
el resultado
primeros
i-ésimo pacientes envendría
cada paciente
la probabilidad dada
de que pores independiente
sobrevivan únicamentey todoslos tienenprimeros
una misma
sobrevivan 2 pacientes cualesquiera cpuede c descomponerse, c enc dos
función de qué pacientes
vendría dada por P(X = 2) = P{(S1∩S2∩ S 3 ∩ S 4 )∪(S1∩ S 2 ∩S3∩ S 4 )
probabilidad de supervivencia del 0,4. En general, la probabilidad de que
pacientesP(Ssobrevivan,
1∩S2∩ S 3 ∩como
c
S 4c ) = P(S1)P(S2)P( S 3c )P( S 4c ) = 0,42(1 − 0,4)2,
sobrevivan 2 pacientes cualesquiera ∪(S1∩ S 2cpuede ∩ S 3c ∩descomponerse,
S4)∪( S1c ∩S2∩Sen 3∩ S 4 )
c
función de qué
dado que el resultado en cada paciente es independiente c c
y todosctienen unac misma probabilidad
P ( X = 2) = P {( S ∩
de supervivencia del 0,4. En general, la 3probabilidad
1 S 2 ∩ S ∩ S 4 )∪( S1∩de S2 ∩ que S3∩sobrevivan
S4 ) 2 pacientes
pacientes sobrevivan, como∪( S1c ∩S2∩ S 3c ∩S4)∪( S1c ∩ S 2c ∩S3∩S4)}.
cualesquiera puede descomponerse, en función de qué pacientes sobrevivan, como
∪(S1∩ S 2c ∩ S 3c ∩S4)∪( S1c ∩S2∩S3∩ S 4c )
posibles 7
c
Esta probabilidadP(Xestá = P{(S1∩Spor
= 2)constituida 2∩ Sla 3∩ S 4c )∪(
unión deStantos
1∩ S 2 ∩
c
S3∩ S 4c como
sucesos )
cc c c c
∪(S∪( 1∩ S12 ∩SS23∩∩SS34∩ S4)∪(
S1c ∩SS12∩ SS32∩∩SS4c3∩ ) S4)}.
c
)∪(
4 4! 24
combinaciones de 4 pacientes ∪( Stomados
c
∩ S ∩ S dec 2 en 2; es
∩ S )∪( S c decir,
∩ S c
∩ S ∩ S= )}. =
2 4 2 2! (4 − 2)! 4
3 4
Esta probabilidad está constituida por la unión de tantos sucesos
1 3 1 2
como posibles
Esta probabilidad está constituida por la unión de tantos sucesos como posibles
= 6 sucesos. Además, estos sucesos son mutuamente excluyentes y todos ellos
4 4! 24
combinaciones
combinaciones de 4depacientes
4 pacientes tomados
tomados dede2 2enen 2;es
2; decir, =
es decir, = =6
Esta
tienenprobabilidad
una misma está constituida
probabilidad de por
ocurrir la uniónde 0,4 de(1tantos
2
- 0,4)sucesos
2
2como
. En consecuencia, (4 − 2)!
2!posibles la 4
sucesos. Además, estos sucesos son mutuamente excluyentes y todos ellos tienen una
= 6 probabilidad
misma sucesos.
probabilidad Además,
de que estosde
sobrevivan
de ocurrir sucesos
2 0,4 2 son mutuamente
pacientes
(1 – 0,4) cualesquiera
2
. En consecuencia,es 4 la probabilidad
excluyentes 4y! todos ellos
24 de que
combinaciones de 4 pacientes tomados de 2 en 2; es decir, = =
sobrevivan 2 pacientes cualesquiera es 2 2! (4 − 2)! 4
tienen una misma probabilidad de ocurrir de 0,42(1 - 0,4)2. En consecuencia, la
4 2
= 6 sucesos. Además, P 2) = son
(X =sucesos
estos (1 − 0,4) 2 =excluyentes
0,4mutuamente 0,3456, y todos ellos
probabilidad de que sobrevivan 22 pacientes cualesquiera es
tienen una mismaa probabilidad
que corresponde la probabilidad dedeocurrir de 0,42(1 binomial
la distribución - 0,4)2. En deconsecuencia,
parámetros n =la4 y π = 0,4
que corresponde a la probabilidad de la
4
para k = 2. Aplicando esta fórmula, las probabilidades distribución
2 binomial de parámetros n = 4
2para k = 0, 1, 2, 3 ó 4 supervivientes
probabilidad P ( X = 2) = 0,4 (1 − 0, 4 ) = 0,3456,
aparecen en de la que
Tablasobrevivan
3.1 y en 2lapacientes 2 3.1(a).
Figura
cualesquiera es
Estas probabilidades también pueden
y π = 0,4 para k = 2. Aplicando esta
obtenerse directamente de la Tabla 1 del Apéndice.fórmula, las probabilidades para k = 0, 1, 2, 3
4 2
ó 4 que corresponde
supervivientes aPla
(
aparecenX probabilidad
=
A partir de las fórmulas generales para 2)
en =laTabla
0,4
ladeesperanza
3.1(la
1 −distribución
y0en,4)la2yFigura binomial
=la0,3456, 3.1(a).
varianza de
deEstas
unaparámetros n=4
variable aleatoria
2
discreta, puede probarse que la esperanza de una distribución binomial de parámetros n y π es
y π = 0,4 para k = 2. Aplicando
probabilidades también pueden obtenerse esta fórmula,directamentelas probabilidades
de la Tabla 1para del k = 0, 1, 2, 3
que correspondeEa(Xla) =
n
probabilidad de la
n
n k binomial
distribución n=4
Apéndice.
ó 4 supervivientes aparecen en la Tabla 3.1
kP ( X = k ) = k πy en(1la ) n − k =de
− πFigura nπparámetros
3.1( a). Estas
k =0 k =0 k
y π = 0,4 para k = 2. Aplicando esta fórmula, las probabilidades para k = 0, 1, 2, 3
probabilidades también pueden obtenerse directamente de la Tabla 1 del
yAsupartir de lasesfórmulas generales para la esperanza y la varianza de una variable
varianza
ó 4 supervivientes aparecen en la Tabla 3.1 y en la Figura 3.1(a). Estas
Apéndice. Pastor-Barriuso R. 25
aleatoria discreta, puede probarse que la esperanza de una distribución binomial de
probabilidades también pueden n obtenerse directamente de la Tabla 1 del
var(X) = (k − nπ ) 2 P( X = k )
A partir
parámetros n y de
π eslas fórmulask =generales
0 para la esperanza y la varianza de una variable
Apéndice.
k
k =0
n n
n
E(X) = kP( X = k ) = k k π k
(1 − π ) n − k = nπ
Variables aleatorias y distribuciones de probabilidad
k =0 k =0
Así, el número esperado de éxitos es igual al nú
Pastor-Barriuso R. 27
Variables aleatorias y distribuciones de probabilidad
0,25 0,25
0,2 0,2
0,15 0,15
P(X = k)
0,1 0,1
0,05 0,05
0 0
0 5 10 15 20 0 5 10 15 20
k k
(a) (b)
Figura 3.2 Distribución de probabilidad del número de muertes por cáncer de vesícula en un periodo de 1
año (a) y de 2 años (b) en una población de 140.000 hombres.
Figura 3.2
28 Pastor-Barriuso R.
Este resultado es particularmente útil en la práctica, ya que el cálculo de las
3.2.3 Aproximación
virtualmente idénticos. de Poisson a la distribución binomial
Bajo determinadas circunstancias, la distribución de Poisson puede utilizarse como aproximación
a la distribución
Ejemplo 3.8 binomial. Supongamos
Retomemos que,anterior
del ejemplo en una distribución binomial,Xel número de pruebas
la variable aleatoria
n es grande y la probabilidad individual de éxito π es pequeña. En tal caso, el número de éxitos
de la distribución binomial
correspondiente puedede
al número sermuertes
muy grande y su varianza
por cáncer seráen
de vesícula aproximadamente
un periodo de 2 igual al
valor esperado, nπ(1 – π) ≈ nπ. Como se vio en el apartado anterior, estas dos características son
propias de en
años unauna
distribución
población de
de Poisson, lo que sugiere
140.000 hombres. la validez del
El experimento siguienteconsistiría
subyacente resultado: si el
número de pruebas n es grande y la probabilidad de éxito π es pequeña, la distribución binomial
se aproxima a unapara
en observar, distribución de los
cada uno de Poisson hombres, μla =ocurrencia
con parámetro
n = 140.000 nπ. Por regla general,
o no de una esta
aproximación se considera suficientemente precisa cuando n ≥ 100 y π ≤ 0,01.
muerte
Este por cáncer
resultado de vesícula durante
es particularmente unpráctica,
útil en la periodo ya
de que
2 años. El resultado
el cálculo de las en cada
probabilidades
binomiales para n grande y π pequeña es muy laborioso, en cuyo caso las probabilidades de
sujeto
Poisson son es
másindependiente y la probabilidad
fáciles de manejar de que un virtualmente
y facilitan resultados individuo promedio de esta
idénticos.
Utilizando la aproximación de Poisson a la distribución binomial, el número de
Ejemplo 3.8
población mueraRetomemos
por cáncerdel ejemplo en
de vesícula anterior π = IA2 aleatoria
2 añoslaesvariable X correspondiente
= 0,000036. Por
al número de muertes por cáncer de vesícula en un periodo de 2 años en una población
muertes por cáncer de vesícula en un periodo de 2 años seguirá aproximadamente
de 140.000
tanto, hombres.
el número El experimento
de muertes por cáncersubyacente
de vesículaconsistiría en observar,
en esta población para cada
a lo largo de uno
de los n = 140.000 hombres, la ocurrencia o no de una muerte por cáncer de vesícula
una distribución dede
Poisson conElparámetro μ =ennπcada
= 140.000⋅0,000036 = 5,04. Eny la
2durante un periodo
años seguirá 2 años.
una distribución binomialresultado
con parámetros nsujeto es independiente
= 140.000 yπ=
probabilidad de que un individuo promedio de esta población muera por cáncer de
consecuencia, la es
probabilidad de observarPor
π = IAla2 =probabilidad
0,000036. 2 muertes
tanto, elpuede
númeroaproximarse
de muertes por
vesícula
0,000036. enAsí,
2 años
por ejemplo, de que ocurran exactamente 2 por cáncer
de vesícula en esta población a lo largo de 2 años seguirá una distribución binomial con
muertes es n = 140.000 y π = 0,000036.
parámetros e −Así,
5 , 04 por2 ejemplo, la probabilidad de que ocurran
5,04
exactamente 2 muertes es P( X = 2) ≈ = 0,082222,
Utilizando la aproximación de Poisson a la2!distribución binomial, el número de
140.000 2 139.998
muertes por Pcáncer
(X = 2)de
= vesícula 0,un
en 000036
periodo 0,999964
de 2 añosbinomial= 0,082220.
seguirá aproximadamente
que coincide casi perfectamente
2 con la probabilidad exacta.
Utilizando la aproximación
una distribución de Poisson de
conPoisson
parámetro a la μdistribución binomial, el número
= nπ = 140.000⋅0,000036 = 5,04.deEn
muertes
por cáncer de vesícula en un periodo de 2 años seguirá aproximadamente una distribución
3.3de Poisson conla parámetro
DISTRIBUCIONES
consecuencia, μ de
= nπ
DE PROBABILIDAD
probabilidad = 140.000∙0,000036
observar puede=aproximarse
CONTINUAS
2 muertes 5,04. En consecuencia,
por la
probabilidad de observar 2 muertes puede aproximarse por
13
Las variables aleatorias continuas son aquellas
e −5 , 04
5,04que
2 pueden tomar cualquier valor dentro
P(X = 2) ≈ = 0,082222,
2!
de un intervalo. La probabilidad de que estas variables tomen exactamente un valor
que coincide casi perfectamente con la probabilidad binomial exacta.
que coincide
determinado es 0casi perfectamente
y, en consecuencia,con la probabilidad
carece binomial
de sentido definir unaexacta.
función de masa de
3.3 probabilidad.
DISTRIBUCIONES DE PROBABILIDAD
Para las variables CONTINUAS
aleatorias continuas, las probabilidades se asignan a
Las variables aleatorias continuas son aquellas que pueden tomar cualquier valor dentro de un
3.3intervalos
DISTRIBUCIONES DE PROBABILIDAD
una función CONTINUAS
intervalo. de valores mediante
La probabilidad de que estas variablesdetomen
densidad de probabilidad
exactamente un valor ,determinado
denotada es 0
y, en consecuencia, carece de sentido definir una función de masa de probabilidad. Para las
Laspor f(x).aleatorias
variables
variables Esta función
aleatorias ha de ser
continuas
continuas, las no
son negativa
aquellaspara
probabilidades quesecualquier
pueden valor
asignantomar x, f(x) ≥de0,
cualquier
a intervalos y eldentro
valor área
valores mediante
una función de densidad de probabilidad, denotada por f(x). Esta función ha de ser no negativa
de total
parauncualquier
intervalo.
bajo lavalorLa probabilidad
curvax,definida y eldeesta
f(x) ≥ 0, por quefunción
área estasbajo
total variables tomen
deladensidad
curva exactamente
debe
definidaser
porigual un
1, valorde densidad
esta afunción
debe ser igual a 1,
determinado es 0 y, en consecuencia, carece ∞ de sentido definir una función de masa de
−∞ x) dx = 1.
f (
probabilidad. Para las variables aleatorias continuas, las probabilidades se asignan a
A partir
intervalos de la función
de valores de densidad,
mediante la probabilidad
una función de densidadde
deque una variable
probabilidad aleatoria
Pastor-Barriuso R.
, denotada 29
VariablesAaleatorias
partir de la función
y distribuciones de densidad,
de probabilidad la probabilidad de que una variable aleatoria
continua X tome valores dentro de cualquier intervalo (a, b) puede calcularse como el
A partir de la función de densidad, la probabilidad de que una variable aleatoria continua X
área
tome bajo ladentro
valores funciónde de densidad
cualquier entre los
intervalo (a,puntos
b) puedea ycalcularse
b, como el área bajo la función
de densidad entre los puntos a y b,
en regiones de baja probabilidad. La función debdistribución F(x) corresponde a la
P(a < X < b) = f ( x) dx .
a
probabilidad de que la variable tome un valor igual o inferior a x y, en el caso de una
Así, aun cuando la probabilidad de obtener un valor concreto es 0, la función de densidad
tomará valores
Así, aun
variable cuandoelevados
aleatoria en regiones
lacontinua,
probabilidad de de alta probabilidad
obtener
se calcula como un valorbajo
el área ydevalores
concretola es 0,pequeños
curva ladefunción en
deregiones
la función de de
baja probabilidad. La función de distribución F(x) corresponde a la probabilidad de que la
variable tome
densidad unizquierda
atomará
la valor igual
valores ox, inferior
deelevados x y, en el
enaregiones decaso de una variable
alta probabilidad aleatoria
y valores continua, se
pequeños
calcula como el área bajo de la curva de la función de densidad a la izquierda de x,
x 14
F(x) = P(X ≤ x) =
−∞
f (t ) dt .
La función de distribución de una variable aleatoria continua es una función que, partiendo de 0,
crece
La de formade
función continua hasta alcanzar
distribución el valoraleatoria
de una variable 1. continua es una función que,
partiendo
Ejemplo de 3.9
0, crece
La de formade
función continua
densidadhasta
paraalcanzar el valorHDL
el colesterol 1. en hombres adultos se
representa en la Figura 3.3(a). Notar que, aunque el área bajo la curva ha de ser igual a 1, la
función de densidad puede tomar valores superiores a 1. Los niveles de colesterol HDL
Ejemplo
próximos a 13.9 La función
mmol/l son losdequedensidad para elprobabilidad
tienen mayor colesterol HDL en hombres
de ocurrir, adultos
mientras que para
niveles inferiores y superiores esta probabilidad decrece. Así, por ejemplo, la probabilidad de
queseunrepresenta en la tenga
hombre adulto Figuraun3.3( a).de
nivel Notar que, aunque
colesterol el áreaa bajo
HDL inferior 0,90 la curva(niveles
mmol/l ha de ser
bajos
según las recomendaciones del “National Cholesterol Education Program”) corresponde al
áreaigual a 1, la función
sombreada de densidad
bajo la curva puedede
a la izquierda tomar
0,90 valores
mmol/l ysuperiores
es igual a aP(X
1. Los niveles
≤ 0,90) = 0,3274.
Al igual que para variables discretas, la esperanza o media poblacional de una
Esta probabilidad también puede obtenerse a partir de la función de distribución del colesterol
HDL,de colesterol HDL próximos
que se representa a 13.3(b).
en la Figura mmol/lEsta
sonfunción
los quepresenta
tienen mayor probabilidad
el aspecto de de
característico
variable aleatoria
las funciones decontinua representa
distribución el valorcontinuas
para variables promedioaproximadamente
de esa variable, ysimétricas.
se define
ocurrir, mientras que para niveles inferiores y superiores esta probabilidad
como
Al igual que para variables discretas, la esperanza o media poblacional de una variable
aleatoria decrece.
continuaAsí, por ejemplo,
representa el valorla promedio
probabilidad de que
de esa un hombre
variable, adultocomo
y se define tenga un nivel
∞
de colesterol HDL inferiorμa=0,90 = x(niveles
E(X)mmol/l f ( x) dxbajos
. según las
−∞
de distribución del colesterol HDL, que se representa en la Figura 3.3( b). Esta
0,5
∞
0,25
σ 2 = var(X) = E(X - μ)2 = ( xde
función presenta el aspecto característico
− μ ) 2 f ( x) dx
las funciones de distribución para
−∞
0 0
variables continuas aproximadamente ∞simétricas.
x f ( x) dx − 0μ =0,5E(X ) 1- μ . 1,5
2 2 2 2
0 0,5 1 1,5 2 =2,5 2 2,5
−∞
Colesterol HDL (mmol/l) Colesterol HDL (mmol/l)
30
para la media y la varianza poblacional de una variable continua son similares a las
Pastor-Barriuso R.
facilitadas para variables discretas, salvo que la suma sobre el número discreto de 15
−∞
∞
= x 2 f ( x) dx − μ 2 = E(X2) - μ2.
La varianza poblacional de una variable−∞aleatoria continua es la esperanza de las
σ, que representa
La raíz cuadrada de la varianza es la desviación típica poblacionalDistribuciones la continuas
de probabilidad
Ladesviaciones
raíz cuadradaalde cuadrado de los
la varianza es la valores de la variable
desviación respecto deσ,su
típica poblacional quemedia, y se calcula
representa la
dispersión de la variable aleatoria respecto de su media poblacional. Estas expresiones
Lacomo
varianza
dispersión de poblacional de una variable
la variable aleatoria respectoaleatoria
de su media continua es la esperanza
poblacional. de las desviaciones
Estas expresiones
para
al la media
cuadrado deylosla varianza
valores depoblacional
la variablede una variable
respecto de su media,continua son
y se similares
calcula como a las
para la media y la varianza poblacional de 2 una∞variable 2continua son similares a las
facilitadas para variables 2
σ = var( discretas,
X ) = E(Xsalvo − = la( suma
μ ) que x − μ )sobre f ( x)eldxnúmero discreto de
Existen muchos modelos teóricos de distribuciones −∞ continuas, cada una de ellas
facilitadas para variables discretas, salvo que la ∞ suma sobre el número2discreto de
valores con probabilidad no nula se reemplaza por
2 la integral 2sobre todos los posibles
−∞concreta para la función de densidad. A − 2
caracterizada por una fórmula o expresión = x f ( x ) dx − μ = E ( X ) μ .
valores con probabilidad no nula se reemplaza por la integral sobre todos los posibles
valores
La de la variable
raíz cuadrada continua.es la desviación típica poblacional σ, que representa la dispersión
de la varianza
continuación se revisa en detalle la distribución normal, que es la utilizada con mayor
de la variable aleatoria respecto de su media poblacional. Estas expresiones para la media y la
valores de la variable continua.
La raíz poblacional
varianza cuadrada de de la varianza
una variable es la desviación
continua son típicasimilares a las σ
poblacional , que representa
facilitadas la
para variables
frecuencia
Ejemplo en estadística. Otras distribuciones continuas, como la t de Student, chi-
discretas, salvo3.10
que Utilizando
la suma sobre la función
el número de densidad
discreto del ejemplo
de valores anterior,
con el valor
probabilidad no nula se
reemplaza
dispersión
Ejemplopor lalaintegral
de3.10 variable sobre
Utilizando latodos
aleatoria los posibles
respecto
función de suvalores
de densidad media del de la variable
poblacional.
ejemplo continua.
Estas
anterior, elexpresiones
valor
cuadrado
esperado o Fdeldecolesterol
Fisher, seHDLdiscutiránen unasegún vayande
población surgiendo
hombresaadultos
lo largosería
del texto.
paraesperado
la mediadel
Ejemplo y lacolesterol
3.10 varianza poblacional
Utilizando
HDL laen una de
función deuna variable
densidad
población continua
del
de hombres ejemplo son similares
anterior,
adultos a las esperado
sería el valor
3.3.1 Distribución normal
del colesterol HDL en una población de hombres adultos sería
∞
3.3.1 y la de
desviación
Distribución
técnicas típica
normal
inferencia estadística: incluso cuando la distribución poblacional de una
La distribución normal, también denominada distribución Gaussiana, es el modelo teórico de
variable diste mucho de ser normal, puede probarse1 / que,
2 bajo ciertas condiciones, la
σ = en ) dx mediciones
∞
distribución continua más utilizado ( x −la1práctica.
,10) f ( xMuchas
2 epidemiológicas y clínicas
= 0,30 mmol/l.
al0 modelo teórico normal
presentan distribuciones similares (presión arterial, colesterol sérico, índice
distribución de los valores medios de dicha variable seguirá un modelo
de masa corporal) o bien pueden transformarse para conseguir distribuciones aproximadamente
normales (típicamente mediante transformaciones logarítmicas de los datos originales). No obstante,
aproximadamente normal.
como se verá en los temas posteriores, la utilidad fundamental de la distribución normal surge dentro
16
de las técnicas de inferencia estadística: incluso cuando la distribución poblacional de una variable
Una variable aleatoria continua X sigue una distribución normal si su función de
diste mucho de ser normal, puede probarse que, bajo ciertas condiciones, la distribución de los
valores medios de dicha variable seguirá un modelo aproximadamente normal.
densidad es
Una variable aleatoria continua X sigue una distribución normal si su función de densidad es
1 (x − μ) 2
f (x) = exp − ,
2π σ 2σ 2
para cualquier valor x en la recta real, – ∞ < x < ∞. Esta función de densidad depende de los
parámetros μ y σ, donde
para cualquier valor x en la recta real, -∞ < x < ∞. Esta función de densidad depende de
yy μ representa la esperanza o media poblacional de la distribución y
ylos correspondeμaysu
y σ parámetros σ,desviación
donde típica poblacional.
17
Variables aleatorias y distribuciones de probabilidad
1
2π σ
abreviadamente
f(x) por N(μ, σ 2). Para cualquier μ y σ > 0, la función de densidad normal
es positiva y el área total bajo la curva es igual a 1. Esta función de densidad, que
• σ corresponde
de la media μ y tiene dos puntos de inflexión en μ + σ ya μsu- desviación típica
σ. Al tratarse poblacional.
de una
0
Lamediana
distribución simétrica, la media y la distribución normalElo valor
coinciden. Gaussiana con media μ y varianza σ 2 se denot
más frecuente
μ - 3σ μ - 2σ μ-σ μ μ+σ μ + 2σ μ + 3σ
2
abreviadamente
1/( 2π σ) se alcanza en la media μ y su dispersiónpor N(μ, σ del
alrededor ). Para
valorcualquier μ y σ > 0, la función de de
medio aumenta
x
Figura 3.4
al aumentar
Figura la desviación
3.4 Función de densidadtípica .es positiva
de unaσdistribución
Así, yprobarse
el área total
puedenormal que bajo
con media
la curva
elμ68,27% deles
y desviación
igual
área
típica
a 1. Esta función de dens
bajo
σ. una
aparece representada
función de densidad normal está comprendido entre μ ± enσ, la
el Figura
95,45%3.4, tiene
entre μ ±forma de campana, es simét
2σ y el
La distribución normal o Gaussiana con media μ y varianza σ se denota abreviadamente
2
N(μ, σ 2entre
por99,73% ). Para
μ ±cualquier
3σ. μ y σ > de
0, la
la media μ ydetiene
función dos puntos
densidad normal de es
inflexión
positivaenyμel+ área
σ y μ - σ. Al tratars
total bajo la curva es igual a 1. Esta función de densidad, que aparece representada en la
Figura 3.4, tiene forma de campana, distribución
es simétricasimétrica,
alrededorlademedia y la μmediana
la media y tiene coinciden.
dos puntosEl valor más fre
de inflexión en μ + σ y μ – σ. Al[Figura
tratarse3.4
deaproximadamente
una distribución simétrica,
aquí] la media y la mediana
coinciden. El valor más frecuente 1/( 2π σ) se se alcanza
alcanzaenenla lamedia μ y μsuydispersión
media alrededor del valor
su dispersión
alrededor del valor medio aumenta al aumentar la desviación típica σ. Así, puede probarse
que elLa distribución
68,27% normal
del área con función
bajo una media 0 de
y desviación
densidad
al aumentar típica 1 está
normal
la desviación típica σ. Así, distribución
se denomina
comprendido puedeentre μ ± σ,que el 68,27% d
probarse
el 95,45% entre μ ± 2σ y el 99,73% entre μ ± 3σ.
normal estandarizada, y suele denotarse por Z o N(0, normal
1). La función de densidadentre
de μ ± σ, el 95,45% en
La distribución normal con media 0función de densidad
y desviación está comprendido
típica 1 se denomina distribución normal
estandarizada, y suele
una distribución denotarse
normal por Z o se
estandarizada N(0, 1). La función de densidad de una distribución
normal estandarizada se reduce a 99,73%reduce
entre μa ± 3σ.
1 1
f (z) = exp − z 2 , [Figura 3.4 aproximadamente aquí]
2π 2
para cualquier – ∞ < z < ∞, que se representa en la Figura 3.5(a). Como puede observarse,
se trata de una función
para cualquier -∞ < z <simétrica La distribución
∞, que sealrededor
representa normal
deen0.la Para 3.5(con
obtener
Figura media
a).las
Como 0 y desviación
probabilidades
puede típica
bajo la 1 se denomin
función de densidad normal estandarizada, no se recurre al cálculo integral, ya que estas
probabilidades
observarse, seestán
tratatabuladas y son normal
de una función estandarizada
fácilmente
simétrica de ,0.
accesibles.
alrededor y Para
En suele denotarse
general,
obtenerestas por Z facilitan
lastablas o N(0, 1). La función de
la función de distribución; es decir, la probabilidad de que la variable normal estandarizada
tome un valor igual
probabilidades bajoolainferior una
La distribución
función adez.densidad
función
normal de normal estandarizada
distribución
estandarizada, normal se reduce
al a
estandarizada
no se recurre se
denota por F(z) = P(Z ≤ z), y se ilustra en la Figura 3.5(b). En la Tabla 3 del Apéndice se
facilita la función
cálculo integral,de
yadistribución F(z) para valores
que estas probabilidades de z no negativos.
están tabuladas y son fácilmente 1 1
f ( z) = exp − z 2 ,
accesibles. En general, estas tablas facilitan la función de distribución; es decir, 2π la 2
f(z) Φ(z)
1
0,5
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
z z
(a) (b)
Figura 3.5 Función de densidad (a) y función de distribución (b) de una variable aleatoria normal
estandarizada.
Figura 3.5
resultado
El cálculosobre la estandarización
de probabilidades de una distribución
para cualquier normal:
distribución normal si con
una variable
media μ aleatoria
y varianza σ 2
no requiere de tablas específicas, sino que puede realizarse a partir de las tablas de la distribución
X sigue
normal una distribución
estandarizada. normal
Para ello, uso delμ siguiente
con media
se hace σ 2, X ~ sobre
y varianzaresultado N(μ, σla2),estandarización
entonces la de
una distribución normal: si una variable aleatoria X sigue una distribución normal con media μ
y varianza 2
, X ~ N(μ,
variable σaleatoria Z =σ(2X),-entonces la una
μ)/σ sigue variable Z = (Xestandarizada,
aleatorianormal
distribución – μ)/σ sigue una distribución
normal estandarizada,
X −μ
Z= ~ N(0, 1),
σ
1, al restar a los valores de una variable su media y dividirlos por su desviación típica,
procedimiento de estandarización de variables normales permite utilizar las tablas
correspondientes a la distribución
Variables aleatorias y distribuciones normal estandarizada.
de probabilidad
dondeEjemplo 3.12
el símbolo Supongamos
~ significa “estarque el colesterol
distribuido HDL
como”. en una
Como población
ya se comentó de
en hombres
el Tema 1, al restar
a los valores de una variable su media y dividirlos por su desviación típica, la variable resultante
tiene adultos
media sigue una distribución
0 y desviación típica normal X con media
1. El resultado μ = 1,10
anterior mmol/l
garantiza y desviación
además que la variable
estandarizada conserva la distribución normal. Este procedimiento de estandarización de variables
normales σ = 0,30
típicapermite mmol/l.
utilizar Utilizando
las tablas la estandarización
correspondientes de variables
a la distribución normales,
normal el
estandarizada.
Ejemplo 3.12
porcentaje Supongamos
de hombres de estaque el colesterol
población HDLniveles
que tienen en una de
población de HDL
colesterol hombres adultos
sigue una distribución normal X con media μ = 1,10 mmol/l y desviación típica σ = 0,30
mmol/l.
entre 0,90Utilizando la estandarización
y 1,20 mmol/l corresponde ade variables normales, el porcentaje de hombres de
esta población que tienen niveles de colesterol HDL entre 0,90 y 1,20 mmol/l corresponde a
0,90 − 1,10 X − 1,10 1,20 − 1,10
P(0,90 ≤ X ≤ 1,20) = P ≤ ≤
0,30 0,30 0,30
= P (− 0,67 ≤ Z ≤ 0,33) = P(Z ≤ 0,33) − P(Z ≤ − 0,67).
Utilizando la Tabla 3 del Apéndice, se obtiene que P(Z ≤ 0,33) = F(0,33) = 0,6293 y P(Z
20
≤ – 0,67) = F(– 0,67) = 1 – F(0,67) = 1 – 0,7486 = 0,2514. Así, resulta que P(0,90 ≤ X ≤
1,20) = 0,6293 – 0,2514 = 0,3779; es decir, el 37,79% de los hombres de esta población
tienen niveles de colesterol HDL entre 0,90 y 1,20 mmol/l.
Para obtener el percentil 90 de la distribución del colesterol HDL en esta población, se
calcula primero el percentil 90 en la distribución normal estandarizada, que corresponde
a z0,90 = 1,28, ya que F(1,28) ≈ 0,90. Para pasar este percentil estandarizado al
correspondiente percentil del colesterol HDL basta resolver z0,90 = (x0,90 – μ)/σ. Por tanto,
el percentil 90 del colesterol HDL es x0,90 = μ + z0,90σ = 1,10 + 1,28∙0,30 = 1,484 mmol/l.
34 Pastor-Barriuso R.
extrema, de forma que nπ(1 - π) ≥ 5, la distribución binomial con parámetros n y π se
Distribuciones de probabilidad continuas
aproxima a una distribución normal con media nπ y varianza nπ(1 - π).
Este
P(X =resultado
k) 0,2 es un caso particular del llamado teorema
0,2 central del límite, que se
0,1 0,1
presentará más adelante (véase Tema 4), y se utiliza para aproximar las probabilidades
0 0
binomiales mediante la distribución normal. Así, para una variable binomial X con
0 5 10 15 20 0 5 10 15 20
utilizar la aproximación
0,1 normal, los límites del intervalo
0,1 se amplían en 1/2 para incluir
0 0
las probabilidades de obtener exactamente k1 o k2 éxitos. Este ajuste se conoce como
0 5 10 15 20 0 5 10 15 20
corrección por continuidad y se deriva
k del hecho de aproximar una distribución
k
(c) (d)
binomial discreta mediante una distribución normal continua.
Figura 3.6 Distribuciones binomiales con parámetros π = 0,10 y n = 10 (a), 25 (b), 50 (c) y 100 (d). En el panel d,
se representa además la función de densidad de una distribución normal con media nπ = 100∙0,10 = 10
Ejemplo
y varianza nπ(1 –3.13
π) = La probabilidad
100∙0,10∙0,90 = 9. de obtener entre 12 y 14 éxitos sobre un total de
100 pruebas con una probabilidad individual de éxito del 0,10 se obtiene a partir
Ejemplo 3.13 La probabilidad de obtener entre 12 y 14 éxitos sobre un total de 100
pruebas
de con una binomial
la distribución probabilidad
X conindividual
parámetrosden éxito
= 100 del
y π 0,10
= 0,10secomo
obtiene a partir de la
distribución binomial X con parámetros n = 100 y π = 0,10 como
14
100
P(12 ≤ X ≤ 14) =
k =12 k
0,10 k (1 − 0,10)100 − k
P(k1 ≤ XAproximación
3.3.3 ≤ k2) puede aproximarse mediante
normal a la el áreadebajo
distribución la curva de la distribución
Poisson
La distribución normal también puede emplearse como aproximación a la distribución de Poisson
normal N(μ, μ) entre k1 - 1/2 y k2 + 1/2.
cuando el número esperado de casos μ es moderadamente grande. En la Figura 3.7 se representan las
distribuciones de Poisson con parámetros μ = 1, 2,5, 5 y 10, donde puede apreciarse que, al aumentar
el número esperado de casos, las probabilidades
[Figura de Poisson tienden
3.7 aproximadamente aquí]a distribuirse de forma normal. En
términos generales, una distribución de Poisson con parámetro μ se aproxima a una distribución
normal con media y varianza iguales a μ, cuando el número esperado de casos es moderadamente
elevado, típicamente μ ≥ 10. Así, para una variable aleatoria X que siga a una distribución de Poisson
Ejemploμ3.14
con parámetro moderadamente
Si el númerogrande, la probabilidad
de casos P(k1 ≤ X a≤ lo
de una enfermedad k2)largo
puededeaproximarse
un año en mediante
el área bajo la curva de la distribución normal N(μ, μ) entre k1 – 1/2 y k2 + 1/2.
una determinada población sigue una distribución de Poisson X de parámetro μ =
Ejemplo 3.14 Si el número de casos de una enfermedad a lo largo de un año en una
determinada
10, población
la probabilidad sigue
de tener 15 una
o másdistribución
casos en undemismo añoXesde
Poisson parámetro μ = 10, la
exactamente
probabilidad de tener 15 o más casos en un mismo año es exactamente
e −10 10 k
P(X ≥ 15) = = 0,0835,
k ≥15 k!
que puede aproximarse mediante la distribución normal Y ~ N(10, 10) como
que puede aproximarse mediante la distribución normal Y ~ N(10, 10) como 23
Y − 10 14,5 − 10
P(X ≥ 15) ≈ P(Y > 14,5) = P >
10 10
= P(Z > 1,42) = 1 − Φ(1,42) = 1 − 0,9222 = 0,0778.
Esta aproximación corresponde al área sombreada bajo la curva normal en la Figura 3.7(d).
Esta aproximación corresponde al área sombreada bajo la curva normal en la
0,4 0,4
Figura 3.7(d).
0,3 0,3
3.4 COMBINACIÓN
0,1 LINEAL DE VARIABLES ALEATORIAS
0,1
0 0
En este apartado se introducen algunas propiedades de la combinación lineal de
0 5 10 15 20 0 5 10 15 20
(a)
variables aleatorias (discretas o continuas) (b) e
que serán útiles para la estimación
0,4 0,4
inferencia estadística.
0,3
En particular, se pretende derivar
0,3
el valor esperado y la varianza
de laP(X
combinación
= k) 0,2 lineal c1X1 + ... + ckXk, donde c1, ...,
0,2ck son constantes arbitrarias y X1,
0,1 0,1
..., Xk son variables aleatorias con esperanzas μ1, ..., μk y varianzas σ 12 , ..., σ k2 . Como el
0 0
valor esperado de la
0 suma 5de variables
10 aleatorias
15 20es igual a0la suma
5 de sus10respectivas
15 20
k k
esperanzas, se tiene que
(c) (d)
Figura 3.7 Distribucionesk de Poisson con parámetros kμ = 1 (a), 2,5 (b), 5 (c) y 10 (d). En el panel d, se re-
de densidad
presenta además la función k de una distribución k
normal con media y varianza iguales a μ = 10.
E c i X i = E (c i X i ) = c i E ( X i ) = c i μ i ,
i =1 i =1 i =1 i =1
36 Pastor-Barriuso R.
i =1 1≤ i < j ≤ k
variable,
dondela covarianza
mientras
σxésta que si
y σdepende será negativa.
valores
las altos No
de obstante,
una deresulta
variable Xdese complicado
relacionan
Y. condeterminar
valores el de lacarece
bajos otra
que y son lasde desviaciones
unidades típicas
de medida elas El coeficiente
variables. Una de correlación
medida alternativa del de
unidades
donde σxyytoma valores
σlay son entre – 1 y 1;típicas
las desviaciones de tal de
forma Yque
Xlaemagnitud
. El ρxy = 1, las de
sicoeficiente variables presentan
correlación una
carece
gradorelación
de relación
grado delineal
variable,
lineal entre
covarianza
asociación
positiva dosserá
variables
lineal
perfecta,entre ρxya=variables
negativa.
y si dos partir
Nolas
– 1, devariables
obstante,
aleatorias X ede
resulta la covarianza,
complicado
Y es
presentan el
una ya
determinar
coeficiente
relación lineal el
de negativa
perfecta. Cuando ρxy = 0, se dice que las variables están incorrelacionadas. Notar que si dos
de depende
que ésta unidades
grado dede
correlación
variables son yindependientes,
toma
las
relación valores
unidades
lineal de
poblacional ρentre
entre
en
xy el-1sentido
medida
dos
, que yde
1;las
dede
variables
se define tal forma
variables.
aque
como partir
el deque
Una si ρxy = alternativa
la medida
magnitud
conocimiento 1,del
lasla
de variables
valor del
covarianza,
que toma yauna
grado presentan
de asociación
que éstaunalineal entre
relación
depende dos
lineal
de las variables
positiva
unidades medida deyXlas
aleatorias
de perfecta, sie ρYvariables.
es=el-1,coeficiente
lasUna de presentan
variables
medida alternativa una
delR.
cov( X , Y ) xy Pastor-Barriuso 37
ρxy = ,
correlación poblacional
grado ρxy, que
de asociación lineal
se entre
definedos σ x σaleatorias
variables
como y X e Y es el coeficiente de 25
xy
implica necesariamente
correlación se discutiránindependencia, ya en
en mayor detalle queellas variables
Tema 10. podrían presentar una
Variables aleatorias y distribuciones de probabilidad
dependencia node
La varianza lineal
una aun cuando ρxy
combinación = 0. de
lineal Este y otros aspectos
variables aleatoriassobre
quedaelentonces
coeficiente de
correlación
variable sepor
discutirán
no aporta
determinada ningunaeninformación
mayor detalle sobreen elelTema
valor10. de la otra variable, entonces están
incorrelacionadas; pero que la incorrelación no implica necesariamente independencia, ya que
La varianza
las variables de una
podrían combinación
presentar lineal de variables
una dependencia no lineal aleatorias quedaρ entonces
aun cuando xy = 0. Este y otros
k
k
var de
aspectos sobre el coeficiente ci X i = c i σ i + 2 c i c j cov( X i , X j )
correlación 2 se discutirán en mayor detalle en el Tema 10.
2
determinada por i =1 i =1 1≤ i < j ≤ k
La varianza de una combinación
E(X1 - X2) lineal = μ1k - de
μ2 variables
= 130 - 80 aleatorias
= 50 mm queda
Hg entonces determinada por
= k ci σ i + 2 ci c j σ i σ j ρ ij ,
2 2
k
var
E(X
y, teniendo en cuenta
la -c iXX2)i ==μ
1 correlación
i =1
i =1 2 2
1 - entre
i =1
+ 21-≤
cμi2σ=i 130
ambas
i< j≤k
c=i c50
80variables,
1≤ i < j ≤ k
mmXlaHg
j cov( X j)
i ,varianza de la
k
donde ρij es
presión delelen
coeficiente
pulso vendríadedada
correlación
por + 2Xi
c i2σentre
= entre 2 y Xcj.cEn el caso de que las variables
y, teniendo cuenta la correlación i ambas variables, ij , varianza de la
i j σi σ j ρla
i =1 1≤ i < j ≤ k
sean mutuamente
presión del pulso independientes
vendría dada2por(bastaría la condición menos restrictiva de que
1 - X2) = σ 1 + σ 2 - 2σ1σ2ρ12
2
var( X
donde ρij es el coeficiente de correlación entre Xi y Xj. En el caso de que las variables sean
donde ρij esincorrelacionadas),
estuvieran
mutuamente el coeficiente de(bastaría
independientes correlación
la varianza de laXcombinación
entre
la condición i y Xj. En el caso
linealdeesque de
menos restrictiva las que
variables
estuvieran
22 22 2
incorrelacionadas),var( σla1 combinación
X1 - X2) =de20
la varianza σ 2 - 2⋅σ20
+ 10 1σ⋅10ρ⋅120,60es= 260 (mm Hg) ,
2lineal
sean mutuamente independientes (bastaría la condición menos restrictiva de que
2 k 2 2
k
desviación típica= 20
para una incorrelacionadas),
estuvieran
var
260
la
+=
10
varianza
i =1
2
c
16,1
X
-i 2⋅mm=
i20
de
⋅10
la
Hg.
ci σ =
⋅0,60
combinación
i =1
i .260 (mm Hg) ,
lineal es
2
Ejemplo
para 3.15 Supongamos
una desviación típica 260 que=kla 16,1 media
mm yk la desviación típica de la presión arterial
Lossistólica
resultados anteriores son válidos para Hg.
cualquier
X1 en una determinada var ci X i son
población = μ1 =cvariable
130 mm aleatoria.
i σi .
2 2
Hg y σ1 = 20 Nomm obstante,
Hg, y la media
Ejemplo 3.15 Supongamos que la media y la desviación típica de la presión
y la desviación típica E(X1 - X2) = μ1 - μ2 = 130 - 80 = 502 mm Hg
de la presión i =arterial
1 diastólica
i =1 X son μ 2 = 80 mm Hg y σ2 = 10 mm
si las variables
Los Hg. X ,
Supongamos..., X siguen
kademás una
que distribución
elμcoeficiente normal, puede
de- correlación probarse
entre que la
resultados Hg la presión arterial sistólica
1 anteriores son válidos para cualquier
arterial sistólica EX(X -X
1 1en una 1 - μ2 = 130
2) =determinada 80variable
población = 50sonmmμ aleatoria. No obstante,
1 = 130 mm Hg y σ1 = 20
y diastólica de los sujetos de esta población es ρ12 = 0,60. El valor esperado de la presión del
y, teniendo
combinación linealenc1cuenta
X + ...lala+diferencia
correlación
cuna
kXk también
entre ambas
seguirá unavariables,
distribuciónla varianza
normal de lala
con
si pulso,
las variablesdefinida
EjemploX1, ...,
3.15 como
X1kSupongamos
siguen queentre
distribución la presión
la media normal, arterial
puede sistólica
y la desviación típica yde
probarse diastólica,
quelalapresiónsería
mm Hg,en
y, teniendo y la media
cuenta la ycorrelación
la desviación entretípica
ambasde la presión arterial
variables, la varianza de la X2 son μ2
diastólica
presión del pulso E (
vendríaX 1 − dada
X μ 1 − μ 2 = 130 − 80 = 50 mm Hg
2 ) =por
media y varianza
combinación linealdescritas
c1X1 + X... anteriormente.
+ ckXk también Este resultado
seguirá se utilizará en
una distribución los temas
normal de
arterial sistólica 1 en una determinada población son μ1 = 130 mmcon Hg la
y σ1 = 20
= 80del
presión
y, teniendomm Hgcuenta
pulso
en σ2 =la10dada
yvendría mmpor Hg. Supongamos
correlación entre ambasademás quelaelvarianza
variables, coeficiente de de
la presión del
inferencia.
y, teniendo
media ypulso
varianza en
vendría cuenta
dada
var(
descritas X por
- laX correlación
) =
anteriormente. σ 2
+ σ entre
2
Este- 2 ambas
σ σ ρ
resultado variables,
se la
utilizará varianza
en los de
temas lade
mm Hg, y la media 1 y2 la desviación
1 2 típica 1 de
2 12 la presión arterial diastólica X2 son μ2
correlación entre la presión2 arterial 2 sistólica y diastólica de los sujetos de esta
presión del pulsovar(Xvendría
1 − X2) = σ 1 + σ 2 − 2σ 1 σ 2 ρ 12
dada 2por 2
inferencia. 2⋅20⋅10⋅adultas Hg)2, sigue
= σ 2 = 10== 20 Hg.+ 10 2 - mujeres 0,60 = 260 (mm
población es ρ12 = 0,60.mm
Ejemplo 80 mm
3.16 Hg
El y
colesterol HDL
20 10Supongamos
+ en
El2valor las− 2⋅20⋅10de
esperado además
⋅0,60 deque
= 260
la presión delelpoblación
una
(mm coeficiente
Hg)2, definida
pulso, de como
correlaciónvar( σ 12 arterial
X1 -laX2presión
) = + σ 22 -μsistólica
21 σ σ2ρ12ymmol/l
una Elentre
distribución normal la Xpresión
con media = ydiastólica desería
los sujetos deσ1esta
11,25 y desviación típica =
para
Ejemplo
la una desviación
3.16
diferencia entretípica
colesterol 1 HDL en== las
260arterial16,1
16,1 mm
mujeres Hg.
sistólica
mm adultas de una
diastólica, población sigue
para una desviación
población lostípica
ρ12 =hombres
yesennormal 0,60. 260
El 2 = 16,1
valor 2
2mm
esperado Hg.
de la variable
presión del Hg)2distribución
pulso, definida 26
0,35
una
Los mmol/l,
distribución
resultados anteriores X1=con
son 20 + 10para
adultos
media
válidos -μde
1=
⋅20 ⋅10
dicha
1,25
cualquier⋅0,60
mmol/l= 260
población (mm
sigue
y desviaciónuna
aleatoria. ,típica σ1 =comosi las
No obstante,
Los resultados
variables X1, ..., Xanteriores son válidos para cualquier variable aleatoria. No obstante,
k siguen una distribución normal, puede probarse que la combinación lineal
normal
X1 0,35
c1Los + la diferencia
X
+ ckX
... mmol/l, con
también entre
media μ la =presión
seguirá 1,10 una arterial
mmol/l ysistólica
distribucióndesviación y diastólica,
normal típica sería
σla2 =media
conaleatoria.0,30 mmol/l.
y varianza Así,
resultados
para una 2 y en lostípica
k anteriores
desviación hombres
2
son válidos adultos
260 =para
16,1 de dicha
cualquier
mm Hg. población
variable sigue una No obstante, descritas
distribución
si las variables Este
anteriormente. X1, ...,resultado
Xk siguen seuna distribución
utilizará en los temasnormal, de puede probarse que la
inferencia. 26
la diferencia
normal X con del colesterol
media μ = HDL
1,10 entre
mmol/l las
y mujeres
desviación y los hombres
típica σ = de esta
0,30 población
mmol/l. Así,
si las variables X1, ..., Xk siguen una distribución normal, puede probarse que la
2 2 2
combinación
LosEjemplo lineal
resultados 3.16 c1XEl
anteriores + cválidos
1 +colesterol
...son kXk también
HDL paraenseguirá
las mujeres
cualquier unavariable
distribución
adultas de normal
una No
aleatoria. con
población la sigue una
obstante,
se distribuirá
ladistribución según
normal una normal
X conHDL mediacon media
μ1 =las1,25 mmol/l y desviación típica σpoblación
combinación diferencia
linealdel c1Xcolesterol
1 + ... 1+ ckX entre
k también mujeres
seguirá una ydistribución
los hombresnormalde estacon1 =
la0,35 mmol/l,
media y varianza descritas anteriormente. Este resultado
si las variables X1, ..., Xk siguen una distribución normal, puede probarse que la X
y en los hombres adultos de dicha población sigue se
una utilizará en
distribución los temas
normal de2 con media
mediase yμ2varianza
= 1,10 mmol/l
distribuirá según
descritas y(desviación
E una
X X2) = μtípica
1 - normal
anteriormente. 1con
σ=2 =1,25
media
- μ2Este 0,30 - mmol/l.
resultado
1,10 se Así, mmol/l
la diferencia
utilizará
= 0,15 del colesterol
en los temas de HDL
inferencia.
entre las mujeres y los hombres de esta población se
combinación lineal c1X1 + ... + ckXk también seguirá una distribución normal con la distribuirá según una normal con media
inferencia. E(X1 − X2 ) = μ 1 − μ 2 = 1,25 − 1,10 = 0,15 mmol/l
y varianza
media y varianza descritas anteriormente. Este resultado se utilizará en los temas de
Ejemplo
y varianza 3.16 El colesterol HDL en las mujeres adultas de una población sigue
y varianza
Ejemplo
inferencia. 3.16var(ElXcolesterol
− X2) = σHDL 2 en2las mujeres 2 adultas
2 de una población 2 sigue
1 + σ 2 = 0,35 + 0,30 = 0,213 (mmol/l) ,
una distribución 1normal X1 con media μ1 = 1,25 mmol/l y desviación típica σ1 =
una distribución normal X1 con
0,35 mmol/l, yElXencolesterol
var( X2)hombres
1 -los σ 22 = μ0,35
media
= σ 12 + adultos 1 = 21,25 mmol/l
+ 0,302 y desviación típica
= 0,213sigue
(mmol/l)2
,
σ1 =
38 oEjemplo R. 3.16típica
desviación
Pastor-Barriuso 0,213 HDL
= 0,46 las de
enmmol/l, dicha
mujeres población
adultas
ya que una
de unapara
los valores distribución
población sigue
distintos
0,35 mmol/l, y en los hombres adultos de dicha población sigue una distribución
normal
una X con media
distribución μ2X=1 1,10
normal con mmol/lμ1y =desviación
media típica σ2 = 0,30 mmol/l.
típica σ1Así,
osujetos son2 independientes
desviación típica 0,213 y,
= en mmol/l, 1,25
consecuencia,
0,46 ρmmol/l
ya que y desviación
= 0.valores
12 los para distintos =
y varianza
Referencias
2 2 2
var(X1 - X2) = σ + σ = 0,35 + 0,30 = 0,213 (mmol/l) ,
2
1
2
2
Pastor-Barriuso R. 39
TEMA 4
PRINCIPIOS DE MUESTREO
Y ESTIMACIÓN
4.1 INTRODUCCIÓN
Pastor-Barriuso R. 41
Principios de muestreo y estimación
Estas cuestiones están estrechamente relacionadas entre sí. Así, por ejemplo, al aumentar el
tamaño muestral aumenta la exactitud en las estimaciones. La determinación del tamaño
muestral se tratará más adelante (véase Tema 9). En el presente tema, se discuten los principales
tipos de muestreo probabilístico, así como la estimación en el muestreo aleatorio simple. Antes
de ello, es conveniente revisar la definición de algunos conceptos que se utilizan de forma
repetida a lo largo del capítulo:
yy Población o universo muestral es la colección de elementos o unidades de análisis
acerca de los cuales se desea información. Con frecuencia, no se puede obtener información
de toda la población, sino tan sólo de unidades que cumplen una serie de características
(criterios de inclusión/exclusión). La población marco es aquella sobre la que es posible
obtener información. La muestra se obtiene de la población marco, por lo que debe
recordarse que las conclusiones extraídas de la muestra son generalizables a la población
marco y no necesariamente a la población de inicio o universo.
yy Dentro del proceso de selección de una muestra, la población suele dividirse en unidades
de muestreo, que deben constituir una partición de toda la población. Estas unidades de
muestreo pueden coincidir con las unidades de análisis, pero también pueden estar
constituidas por un conjunto de distintas unidades de análisis.
Ejemplo 4.1 Supongamos que se desea estudiar la capacidad funcional de una población
de ancianos institucionalizados. Para ello, se dispone de un lista de residencias, algunas
de las cuales se seleccionan para el estudio. Dentro de cada residencia seleccionada, se
eligen a su vez algunos ancianos que formarán parte de la muestra definitiva. En tal caso,
la selección de la muestra se habría realizado en dos etapas: las residencias constituirían
las unidades de muestreo de primera etapa y los ancianos (unidades de análisis) serían las
unidades de muestreo de segunda etapa.
yy Muestreo probabilístico es aquel en que todas las unidades de la población tienen una
probabilidad conocida y no nula de ser seleccionadas para la muestra. El muestreo
probabilístico minimiza la probabilidad de sesgos (si el tamaño muestral no es muy
limitado, la muestra será muy probablemente representativa de la población) y permite
cuantificar el error cometido en las estimaciones como consecuencia de la variabilidad
aleatoria. La teoría del muestreo se basa fundamentalmente en el muestreo probabilístico,
ya que otros tipos de muestreo (de conveniencia, por cuotas) están sujetos a una mayor
probabilidad de sesgos y es más difícil extrapolar los resultados a la población.
yy En el muestreo con reposición, cada vez que se elige un nuevo elemento muestral se
dispone de toda la población para realizar la selección, mientras que en el muestreo sin
reposición los elementos que ya han aparecido en la muestra no están disponibles para ser
elegidos de nuevo. En el muestreo con reposición, por tanto, una unidad poblacional puede
aparecer más de una vez en la muestra. En la práctica, el muestreo suele realizarse sin
reposición. No obstante, si el tamaño de la población es muy grande con respecto al tamaño
muestral, la probabilidad de que un elemento de la población sea elegido más de una vez
en la muestra es tan pequeña que ambos tipos de muestreo son similares.
42 Pastor-Barriuso R.
Principales tipos de muestreo probabilístico
El muestreo aleatorio simple es el más sencillo y conocido de los distintos tipos de muestreo
probabilístico. Supongamos que se pretende seleccionar una muestra de tamaño n a partir de
una población de N unidades. Un muestreo aleatorio simple es aquel en el que cualquier
subconjunto de tamaño n tiene la misma probabilidad de ser seleccionado. Puede probarse que
el muestreo aleatorio simple es un procedimiento equiprobabilístico; es decir, todas las unidades
de la población tienen la misma probabilidad n/N de ser elegidas en la muestra.
Para la selección de una muestra aleatoria simple, se enumeran previamente las unidades del
universo o población de 1 a N y a continuación se seleccionan n números distintos entre 1 y N
utilizando algún procedimiento aleatorio, típicamente mediante una tabla de números aleatorios
o un generador de números aleatorios por ordenador.
yy Las tablas de números aleatorios son tablas con los dígitos 0, 1, 2, ..., 9, donde cada dígito
tiene la misma probabilidad de ocurrir y el valor de un dígito concreto es independiente
del valor de cualquier otro dígito de la tabla. En la Tabla 4 del Apéndice se facilitan 1000
dígitos aleatorios.
yy La mayoría de los programas de análisis estadístico contienen generadores de números
aleatorios. Estos generadores producen grandes secuencias de dígitos pseudoaleatorios,
que satisfacen aproximadamente las mismas propiedades de aleatoriedad enunciadas
anteriormente.
Ejemplo 4.2 Supongamos que, en el ejemplo anterior, se dispone de una lista completa
de los N = 875 ancianos institucionalizados en dicha población, de los cuales se desean
seleccionar n = 10. La selección de una muestra aleatoria simple de este tamaño puede
realizarse a partir de la Tabla 4 del Apéndice como sigue. Comenzando en cualquier lugar
de esta tabla y leyendo grupos de 3 dígitos en cualquier dirección, seleccionar los 10
primeros números distintos entre 1 y 875. Por ejemplo, empezando en el primer dígito de
la tercera fila y de izquierda a derecha, estos números son: 339, 117, 619, 68, 440, 788,
696, 716, 183 y 546. Notar que los números 897 y 898 han sido descartados por ser
superiores a N = 875. La muestra aleatoria simple estaría así constituida por aquellos
ancianos de la población numerados previamente por estos 10 valores.
Pastor-Barriuso R. 43
Principios de muestreo y estimación
44 Pastor-Barriuso R.
respectivamente, cuya suma será igual al tamaño total n de la muestra. La selección
Pastor-Barriuso R. 45
Principios de muestreo y estimación
Ejemplo 4.5 Con cualquiera de las técnicas de muestreo utilizadas en los ejemplos
anteriores, la muestra incluiría muy probablemente ancianos institucionalizados en
múltiples residencias, con el consiguiente inconveniente en la recogida de información.
Supongamos que los N = 875 ancianos institucionalizados se encuentran distribuidos en
M = 15 residencias con los tamaños especificados en la Tabla 4.1. Para optimizar el
trabajo de campo, se decide extraer la muestra de tamaño n = 10 a partir de m = 2
residencias (conglomerados) seleccionadas con probabilidades proporcionales a sus
tamaños.
46 Pastor-Barriuso R.
Principales tipos de muestreo probabilístico
1 50 50 1 – 50
2 30 80 51 – 80
3 35 115 81 – 115
4 70 185 116 – 185
5 55 240 186 – 240
6 45 285 241 – 285
7 125 410 286 – 410
8 80 490 411 – 490
9 20 510 491 – 510
10 100 610 511 – 610
11 65 675 611 – 675
12 35 710 676 – 710
13 40 750 711 – 750
14 75 825 751 – 825
15 50 875 826 – 875
En primer lugar, se asigna a cada residencia un rango de valores de amplitud igual a su tamaño
(Tabla 4.1). A continuación, se extrae una muestra sistemática de tamaño 2 entre 1 y 875: si el
número de arranque resultó ser 316, los valores muestreados son 316 y 753 (ver apartado de
muestreo sistemático). Así, como el valor 316 está incluido dentro del rango asignado a la residencia
7 y el valor 753 en el rango de la residencia 14, resultan seleccionadas las residencias 7 y 14.
Para completar la muestra de n = 10 ancianos, se extraen finalmente muestras aleatorias
simples de tamaño n/m = 10/2 = 5 de las residencias 7 y 14. De los 125 ancianos institucionalizados
en la residencia 7, se seleccionaron los números 74, 23, 104, 111 y 57; y de los 75 ancianos de
la residencia 14, los números 38, 51, 25, 34 y 41. En conclusión, la muestra total estará
formada por los ancianos listados en los lugares 74, 23, 104, 111 y 57 de la residencia número 7,
más aquellos que ocupan los lugares 38, 51, 25, 34 y 41 de la residencia número 14.
Pastor-Barriuso R. 47
Principios de muestreo y estimación
Una técnica de muestreo en etapas que se emplea con cierta frecuencia es el muestreo
estratificado polietápico. Bajo esta técnica, las unidades de primera etapa se clasifican en
distintos estratos y, dentro de cada estrato, se selecciona al menos una de sus unidades de
primera etapa. La muestra final resultará de aplicar sucesivas etapas de muestreo dentro de las
unidades de primera etapa seleccionadas en cada estrato. Este muestreo permite obtener una
mayor representatividad muestral al seleccionar unidades dentro de todos los estratos.
Ejemplo 4.7 Supongamos que, de las 15 residencias listadas en la Tabla 4.1, las
residencias 4, 7, 8, 10 y 14 son públicas, con un total de 450 ancianos (51,4%), y las
restantes 10 residencias son privadas, con un total de 425 ancianos (48,6%). En el Ejemplo
4.5, las 2 residencias seleccionadas (7 y 14) fueron públicas; es decir, la muestra final no
incluyó a ningún anciano institucionalizado en residencias privadas. Para garantizar la
representatividad de los ancianos institucionalizados tanto en residencias públicas como
privadas, bastaría con seleccionar una residencia de cada uno de estos estratos. En la
Tabla 4.2, se muestran las 15 residencias reorganizadas según su carácter público o
privado. Para las residencias públicas, se escogió aleatoriamente el número 20 entre 1 y
450, resultando así seleccionada la residencia 4, cuyo rango incluye dicho número. Para
las residencias privadas, se extrajo aleatoriamente el número 326 entre 1 y 425, resultando
seleccionada la residencia 12. A continuación, se procedería a escoger aleatoriamente 5
ancianos de estas 2 residencias. Notar que, como ambos estratos tienen aproximadamente
el mismo tamaño, la muestra resultante sería equiprobabilística.
Apuntar, por último, que en la mayoría de los muestreos polietápicos el error muestral es
sensiblemente superior al de un muestreo aleatorio simple, debido principalmente a la correlación
entre los elementos que integran las unidades de primera etapa.
48 Pastor-Barriuso R.
puede realizarse con múltiples propósitos, nos centraremos aquí en la estimación de una
Estimación en el muestreo aleatorio simple
media y de una proporción poblacional.
4.3 ESTIMACIÓN
4.3.1 EN EL de
Estimación puntual MUESTREO
una media ALEATORIO
poblacional SIMPLE
variable. variable.
1.2.1 Media aritmética
A partir de esta población, se obtienen 1000 muestras aleatorias simples de tamaño n = 10
y, en cada1.2.1
una Media
deLa ellas, se calcula
aritmética
media la media
aritmética, denotada por 1.2.1
muestral seMedia
x ,del colesterol
define comoaritmética
HDL. El histograma
la suma de cada uno de los
de estas medias muestrales se representa en la Figura 4.1(a), que constituye una
aproximación a lavalores
La media distribución
aritmética, muestral
denotada
muestrales por
dividida ., Como
de xpor Lapuede
seeldefinemedia
número como de aritmética,
apreciarse,
la suma de
observaciones denotada
los unopor
valores
cada x Si
de los
realizadas. , sedenotamos
define com
difieren entre las distintas muestras, pero su distribución conjunta está centrada alrededor
de la verdadera
valoresmedia
por n elpoblacional
muestrales tamaño μ por
= 1,09
muestral
dividida mmol/l valores
por xi elde
elynúmero (línea
valor muestrales
vertical
observado
observaciones dividida
en realizadas.
trazo
para por el número
eldiscontinuo).
sujeto i-ésimo,
Si denotamos i =de1,observ
..., n,
En las Figuras 4.1(b) y (c) se presentan las distribuciones muestrales de la mediana y la
media geométrica
por n el lapara estas
media
tamaño mismas
vendría
muestral y muestras.
dada Ambas
xi el valor
porpor por n el tamaño
distribuciones
observado muestral
para elmuestrales por xii el
y presentan
sujeto i-ésimo, = 1,valor observado
..., n,
un claro sesgo respecto a la media poblacional, tendiendo a infraestimar su verdadero
valor de 1,09 mmol/l.
la media vendría dada por la media vendría dada por
1 n x + x + ... + x n
Notar que el interés de este ejemplo es meramente x= x i = 1 ya2 que, en la
académico . práctica, se
n i =1 n
desconoce la verdadera media poblacional1y nse dispone x + de x 2 una
+ ... única
+ x n muestra. 1 n x + x2 +
x = xi = 1 . x = xi = 1
n n n i =1 n
La media es la medida dei =1tendencia central más utilizada y de más fácil
25
interpretación.
La media Corresponde
es la medida de tendencia centralLa
al “centro demedia es la yde
gravedad”
más utilizada medida
delos defácil
datos
más tendencia centralSumás u
de la muestra.
20
15 interpretación. Corresponde alextremos
“centro
principal
interpretación. limitación es
Corresponde al que estáde
“centro muy influenciada
gravedad” de lospor los valores
datos de la muestra. Sude
y,gravedad”
en este
10
5 caso,
principal puede no
limitación ser un
es que estáfiel
muyreflejo deprincipal
porlimitación
la tendencia
influenciada loscentralesde
valores que está muy
y, eninfluenciada
la distribución.
extremos este po
0
caso, puede
caso, puede no ser un fiel reflejo de la tendencia centralno
deser un fiel reflejo de la tendencia cen
la distribución.
0,7 Ejemplo
0,8 0,9
1.4 En 1este y1,1
en los1,2 1,3 ejemplos
sucesivos 1,4 1,5
sobre estimadores muestrales, s
Frecuencia relativa (%) en muestras de tamaño 10
25
20
15
10
5
0
50 Pastor-Barriuso R.
centralestándar
4.3.2 Error de la muestra
de la sirven
media tanto para resumir los resultados observados como para
muestral
realizar
Dado que inferencias
la media acerca
muestral es unde los parámetros
estimador poblacionales
insesgado de la media correspondientes.
poblacional,
Estimación todas A simple
en el muestreo aleatorio
continuación
las posibles se describen
medias muestrales los principales
estarán distribuidas estimadores
alrededor de de la la tendencia
media poblacional. central de una
4.3.2 Error estándar de la media muestral [Figura 4.2 aproximadamente aquí]
variable.
No obstante, queda por determinar el grado de variabilidad o dispersión de estas medias
Dado que la media muestral es un estimador insesgado de la[Figura media4.2 aproximadamente
poblacional, todas las aquí]
muestrales
posibles medias alrededor
1.2.1 Media muestrales de μ
aritméticaestarán distribuidas alrededor de la media poblacional. No obstante, muestras, las
. La Aun
dispersión cuando de en
las la
mediaspráctica carece
muestrales de x sentido
de tamaño tomar n repetidas
queda por determinar el grado de variabilidad o dispersión de estas medias muestrales alrededor
de vendrá determinada
μ. La dispersión
La de las
media aritmética, pormedias propiedades
la varianza Aun
muestrales
denotada depor su de
cuando laseen
distribución
x ,de distribución
tamaño la práctica
define muestral,
n vendrá
como muestral
carece
la sumaquede
determinadade
es xcada
desentido
igual pueden tomar
apor
uno utilizarse
lade repetidas
varianza
los para cuantifica
muestras, las
de su distribución muestral, que es igual a
valores muestrales dividida propiedades
cometido por en la de
el número la distribución
estimación a partirmuestral
de observaciones de una de x pueden
única
realizadas. muestra utilizarse
Si denotamos de tamaño para cuantifi
n. La desvi
1 n 1 n σ2 ,
var( x ) = var x i = 2 var( x i ) =
1.2 MEDIDAS DE TENDENCIA n de n observado nde
por n el tamañoCENTRAL muestral estándar
cometido
y por ix=1 el
i
la distribución
envalor
la estimación i =1 muestral
a partir
para el x esúnica
desujeto
una i-ésimo, muestrai = 1,de ...,tamaño
n, n. La des
[Figura 4.2 aproximadamente 1.2 MEDIDAS aquí] DE TENDENCIA CENTRAL
dado que los distintos valores de la muestra son independientes (véase Apartado 3.4). Puede
la que
media vendría dadadepor estándar de de la es distribución muestral de x es
Las medidas de
dadotendencia
observarse que loscentral
la informan
variabilidad
distintos valores acerca
delaslamedias
muestra cuál sonelindependientes
muestrales valorserá más representativo
tanto mayor Apartado
(véase cuanto mayor σ sea la
3.4).
Las medidasSE( x )
de var( x ) =
=tendencia central ,
varianza poblacional σ de la variable a estudio. Por otra parte, esta variabilidad n informan acerca de c
disminuye
2
Aun cuando en la práctica carece de sentido tomar repetidas muestras, las
de una determinada
Puede variable
conforme aumentao, el
observarse dicho
que lade
tamaño forma
n de equivalente,
variabilidad la muestra;
de1lasn medias estos
es decir, estimadores
+ xal
x1 muestrales aumentar xindican
será el tamaño
tanto mayormuestral,cuantoσ las
2 + ... +SE( n x) = var( x ) =o, dicho , de forma equival
medias de las distintas muestras estarán
propiedades de la distribución muestral nde x pueden utilizarse
1.2 MEDIDAS DE
x =
más
TENDENCIA
x
próximasi = de
a la
CENTRAL
una determinada
verdadera para . media variable
cuantificarpoblacional. el
n de la distancia de las distintas medias muestrale errorn
alrededor de quémayor valorseaselaagrupan datosque
varianzalospoblacional facilita
σ 2 deun
observados. i =1valor promedio
laLas variablemedidas de tendencia
a estudio. Por otra parte, esta
cometido
Ejemplo en4.9
la estimación
En las Figuras a partir de una
4.2(a), (b)únicay (c)muestra alrededor
se presentan de tamaño de medias
las qué n. valor
Ladel se
desviaciónagrupan HDL
colesterol los datos observado
central de la muestra
variabilidad
en 1000sirven tanto
Las es
La disminuye
media
muestras para
medidas
la resumir
medida
conforme
aleatorias tamaño
que los
de tendencia
de n
facilita respecto
resultados
tendencia
aumenta
simples un
central
de de
valor
central
el tamaño
tamaño la
observados medida
promedio
informannmás poblacional.
comode
acerca
nde= utilizada
la10, la
25 de
muestra; distancia
para
yy cuál
de
es más
100, Esta de valor másSE(
cantidad
las
esrespectivamente,
decir, el
fácil
al distintas xmedias
) se conoce
representativo c
muestra
estándar
obtenidasde laadistribución
partir de losmuestral [Figurade4.2
controles x aproximadamente
del esestudio EURAMIC. central de aquí] laEn muestraestas sirven gráficastanto se puedepara resumir los resu
realizar inferencias
aumentar acerca de
interpretación.
apreciar el tamaño los parámetros
que,deindependientemente
una determinada
Corresponde
muestral, tamaño
error estándar
poblacionales
las medias n
variable
al “centro respecto
deldetamaño de la
o,dedicho
las de
gravedad”
distintas la
media
correspondientes. medida
de forma
muestral, muestral
de las
muestras poblacional.
A y
equivalente,
los datospermite
estarán
medias demás Esta
estos
la cantidad
cuantificar
estimadores
muestra.
próximas
muestrales Suel SE(
están grado x ) de
se incertid
indican conoce
centradas alrededor de la media poblacional de 1,09 realizar
mmol/l. inferencias
Sin embargo, acercaalde los parámetros
aumentar el poblacion
continuación se describen los principales
alrededor la error
estimación
estimadores
deesqué valor estándar
se de dela
agrupan una de
tendencia la
media
los σ
media a muestral
partir
central de
de y
una
una permite
muestra cuantificar
de tamaño n.
tendencia de incer
el grado
Aun
a latamañoprincipal
cuando
verdadera limitación
en
media
muestral, lase práctica
poblacional.
observa que SE(
carece
una está xde)muy=sentido
disminución influenciada
var( xtomar = datos
)substancial ,porobservados.
repetidas los
de la valores
muestras,
variabilidad Las lasmedidas
extremos de las y, en deeste
medias
muestrales. Así, por ejemplo, la proporción de muestras n con unse
continuación niveldescribenmedio los principales estimadores
de colesterol
variable. caso,
propiedades
HDL entre puede central
de1,03 no de un
ser
la distribución
y 1,15 la la
muestraEn
fielmuestral
mmol/l la
reflejo
es del práctica,
estimación
sirven de latanto
de
48,7% de para
una
x tendencia
pueden
para para poder
media=resumircalcular
central
n utilizarse a
10, 69,1%partir
los
de
para el
de error
una
resultados
lapara estándar,
muestra
n = 25observados
distribución.
cuantificar y el de estamaño
error
95,4% comon.para
necesario
para obtener
=Ejemplo
100. un 4.9
quenfacilita valor Enpromedio
las Figuras de En4.2(a),
la distancia (b) y de (c)las se variable.
presentanmedias
distintas las medias muestrales del colesterolde es
cometido en la realizar
estimación a previamente
inferencias
partir la
acerca
de una práctica,
una
de
única los para
estimación
parámetros
muestra poder de
de calcular
la varianza
poblacionales
tamaño n.el Laerror
poblacionalestándar,
correspondientes.
desviación σ 2 denecesario
la variable
A obtener
a estu
1.2.1 Media aritmética
HDL enEjemplo 1.4 En este y en los sucesivos ejemplos nSE(=sobre estimadores muestrales, se
Aun
tamaño cuando en1000
n respecto demuestras
la práctica la medida aleatorias
carece de sentido
poblacional. simples tomar
Esta decantidad
tamaño
repetidas
1.2.1 Media 10,
muestras, 25
x )aritmética
se ylas
conoce 100, propiedades
como de la
previamente una estimación de la varianza poblacional σ 2 poblacional
de la variable 2a e
estándar
distribución
La media aritmética, de la continuación
distribución
muestralpor
denotada de x ,pueden que
se
muestral
se define este
describen
utilizarsede
como laparámetro
x los
paraes
suma es
principales
cuantificar típicamente
de cada el estimadores
uno error
de los cometido en la estimación a de una σ pu
desconocido. de la La
tendencia varianza central
1.2 MEDIDAS DEúnica utilizarán los
TENDENCIA valores adel colesterol HDL obtenidos en losEURAMIC. 10 primerosEn sujetos del
partir
error respectivamente,
de una
estándarmuestra de la media de CENTRAL
obtenidas
tamaño
muestral n.partir
La de los controles
y desviación
permite estándar
cuantificarLa media del el estudio
de laaritmética,
gradodistribución muestralpor
denotada
de incertidumbre deenx ,esse define como2
variable.
valores muestrales dividida por el número de observaciones realizadas. que
estimarse este a parámetro
partir de es
la típicamente
propia muestra
Si denotamos desconocido.
mediante la La varianza
varianza poblacional σ
muestral
estudio se “European Study on Antioxidants, σ Myocardial Infarction and Cancer of
Las medidas deestas gráficas
tendencia
la estimación de central
una media puede
informana apreciar
SE(
partir x )que,
acerca
de = de
una independientemente
cuálxes
var(
muestra ) =el valores
de valor , más
tamaño n.del
muestrales tamaño
representativo divididamuestral, por ellasnúmero de observac
estimarse a partir de lai-ésimo, n
propia muestra mediante la varianza muestral
por n el tamaño muestral y por xi elMedia
1.2.1 valor observado
aritmética para el sujeto i 2= 1, ..., 1 n, ny controles
de una que medias
facilita
determinada un
the Breast“
muestrales
valor para
variable
En la práctica, promedio
o, dicho
(EURAMIC),
están
poderde de centradas
la distancia
forma
calcular
unalrededor
estudio multicéntrico
el errordeestándar,
equivalente, las estosde la
pores
distintas media s
n necesario
elmedias
tamaño
estimadores
de casos
poblacional
=
muestral
muestrales
indican
obtener
n − 1 i =1
(de 1,09
x i y− por
de
2 realizado
x )tamaño
x. i el valor n observado pa
la media vendría quedada
respecto de por
facilitala medida
un valor
La media poblacional.
promedio aritmética, deEsta cantidadde
la distancia
denotada SE(
por lasx )distintas
, se conoce
define como
medias
como la1error
sumaestándar
muestrales n de de cada2 uno de lade los
alrededor de
media quémmol/l.
valor
muestral
entre
y Sin
se
1991
embargo,
agrupan
permite
y 1992
los al
datos
cuantificar
en ocho países
aumentar
observados.
el grado
previamente una estimación de la varianza poblacional σ de la variable
el tamaño
de
Europeos
Las muestral,
la
medidas
incertidumbre
e2Israel
media dese
en
para
observa
s
vendría
2
=
tendencia
la
evaluar
dada
estimación una por
n − 1ai =estudio,
(el
xde
i
efecto
− x
una )
dado .de los
media
a partir
tamaño de una muestra
n respecto dedenlamuestrales
valores tamaño
medida Puede probarsepor
n.poblacional.
dividida que
Esta el lanúmero
varianza
cantidad de muestral
SE( x ) se conoce
observaciones es un 1estimador como insesgado
realizadas. Si denotamos de la varia
disminución 1
substancial x1de + xla2 variabilidad
+ ... + x n de las medias muestrales. Así, por
central de que
la muestra
En laeste
sirven
parámetro
práctica, xpara tanto
= espoder
nnlael
para
típicamente resumir
x i =calculardesconocido.
el
los resultados
error estándar,
nprobarse
. La varianza observados
es necesario
como
poblacional para
obtener
2
σ puede 1 una
2 previamente
n 5x + x + ...
error
estimación estándar por
de la varianza
ejemplo, la
de i=
proporción
1 tamaño
media poblacional;
Puede
muestral
muestral
poblacionalde muestras
y
2y permite
σ de con
espor decir,
que
la variable
un
x el el
la
cuantificar
i
nivel
valor
varianza
valoramedio
esperado
observado
estudio, el muestral
grado
de dado para
de
colesterol
ses
que este
sobre
elun sujeto
incertidumbre
HDL
todas
estimador
xi-ésimo,
parámetro
entre
=
n
en
sobre
es
todas
insesgado
xi = 1 las
de posib
i 1, ..., n,
= 2la var
n
realizar inferencias acerca
a partirde
estimarse desconocido. delos parámetros
la propia muestra poblacionales
mediante laσcorrespondientes.
varianza muestralA i =1
típicamente La varianza poblacional 2 2 puede estimarse a partir
2
2 de la propia
eslalaestimación dela media vendría poblacional;
amuestrasdada es
por es) decir,
E(smuestra =σ de .69,1% el tamaño
El valor
error esperado
estándar
n. de dela s media
sobre todas muestral sobre se todas
estimalas pos
enton
La media muestra medida
mediante y de launa
tendencia media
varianza central partir
esmuestral másdeutilizadauna
para nde=yla
de
más fácil n = 25 y 95,4% para n =
continuación se1,03 describen 1,15 mmol/l
los principales del estimadores
48,7% 10, tendencia para
central de una
La media es la medida de tendencia central más uti
En la práctica, para poder muestras
calcular el 1es
error E(s
n 2
) =
estándar, σ 2
. 2El error estándar de la media muestral se estima ento
interpretación. Corresponde al “centro de gravedad” s/ ns . Así,
2
= de una losvez datos −ndex ) laes
( x iseleccionada necesario
x1 +una
. muestra. x 2 +Su
obtener
... + x n concreta, la media muestral x fa
muestra
variable. 100. n − 1 i =x1 = 1 interpretación. xi = Corresponde . al “centro de gravedad” d
previamente una estimación de la varianza poblacional n i =1 σ 2 de la variable n a estudio, dado
principal limitación es que que
Puede probarse está lamuy influenciada
varianza una s/ estimación
muestral n por
. Así,
eslos ununa valoresvez seleccionada
insesgada
estimador extremosde la media
insesgado y, en una
deeste muestra
poblacional
la varianza concreta,
ypoblacional;
el error la de media muestral
dicha estimacióx
1.2.1 Media
es decir,
Puedearitmética
elprobarse
valor esperadoque la varianzade s sobre
2
todas las
muestral es posibles
un estimador principal
muestras insesgadolimitación
es E(s de 2 es
) =laσ varianza
2 que está
. 2El error estándarmuy 18 influenciada por l
caso, puededenoque
laser este
media parámetro
un fiel reflejoLa
muestral esmedia
de
se típicamente
la tendencia
estima es una desconocido.
central
estimación
la medida
entonces
determinado como de
pordetendencia
la La n ..varianza
distribución.
s/insesgada Así, unalapoblacional
de
central media
másseleccionada
vez σ ypuede
poblacional
utilizada deuna y elmuestra
más error
fácil de dicha estima
La media aritmética,
concreta, la media
poblacional; denotadamuestral
es decir, por x ,facilitará
el valor seesperado
defineuna como 2
s lasobre
deestimación sumatodas caso,
de cada
insesgada puede
sobre uno de no
de
todas ser
la los mediaun
las posibles fiel reflejo
poblacional deylaeltendencia centra
estimarse
error de dichaa estimación
partir de la vendrá
interpretación. propia muestraCorresponde
determinado mediante s/la varianza
al “centro
por n .. de gravedad” muestralde los datos de la muestra. Su
Ejemplo 1.4
valores muestrales En este y en los sucesivos ejemplos sobre estimadores muestrales, se
muestras dividida
es E(s ) =por
2
σ el. El
2 número de observaciones
error estándar de la media realizadas.
muestralSi sedenotamos
estima entonces como
principal limitación es que está Ejemplo
muy influenciada por los valores 1.4 En este y extremos
en los sucesivos y, en este ejemplos
1 n
utilizarán
por n el tamañolos valores dely colesterol
s/ n . muestral
Así, una vez xi el valor
porseleccionada HDLobservado
sobtenidos
2
=
una muestra
n − 1
en (los
para concreta,
10x )primeros
xeli −sujeto 2
. i-ésimo,
la utilizarán
sujetos
media muestral i = 1,del
los de
..., n,
valores
Pastor-Barriuso R. 51
x facilitará
del colesterol HDL obtenid
caso, puede no ser un fiel reflejo de la tendencia central i =1 la distribución.
laestudio “European
media vendría dadaStudypor on Antioxidants, Myocardial Infarction and Cancer of
una estimación insesgada de la media poblacional y el error de dicha
estudio estimación
“European Study vendráon Antioxidants, Myoc
Puede probarse que la varianza muestral es un estimador insesgado de la varianza
Principios de muestreo y estimación
30
20
10
30
Frecuencia relativa (%)
20
10
30
20
10
0,8 de los
Ejemplo 4.10 A partir 0,9controles
1 del estudio
1,1 1,2 1,3
EURAMIC, 1,4
se ha obtenido una
(c) Media del colesterol HDL (mmol/l) en muestras de tamaño 100
Ejemplo 4.10 A partir
muestra aleatoria de de
simple lostamaño
controles
n =del
10,estudio
cuyos EURAMIC, se ha obtenido
valores de colesterol una
HDL son
Figura 4.2 Distribución muestral de la media del colesterol HDL en 1000 muestras aleatorias
Figura 4.2 simples de
n = 10 (a),
tamañomuestra 25 (b)
aleatoria y 100 (c)
simple obtenidas
de tamañoa partir
n = del
10, grupo
cuyos control
valores del
deestudio EURAMIC.
colesterol HDL La
sonlínea ver-
tical en 1,45, 1,32, 1,74,corresponde
trazo discontinuo 0,82, 0,92, a1,46, 1,10,
la media 0,88, 0,97
poblacional μ =y 1,09
0,63mmol/l
mmol/l. La mediaHDL.
de colesterol
1,45, 1,32,es1,74, 0,82, 0,92, 1,46, 1,10, 0,88, 0,97 y 0,63 mmol/l. La media
muestral
Ejemplo 4.10 A partir de los controles del estudio EURAMIC, se ha obtenido una
muestra
muestralaleatoria
es simple de tamaño n = 10, cuyos valores de colesterol HDL son 1,45,
1,32, 1,74, 0,82, 0,92,11,46, 10
1,10, 1,45 + 1,32
0,88, 0,97+ ... + 0,63
y 0,63 mmol/l. La media muestral es
x = xi = = 1,13 mmol/l
10 10i =1 10
1 1,45 + 1,32 + ... + 0,63
x = xi = = 1,13 mmol/l
10 i =1 10
y la varianza muestral
y la varianza muestral
y la varianza muestral
1 n
s2 = ( xi − x ) 2
n − 1 in=1
1
s 2 = (1,45 2
x i )−2 x+)...
− 1(,13 + (0,63 − 1,13) 2
= n − 1 i =1 = 0,12 (mmol/l) 2 .
9
(1,45 − 1,13) 2 + ... + (0,63 − 1,13) 2
= = 0,12 (mmol/l) 2 .
9
52
Por tanto, la estimación puntual de la media poblacional del colesterol HDL es x
Pastor-Barriuso R.
Por tanto,
= 1,13 la estimación
mmol/l y su errorpuntual la media poblacional del colesterol HDL es x
dees
estándar
(1,45 − 1,13) 2 +alrededor
... + (0,63 de 13) 2valor se agrupan 2los datos observados. Las medidas d
− 1,qué
= = 0,12 (mmol/l) .
muestra sirven tanto para resumir los resultados observados 9 como para variable.
central de laDE
1.2 MEDIDAS muestra sirven
TENDENCIA tanto para
CENTRAL
Estimación en resumir
el muestreo los simple
aleatorio resultados observad
ncias acerca de los parámetros
Por tanto,poblacionales
la estimación correspondientes.
puntual de la media A 1.2.1 Mediadel
poblacional colesterol HDL es x
aritmética
realizar inferencias acerca de los parámetros poblacionales correspond
Las medidas de tendencia central informan acerca de cuál es el valor más r
e describen los principales
Por
= 1,13estimadores
tanto,
mmol/l y sude
la estimaciónla tendencia
error puntual central
estándardees de La
la media unamedia aritmética,
poblacional del colesterol
denotadaHDLpor es x ,=se1,13
define como la su
mmol/l y su error estándar esde una determinadasevariable
continuación describen los principales estimadores de la tendencia
o, dicho de forma equivalente, estos estimador
valores muestrales dividida por el número de observacione
s 0,35
) = variable.
SE( xalrededor = de qué=valor
0,11 se
mmol/l.
agrupan los datos observados. Las medidas de ten
1.2 MEDIDAS
ritmética DE TENDENCIA CENTRAL n 10 por n el tamaño muestral y por xi el valor observado para e
Notar que, en este ejemplo ilustrativo, central1.2.1 Media
de el
la error
muestra aritmética
de sirven
la estimación
tanto para muestral
resumir es los
exactamente
resultados observados co
mética,
Lasdenotada
medidas por xNotar
,–se
de tendencia μ define
=que,
1,13 como
–
central 1,09 la=
informansuma
0,04 de cada
mmol/l.
acerca de uno
En
cuál de
la losla
práctica,
es el media
valor sin vendría
embargo,
más
en este ejemplo ilustrativo, el error de la estimación muestral es dada
el
representativo por
error exacto no puede
calcularse ya que μ es desconocido Lay,inferencias
realizar media aritmética,
en consecuencia, acercase denotada
deemplea SE( x ), como
por
los parámetros sepoblacionales
define como la
estimación suma de cada
correspondiente
ralesdedividida por el número
una determinada del de
error
variable observaciones
promedio
o, dicho que
de realizadas.
cabría
forma esperar Si
equivalente, denotamos
en similares
estos circunstancias
estimadores
exactamente x - μ = 1,13 - 1,09 = 0,04 mmol/l. En la práctica, sin embargo, el1 indican (esto es, en todas
n lasx1 + x 2 + ... + x n
posibles muestras del mismocontinuación tamañovalores muestrales
obtenidas de la dividida
se describen población por
deelreferencia).
los principales número
estimadores
x =de observaciones
n i =1
xde
i = realizadas
la tendencia
n
centr
o muestral
alrededory por xi elvalor
de qué valor observado
se agrupan para
los el
datos sujeto i-ésimo,
observados. i
Las = 1, ...,
medidas n,
error exacto no puede calcularse ya que μ es desconocido y, en consecuencia, sede tendencia
por n el tamaño muestral y por xi el valor observado para el sujeto i-és
variable.
ría dada porde la4.3.3
central muestra Teorema
sirven central
tanto para del límite los resultados observados como para
resumir
emplea SE( x ) como estimación del error promedio La media es la medida
que cabría esperar de en tendencia central más utilizad
la media vendría dada por
En los apartados anteriores se ha probado 1.2.1 que,
Media paraaritmética
cualquier variable aleatoria, el valor esperado y
realizar inferencias n acerca de
similares
la varianza los parámetros
circunstancias
dex1la+distribución (estopoblacionales
es, en todas
x 2 + ... + x n de las medias muestrales correspondientes.
las interpretación.
posibles
son μ muestras
y σ2/n, A respectivamente.
Corresponde
del mismo al tamaño
“centro
No se de hagravedad” de los
1
= x i sin
xanalizado, = embargo, el aspecto . global de la distribución muestral de . Retomando
ndescriben n La media aritmética, denotada por x , 1se define xcomo n
1 el x 2la+suma
+ ejemplo ... + xde
n cada uno
continuación se i =1
obtenidas los
deprincipales
la población estimadores
de de
referencia). la tendencia
principal
de la distribución muestral de las medias de colesterol HDL (Figura 4.2), puede central
limitaciónde xuna=es
que
n i =1
xestá= muy
observarse
i influenciada
quen la . por los v
forma de esta distribución tiende a valores aproximarse a una dividida
muestrales distribución por normal
el número conforme aumenta el realizadas. Si d
de observaciones
s la variable.
medida de tendencia central más utilizada y de más fácil caso, puede no
tamaño muestral. Esta característica puede resultar intuitivamente lógica, ya que la distribución ser un fiel reflejo de la tendencia central de
subyacente
4.3.3 Teorema del colesterol
central del HDL en lapor
límite n el La
población mediamuestral
presenta
tamaño esunla aspecto
medida de tendencia
y poraproximadamente
xi el valor observadocentral más
normal utilizada
para(ver el sujetoyi-ésimo,
de más
Corresponde al “centro
1.2.1 MediaFigura
aritmética de gravedad” de los datos de la muestra. Su
1.2 del Tema 1). Dado que muchas de las variables utilizadas en la práctica no presentan una
interpretación. Ejemplo 1.4alEn este yde engravedad”
los sucesivoslos ejemplos sob
distribución
En los apartados poblacional
anteriores normal, cabría
la media
se ha probado preguntarse
vendría
que, para dada siCorresponde
esta variable “centro
por tendencia
cualquier a la normalidad
aleatoria, el valor de de la datos de la
ación es que está muy
La media aritmética,
distribucióninfluenciada
denotada
muestralporpor los valores
de x ,sesemantiene extremos
define como y,
para cualquier en
la suma de este
tipo
cadade uno
variable
de los aleatoria.
principal limitación utilizarán
es que los
está valores 2 del colesterol
muy influenciada porHDL obtenidos
los valores e
extre
esperado y la varianza de la distribución de las medias muestrales son nμ y σ /n,
o servalores
un fiel muestrales
reflejo deEjemplo
ladividida
tendencia 1 x + x + ... + x
porcentral
4.11 elEn la de
número ladedistribución.
Figura observaciones
4.3 se muestra realizadas.
la distribución xde=los
Si denotamos x i = de
niveles 1 2
b-caroteno n
en .
caso, puede no estudio
ser un fiel “European
n
reflejo de Study
la on
tendencia nAntioxidants, Myocardia
tejido adiposo
respectivamente. Noen se el
hagrupo control
analizado, sindel estudioelEURAMIC,
embargo, aspecto global que de
presenta
i =1 una distribución de la distribuc
la distribución
central
por n el tamaño muestral
marcadamente y por xiasimétrica
el valor observado para elde
con una media sujeto i-ésimo,
μ = 0,37 i =Las
1, ..., n,
Figuras 4.4(a),
1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se the mg/g.
Breast“ (EURAMIC), un (b)
estudio
20
y (c)multicéntrico de
La media es la medida
Ejemplo 1.4 Endeeste tendencia
y en loscentral
sucesivos másejemplos
utilizadasobre y de más fácil
estimado
la media vendría dada por 250
n los valores del colesterol HDL obtenidos en los 10 primeros sujetos del entre 1991 y 1992 en ocho países Europeos e Israel p
interpretación. Corresponde
utilizarán los valores al “centro de gravedad”
del colesterol de los datos
HDL obtenidos en de
losla10mue
pri
“European Study on Antioxidants, 1 n
Myocardial xInfarction
1 + x 2 + ...and
+ x nCancer of
200 x = x i = principal .
limitación es que estáStudy muy on influenciada por Myocardial
los valores extremos
n i =1 n estudio “European Antioxidants, Infarction
st“ (EURAMIC), un estudio multicéntrico de casos y controles realizado
caso, puedethe noBreast“
ser un fiel reflejo de launtendencia central de la distribución.
Frecuencia absoluta
estudio
caso, puede no ser un fiel50reflejo de la tendencia central “European
de la Study on Antioxidants, Myocardial Infarction and
distribución.
β-caroteno (μg/g)
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of
Figura 4.3
Figura 4.3 Distribución de frecuencias del nivel de β-caroteno en el grupo control del estudio EURAMIC.
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado
Pastor-Barriuso R. 53
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los
Principios de muestreo y estimación
30
20
10
30
Frecuencia relativa (%)
20
10
30
20
10
Figura 4.4
Figura 4.4 Distribución muestral de la media de β-caroteno en 1000 muestras aleatorias simples de tamaño
n = 10 (a), 25 (b) y 100 (c) obtenidas a partir del grupo control del estudio EURAMIC. La línea vertical en
trazo discontinuo corresponde a la media poblacional μ = 0,37 μg/g de β-caroteno.
54 Pastor-Barriuso R.
estadística, conocido como teorema central del límite, formaliza esta intuición: para
Las medidas de tendencia central informan acerca de cuá
estadística, conocido como teorema central del límite, formaliza esta intuición: para
cualquier variable aleatoria X con media μ y varianza σ 2, la
de una distribución
determinada
Estimación en
de
variable las medias
el muestreo o,aleatorio
dicho simple
de forma equivalen
cualquier variable aleatoria X con media μ y varianza σ 2, la distribución de las medias
en muestras aleatorias simples de tamaño n se aproxima, alrededor al aumentar
de qué valor el tamaño
se agrupan los datos observados. L
en muestras aleatorias simples de tamaño ~ n se aproxima, al aumentar el tamaño
seguir una distribución normal,normal x → N(1,09, 0,00086).
particularmente
muestral, a una distribución con mediacuando aumentaσ el
μ y varianza
central
2 tamaño de la muestra. Uno de
de la/n; es decir,
muestra al aumentar
sirven tantoformaliza
para resumir los resulta
losmuestral,
principales resultados en estadística, conocido
a una distribución normal con media μ y varianza σ 2/n; como teorema central
es decir,del límite,
al aumentar
esta
n, intuición:
Así, por paraejemplo,
cualquier la variable
probabilidad aleatoria de queX con media μdey colesterol
la media varianza σHDL 2
, la distribución
endeuna de las
medias en muestras aleatorias simples de tamaño n se realizar
aproxima, inferencias
al aumentar acerca
el tamaño los muestral,
parámetros poblacional
n,
a una distribución
muestra de normal
tamaño = 100 μesté
conn media y varianza
comprendida σ 2/n; es decir,
entre 1,03al yaumentar
1,15 mmol/l n, puede
2 continuación se describen los principales estimadores de
~ N μ, σ
calcularse como
x→
~ nσ 2,
x → N μ , variable. ,
n
Supongamos
media que elμ.interés del estudio se centra en estimar la proporción π de
poblacional
Si se selecciona una muestra aleatoria simple de tamaño n, en la cual k individuos
1
Principios de muestreo y estimación
(k −(xπi =) 1)P(yXlos= krestantes
2
presentan la característicaσde=interés
k =0
2
) n - k individuos no la
30
20
10
30
Frecuencia relativa (%)
20
10
30
20
10
estudio
puntual EURAMIC, se obtuvieron
de la proporción de fumadoresk = 35 fumadores
actuales es actuales. La estimación
Ejemplo 4.14 A partir de una muestra aleatoria simple de n = 100 controles del estudio
EURAMIC,
puntual se obtuvieron
de la proporción k = 35 fumadores
de fumadores actuales esactuales. La estimación puntual de la
k 35
proporción de fumadores actuales p =es = = 0,35,
n 100
k 35
p= = = 0,35,
n 100
y su error estándar es
y su error estándar es
y su error estándar es
p (1 − p) 0,35(1 − 0,35)
SE(p) = = = 0,05,
n 100
p (1 − p) 0,35(1 − 0,35)
que corresponde alSE (p) =promedio que=cabría esperar entre
error n 100
= todas
0,05, las posibles muestras de
tamaño
que 100 de laalpoblación
corresponde a estudio.
error promedio que cabría esperar entre todas las posibles
que corresponde
muestras al error
de tamaño 100 promedio que cabría
de la población esperar entre todas las posibles
a estudio.
Pastor-Barriuso R. 57
muestras de tamaño 100 de la población a estudio.
En este apartado se ha discutido la estimación puntual de una proporción poblacional
Principios de muestreo y estimación
4.4 REFERENCIAS
1. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
Englewood Cliffs, NJ: Prentice Hall, 1977.
2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole, 2001.
3. Cochran WG. Sampling Techniques, Third Edition. New York: John Wiley & Sons, 1977.
4. Kish L. Survey Sampling. New York: John Wiley & Sons, 1995.
5. Lehmann EL, Casella G. Theory of Point Estimation, Second Edition. New York: Springer
Verlag, 1998.
6. Levy PS, Lemeshow S. Sampling of Populations: Methods and Applications, Third
Edition. New York: John Wiley & Sons, 1999.
7. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999.
8. Serfling RJ. Approximation Theorems of Mathematical Statistics. New York: John Wiley
& Sons, 1980.
9. Silva LC. Diseño Razonado de Muestras y Captación de Datos para la Investigación
Sanitaria. Madrid: Díaz de Santos, 2000.
10. Stuart A, Ord JK. Kendall’s Advanced Theory of Statistics, Volume 1, Distribution Theory,
Sixth Edition. London: Edward Arnold, 1994.
58 Pastor-Barriuso R.
TEMA 5
INFERENCIA ESTADÍSTICA
5.1 INTRODUCCIÓN
La teoría del muestreo aporta diversos métodos formales para seleccionar muestras a partir de
una determinada población. La información obtenida de dichas muestras puede resumirse
utilizando técnicas de estadística descriptiva. Sin embargo, cuando se trabaja con una muestra,
rara vez nos interesa la muestra como tal, sino que ésta interesa por su capacidad para aportar
información con respecto a otros sujetos o a otras situaciones.
En los estudios descriptivos, el interés radica en seleccionar una muestra representativa de la
población de referencia, o dicho más concretamente, la muestra ha de presentar el mismo grado
de diversidad que la población respecto al parámetro o característica objeto de estudio. Las
técnicas de muestreo probabilístico descritas en el tema anterior facilitan muestras que serán
muy probablemente representativas de la población si el tamaño muestral es suficientemente
grande. De esta forma, los resultados de la muestra podrán inferirse a toda población con un
grado razonable de certidumbre.
Ejemplo 5.1 En las Encuestas Nacionales de Salud, se obtiene información de una muestra
representativa a nivel provincial o nacional. Esta muestra interesa por la información que
aporta sobre toda la población. En este caso, la representatividad de la muestra es determinante
para la validez de las conclusiones derivadas del proceso inferencial.
En los estudios epidemiológicos analíticos, los resultados son interesantes porque pueden
aplicarse a situaciones de salud semejantes. En este caso, el objetivo principal del diseño es asegurar
la comparabilidad o semejanza de los grupos de estudio, más que la representatividad poblacional
de la muestra. En los ensayos clínicos randomizados, los sujetos se asignan a los distintos grupos
de tratamiento mediante algún mecanismo aleatorio (por ejemplo, mediante un muestreo aleatorio
simple). Así, si el tamaño muestral es grande, las características basales de los sujetos asignados a
los distintos grupos serán muy similares. En consecuencia, las diferencias observadas entre estos
grupos a lo largo del seguimiento podrán atribuirse al tratamiento objeto de estudio.
La estadística inferencial aporta las técnicas necesarias para extraer conclusiones sobre el
valor poblacional de un determinado parámetro a partir de la evaluación de una única muestra.
Pastor-Barriuso R. 59
Inferencia estadística
Como se discutió en el tema anterior, las conclusiones derivadas de este proceso inferencial
siempre estarán sujetas a error como consecuencia de la variabilidad aleatoria inherente al
propio procedimiento de selección muestral. Por ello, resulta necesario disponer no sólo de una
estimación puntual, sino también de un intervalo de confianza, que facilite un rango de valores
verosímiles para el parámetro poblacional, así como de una prueba de significación estadística,
que permita determinar el grado de compatibilidad de los datos muestrales con una hipótesis
predeterminada. En este tema, se revisan los fundamentos y la interpretación de las técnicas
estadísticas de inferencia: la estimación puntual, el intervalo de confianza y el contraste de
hipótesis. Para simplificar la exposición, se asume que la muestra se obtiene por muestreo
aleatorio simple y que la población de referencia es de tamaño muy superior a la muestra.
Una forma natural de estimar muchos parámetros poblacionales consiste en utilizar el estadístico
muestral correspondiente. Así, la media muestral es un estimador 1.2 MEDIDAS puntualDE de laTENDENCIA
media poblacional CENTRAL
yprincipales
la proporción de casos de una
propiedades estadísticas que enfermedad
1.2haMEDIDAS en la
de satisfacer muestra
DEunTENDENCIA es un
buen estimador estimador
CENTRAL puntual
muestral de la
probabilidad de tener la enfermedad en la población. No obstante, para un determinado
parámetro poblacional, pueden contemplarse distintos Las estimadores
medidas de tendencia alternativos. central informan acerca de c
Algunos
cabe destacar las siguientes:
estimadores de la media poblacional distintos de la media muestral podrían ser, por ejemplo,cuál
Las medidas de tendencia central informan acerca de la es el valor m
mediana, la media de unadedeterminada variable o, dicho de forma equival
• Ausencia de del 50%Un
sesgo. central de laes
estimador muestra
insesgadoo la simedia valorlos
suvariable medio valores sobre máximo
todas y mínimo.
las
En este apartado se presentan algunos criterios estadísticos que justifican la elección de un estos estima
de una determinada o, dicho de forma equivalente,
determinado alrededor de qué valor se agrupan los datos observados
posiblesestimador
muestrasfrente a otras
de tamaño posibles alternativas.
n coincide
alrededorcon deelqué parámetro
valor se poblacional.
agrupan los datos La observados. Las medidas de
Los méritos de un estimador no se juzgan por la central estimación de la resultante
muestra sirven en una tantomuestra
para resumir los resu
insesgadez de un estimador
concreta, sino por la distribución de todos es una propiedad
centrallosde
posibles deseable
la muestra valores ya que sus
o estimaciones
sirven estimaciones
tanto para resumir no
a que pueda dar
los resultados observado
lugar; esto es, por las propiedades de su distribución muestral. Entre las principales propiedades
realizar inferencias acerca de los parámetros poblacion
diferirán
estadísticas quesistemáticamente
ha de satisfacer un delbuen
parámetro
estimador
realizar poblacional.
muestral
inferencias acercacabede destacar
los parámetroslas siguientes:
poblacionales correspondi
yy Ausencia de sesgo. Un estimador es insesgado si continuación su valor medio se sobre
describen todasloslasprincipales
posibles estimadores d
muestras tamañosenprobó
de Como coincide continuación se describen los principales estimadores de la tendencia ce
Ejemplo 5.3 en el con
temaelanterior,
parámetro la media poblacional.
y la proporción La insesgadez muestralde un
estimador es una propiedad deseable ya que sus estimaciones variable. no diferirán sistemáticamente
del variable.
sonparámetro
estimadores poblacional.
insesgados de la media y la proporción poblacional,
1.2.1 Media aritmética
Ejemplo 5.3 Como
respectivamente, E( x se
) =probó en1.2.1
μ y E(p) el= tema
. Sinanterior,
πMedia la la
aritmética
embargo, media y la proporción
varianza muestral definida muestral son
estimadores insesgados de la media y la proporción La poblacional,
media aritmética, respectivamente,
denotada por E( x ), =se define como l
μpor
y E(p)
Σ(xi -= xπ.) Sin
2
/n esembargo, la varianza
un estimador La media
sesgado muestral definida
aritmética,
de la varianza por S(x
denotada
poblacional, pori – x ya), /n
2
es
seque un estimador
define como la suma de cada u
sesgado de la varianza poblacional, ya que valores muestrales dividida por el número de observac
valores muestrales dividida por el número de observaciones realizadas.
2
1 n
2 1 n 2 2 1 porn n el2 tamaño 1 muestral
n
y por xi el valor observado pa
E ( x i − x ) = E por xi − x = nmuestral E ( x i )y−por E x el xi observado para el sujeto i-ésim
n i =1 n i =1 n el tamaño i =1 ni i =1valor
la media vendría dada por
1 n la media 1 n
= E ( x i2 ) − vendría Edada
2
( x i2 )por
+ 2 E ( x i ) E ( x j )
n i =1 n i =1 x + x 2 + ...
1≤ i < j ≤ n
1 n
n −1 n
2 1 n x =
x + x 2 n+ ...
xi = 1
+ xn n
= 2 E ( x i2 ) − 2 E ( x i ) E ( xxj =) x i = 1 i =1 .
n i =1 n 1≤i < j ≤ n n i =1 n
n −1 2 n − 1 La n −1
(σ + μ 2 ) −
= μ 2 =media σes2la
; medida de tendencia central más util
n La media es nla medida den tendencia central más utilizada y de más fá
interpretación. Corresponde al “centro de gravedad” de
interpretación. Corresponde al “centro de gravedad” de los datos de la m
es decir, este estadístico tiende a infraestimar la varianza poblacional σ 2 por un
principal limitación es que está muy influenciada por l
60 Pastor-Barriuso R. principal limitación es que está muy influenciada por los valores extrem
factor de (n – 1)/n. Notar que este sesgo será tanto mayor cuanto menor sea el
caso, puede no ser un fiel reflejo de la tendencia centra
caso, puede no ser un fiel reflejo de la tendencia central de la distribució
tamaño muestral. En consecuencia, es preferible utilizar la varianza muestral
es decir, este estadístico tiende a infraestimar la varianza poblacional σ por un
forma, seque
también tendrá una mayor
las distintas confianza en
estimaciones que
difieran laloestimación
menos se
continuación resultante
posible de la
de dicho
describen los principales estimadores de la t
factor de (n – 1)/n. Notar que este sesgo será tanto mayor cuanto menor sea el
Estimación puntual
muestra finalmente
parámetro, que1.2
la MEDIDAS
es decir, seleccionada
varianza estará DE
muestralTENDENCIA
próxima al parámetro
del estimador
variable. CENTRAL
seapoblacional.
mínima. DePor esta
tamaño muestral. En consecuencia, es preferible utilizar la varianza muestral
ello, entre
forma, los distintos
se tendrá estimadores
una mayor
Las confianza
medidas insesgados
deen que la de
tendencia un determinado
estimación
central resultante
informan parámetro, es es el valor más represe
de2 lade cuál
acerca
es decir, por
definida estesestadístico
2
= Σ(xi - xtiende
)2/(n –a1)infraestimar la varianza
1.2.1
como estimador Media poblacional
aritmética
insesgado σ por un factor
de la varianza de
(n – 1)/n.
convenienteNotar que este
seleccionar sesgo será tanto mayor cuanto menor sea el tamaño muestral. En
muestra finalmente deaquel
seleccionada
una que presente
estará
determinada una menor
próxima
variable varianza
al parámetro
mediao,aritmética,
dicho (o, de
poblacional.
de forma forma Por 2 estos estimadores ind
s2 =equivalente,
consecuencia, es preferible
poblacional, utilizar la varianza
La muestral definida por
denotada S(x i – x ), /(n
por – 1) como la sum
se define
como estimador
equivalente,
entre losun insesgado de
menor alrededor
error la varianza
estándar). poblacional,
ello, distintos estimadores quéEn general,
de insesgados
valor
valores
puede
sedeagrupan
un demostrase
determinado
los
muestrales datos que, si laesLas medidas de tendenc
parámetro,
observados.
dividida por el número de observaciones
1 n 2
distribución seleccionar
conveniente poblacional subyacente
E(s 2
aquel
central de ( xuna
es normal,
E lapresente
) = que muestra la
sirvenx )media
i − menor tanto
n − 1 i =1 por n el tamaño
x. y la
2
=varianza
σpara varianza
(o,
resumir
muestral
de los muestral observados como p
forma
y porresultados
xi el valor observado para el s
s2 son respectivamente
equivalente, un menor errorlos estimadores
estándar).
realizar insesgados
En
inferencias general,
acerca puede
dedelos σ 2 con menor
μ yparámetros
demostrase que,varianza.
si la
poblacionales correspondientes. A
yy Mínima varianza. Además de la insesgadez la media
de un vendría
estimador,dada porque garantiza que las
estimaciones
distribución estarán centradas alrededor del parámetro poblacional,
x y la interesa
varianza también que
muestral
De la mismapoblacional subyacente
forma, la continuación
proporción es normal,
muestral p eslaellos
media
estimador insesgado de π con
las distintas estimaciones difieran lo se describen
menos posible de principales
dicho parámetro;estimadores de la que
es decir, tendencia
la central de
1 n x1 + x 2 + ... + x n
varianza
2
smenor
muestral del estimador sea mínima. De esta forma, se2 tendrá una mayor
son respectivamente los estimadores insesgados de μ y σ con menor xvarianza. = x4i =
confianza .
error estándar. variable. n n
en que la estimación resultante de la muestra finalmente seleccionada esté próxima i =1 al
parámetro poblacional. Por ello, entre los distintos estimadores insesgados de un
De la misma forma, la proporción muestral p es el estimador insesgado de π con
determinado
Ejemplo 5.4parámetro, es conveniente
1.2.1
Para cualquier distribución seleccionar
Media aritmética aquel
La media
poblacional, quelapresente
la es
media medida
muestral una
de esmenor
un varianza
tendencia central más utilizada
(o, de forma equivalente, un menor error estándar). En general, puede demostrarse que, si
menor error estándar.
laestimador
distribución poblacional
insesgado deLa subyacente
la media es normal,
media aritmética,
poblacional y sulaerror
denotada media
interpretación. por x ,yse la define
varianza
Corresponde
estándar es al muestral
como la suma
“centro s2 son
de de cada uno
gravedad” dedeloslos
d
respectivamente los estimadores insesgados de μ y σ con menor varianza. De la misma
2
forma,
Ejemplo la proporción valores
muestral
5.4 Para cualquier pmuestrales
distribución dividida
es el estimador por
insesgado
principal
poblacional, laelmedia
número
limitación es de
de π muestral
con observaciones
menor
que es error
está muy estándar.
un realizadas.por
influenciada Silos
denota
val
σ
SE( x ) = .
Ejemplo 5.4 Para cualquiern
estimador insesgado de la media poblacional y suypuede
por el tamaño
distribuciónmuestraln
poblacional,
caso, por xla
error i el
no valor
media
ser
estándar observado
unmuestral para
es un
fiel reflejo
es deestimador sujeto i-ésimo,
laeltendencia centrali de
= 1,la
insesgado de la media poblacional y su error estándar es
la media vendría dada por
En el caso de que la distribución subyacente σsea normal, puede probarse que la
SE( x ) = . Ejemplo 1.4 En este y en los sucesivos ejemplos sobre
n la media1poblacional x +yxque su+ x n
mediana también es un estimador insesgado de 2 + ...
n
x=
utilizarán losx ivalores
= 1 del colesterol . HDL obtenidos en
En el caso de que la distribución subyacente sea normal,n puede i =1 probarse nque la mediana
error
En
también estándar
el caso esde es
unque aproximadamente
la distribución
estimador insesgadosubyacente sea normal,
de la media poblacional puedey probarse
que Study que la
su error
estudio “European on estándar
Antioxidants, es Myocardial
aproximadamente
mediana también es un estimador La media es la medida
insesgado de lade tendencia
media centralymás
poblacional que utilizada
su y de más fácil
the
σ Breast“ (EURAMIC), un estudio multicéntrico de c
SE(mediana) ≅ 1,25 .
interpretación. Corresponde nal “centro de gravedad” de los datos de la muestra. S
error estándar es aproximadamente
entre 1991 y 1992 en ocho países Europeos e Israel par
Así, aunque ambos estimadores son insesgados, el error estándar de la mediana es un 25%
mayor que el de la media principal
muestrallimitación es que
y, por tanto, está muy
la mediana influenciada
tenderá porestimaciones
a facilitar los valores extremos y, en
σ
menos precisas que la media SE(mediana)
muestral. ≅ 1,25 .
caso, puede no ser un fiel reflejo n de la tendencia central de la distribución.
yy Consistencia. Las propiedades de insesgadez y mínima varianza se refieren a la
distribución muestral del estimador para un tamaño n fijo de la muestra. La consistencia,
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestr
sin embargo, hace referencia al comportamiento del estimador al aumentar n. Se dice 5 que
un estimador es consistente si,utilizarán
al aumentar
loselvalores
tamañodel
decolesterol
la muestra, la probabilidad
HDL obtenidos endelos
que10 primeros suje
el estimador difiera del verdadero parámetro poblacional se reduce progresivamente. La
consistencia es, por tanto, un requerimiento
estudio “Europeanbásico paraon
Study unAntioxidants,
buen estimador ya que bastará
Myocardial Infarction and Canc
con aumentar el tamaño muestral para obtener estimaciones arbitrariamente próximas 5 al
verdadero parámetro. Por supuesto, la media,
the Breast“ la varianza
(EURAMIC), y la proporción
un estudio muestral
multicéntrico son y controles rea
de casos
estimadores consistentes de sus respectivos parámetros poblacionales.
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto d
Ejemplo 5.5 En el Ejemplo 4.9 se evaluó empíricamente el comportamiento de la media
muestral de colesterol HDL en muestras de tamaño n = 10, 25 y 100 obtenidas a partir
de los controles del estudio EURAMIC, donde la media poblacional del colesterol HDL
Pastor-Barriuso R. 61
Inferencia estadística
es μ = 1,09 mmol/l. La proporción de muestras con niveles medios de colesterol HDL
próximos a μ = 1,09 mmol/l, pongamos por ejemplo entre 1,03 y 1,15 mmol/l, aumentó
de un 48,7% para n = 10 a un 69,1% para n = 25 y a un 95,4% para n = 100. Este resultado
corrobora empíricamente la consistencia de la media muestral como estimador de la
media poblacional: la probabilidad de obtener estimaciones próximas al verdadero nivel
medio aumenta progresivamente conforme aumenta el tamaño muestral.
En los problemas de estimación más simples, como es el caso de una media o una proporción
poblacional, se dispone de un estimador natural que cumple las propiedades descritas
anteriormente. En otros problemas más complejos, como por ejemplo en la estimación de
parámetros en modelos de regresión, la elección de un estimador razonable no es tan directa. En
general, existen diversos métodos formales para obtener estimadores con buenas propiedades
estadísticas, entre los que destacan el método de máxima verosimilitud, el método de mínimos
cuadrados y el método de los momentos. Los métodos de mínimos cuadrados y máxima
verosimilitud se presentarán en el contexto particular de los modelos de regresión lineal (Temas
10 y 11) y logística (Tema 12), respectivamente. No obstante, los principios generales de estos
procesos de estimación y la evaluación de los estimadores resultantes pueden consultarse en los
textos de estadística matemática referenciados al final del tema.
TENDENCIA CENTRAL
5.3 ESTIMACIÓN POR INTERVALO
dencia central informan acerca de cuál es el valor más representativo
Como ya se ha comentado previamente, las estimaciones puntuales obtenidas a partir de una muestra
diferirán
variable o, dicho del equivalente,
de forma parámetro poblacional y, en consecuencia,
estos estimadores indican quedará un margen de incertidumbre que se
expresa en términos del error estándar del estimador. Así, resulta natural la pretensión de disponer de
unadatos
or se agrupan los medida
5.3.1 del parámetro
observados.
Distribución Las poblacional
t demedidas que incorpore tanto la estimación puntual como su error
Studentde tendencia
estándar. Esta medida es el intervalo de confianza, que facilita un rango de valores dentro del cual se
encontrará
a sirven tanto para resumir
5.3.1
El métodoellos
verdadero tvalor
resultados
Distribución
más del
paraparámetro
deobservados
extendido Student comopoblacional
el cálculo para conde
de intervalos unconfianza
cierto grado
se de confianza.
basa en las En este
apartado se describe detenidamente el procedimiento para la construcción de un intervalo de
confianza
acerca de los parámetros
El para
método
propiedades lade
másmedia
poblacionales poblacional.
extendido elLos
correspondientes.principios
para muestral
la distribución Adel
cálculo básicos del
de estimador.
intervalos de
Porcálculo e interpretación
confianza
el teorema secentral
basa endeldelímite
las intervalos
de confianza para otros parámetros son similares y se discutirán en los siguientes temas.
criben los principales estimadores
propiedades
sabemos dedistribución
que,depara
la la tendencia
cualquier centralaleatoria
muestral
variable dedeluna
estimador. Porμelyteorema
con media varianzacentral
σ 2, la del límite
5.3.1 Distribución t de Student
sabemos que,depara
distribución las cualquier variable aleatoria
medias muestrales con media μ y varianza
x es aproximadamente normal conσ 2,media
la μy
El método más extendido para el cálculo de intervalos de confianza se basa en las propiedades
tica de distribución
la distribución
varianza σ 2/n desimuestral
las
el medias
delmuestrales
tamaño esxsuficientemente
estimador.
muestral es aproximadamente
Por grande;normal
el teorema central del
es límite
decir, media μ que,
consabemos y para
cualquier variable aleatoria con media μ y varianza σ , la distribución de las medias muestrales
2
2
, denotada por x es defineσcomo
, varianza
seaproximadamente
/n silaelsuma decon
normal
tamaño cada uno es
media
muestral de los
μ ysuficientemente
varianza σ2/n si elgrande;
tamañoesmuestral
decir, es suficientemente
grande; es decir,
~ N μ, σ 2
x→
ividida por el número de observaciones realizadas. Si denotamos
n2
x→ ~ N μ , σ
estral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, n
o, de forma equivalente, aplicando la estandarización de una distribución normal
da por o, de forma equivalente, aplicando la estandarización de una distribución normal
o, de forma equivalente, aplicando la estandarización de una distribución normal
x−μ ~
→ N (0, 1) .
1 n x1 + x 2 + ... + x n σ
x = xi = . x−μ n ~
n i =1 n → N (0, 1) .
σ
n
Esta cantidad estandarizada depende de dos parámetros desconocidos: la media
edida de tendencia central más utilizada y de más fácil
Esta cantidad
62 Pastor-Barriuso
poblacional R.
μ,estandarizada depende
que es el parámetro de dos
objeto deparámetros
inferencia, desconocidos:
y la desviaciónlatípica
media
esponde al “centro de gravedad” de los datos de la muestra. Su
poblacional μ
poblacional σ,, que
que es
es el
unparámetro
parámetroobjeto denecesario
auxiliar inferencia, y laconocer
para desviación típica
el error estándar en
es que está muy influenciada por los valores extremos y, en este
s probabilidad en los extremos (Figura 5.1). Los grados de libertad de
la estimación de μ. Parece entonces lógico sustituir en la expresión anterior el valor
Estimación por intervalo
t de Student determinan su dispersión: al aumentar los grados de
desconocido de σ por la desviación típica muestral s. Sin embargo, como s es un
uye la variabilidad y la distribuciónt de Student se aproxima a una
Estaestimador de σ que conlleva
cantidad estandarizada depende a sude vezdosunparámetros
error de muestreo, el estadístico
desconocidos: la media resultante
poblacional ( xμ,-que
mal estandarizada. es elCuanto
parámetro menorobjetoseade el inferencia,
tamaño muestral y la n, mayor será
desviación típica poblacional σ, que es un parámetro
auxiliar
μ)/(s/necesario para conocer
n ) presentará una mayor el error estándar en
imprecisión. Puede la estimación
probarse que de μ.
la Parece entonces
distribución lógico
de este
t de
sustituir en la expresión anterior el valor desconocido de σ por la desviación típica muestral s.
Sinestadístico
embargo, ya como sLa
no será esnormal,
un estimador
distribución sino tquede σ que aproximadamente
deStudent
seguirá conlleva a su vez una
es una distribución un error dealrededor
distribución
simétrica muestreo,deel0 y de aspecto
á una mayo estadístico resultante (x − )/(s/ n ) presentará una mayor imprecisión. Puede probarse que la
distribución
conocida comode este deestadístico
tparecido
Student al deconya nno
una 1será normal,
- distribución
grados sino que
de libertad
normal seguirá por
y denotada
estandarizada, aproximadamente
tn-1,
aunque una
menos apuntada en el
ral es grande,s distribución
facilitará unconocida
estimación como t de Student
precisa deσ con n – 1 grados de libertad y denotada por tn–1,
centro y con más probabilidad x − μ ~ en los extremos (Figura 5.1). Los grados de libertad de
icho estadístico será aproximadamente normal. En la Tabla 5→del t n −1 .
s
una distribución t de Student n determinan su dispersión: al aumentar los grados de
entan los percentiles de la distribuciónt de Student para distintos
La distribución tlibertad,
de Student es una distribución
disminuye la variabilidad simétrica y la alrededor
distribución det0dey de aspecto
Student separecido
aproxima a una
ad. al de una distribución normal estandarizada, aunque menos apuntada en el centro y con más
probabilidad en los distribución
extremos (Figura normal 5.1).estandarizada.
Los grados de Cuanto libertad menor sea el tamaño
de una distribución t demuestral
Studentn, mayor será
determinan su dispersión: al aumentar los grados de libertad, disminuye la variabilidad y la
[Figura 5.1 aproximadamente
distribución t de Student se aproximaaquí] a una distribución normal estandarizada. Cuanto menor8sea t de
el tamaño muestral n, mayor será el error de la desviación típica muestral s y, en consecuencia,
la distribución t de StudentStudent otorgará
otorgará una mayo dispersión al estadístico (x − )/(s/ n ). Por el
unamayor
contrario, si el tamaño muestral
6 De la Tabla 5 del Apéndice se obtiene que el percentil 97,5 es grande, s facilitará
en unauna estimación precisa de σ, de tal forma
que la distribuciónelde dichomuestral
tamaño estadístico será aproximadamente
es grande, normal. En
s facilitará un estimación la Tabla
precisa deσ 5 del
Apéndice se presentan los percentiles
n t de Student con 2, 5, 10 y 30 grados de libertad es respectivamente de la distribución t de Student para distintos grados de
libertad. distribución de dicho estadístico será aproximadamente normal. En la Tabla 5 del
303, t5;0,975 = 2,571, t10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de
Ejemplo 5.6 Apéndice De la Tabla 5 del Apéndice
se presentan los percentiles se obtiene que el percentil
de la distribución 97,5 en
t de Student paraunadistintos
nes simétricas en 0, eldistribución
percentil 2,5 t decoincide
Studentcon 5, 10 y 30 grados de libertad es respectivamente t2;0,975 =
conel2,correspondiente
4,303, t5;0,975 grados
= 2,571, t
de libertad.
10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de distribuciones
7,5 con signo opuesto; simétricas
es decir, en 0, el=percentil
t2;0,025 2,5 coincide
-4,303, t5;0,025 = -2,571, con el correspondiente percentil 97,5 con signo
t10;0,025
opuesto; es decir, t2;0,025 = – 4,303, t5;0,025 = – 2,571, t10;0,025 = – 2,228 y t30;0,025 = – 2,042. Por
= -2,042. tanto, elel95% central dedelaladistribución t [Figura
de Student 5.1 con
aproximadamente
2, 5, 10 y 30 grados aquí] de libertad
tdistribución
30;0,025 simétricatanto,
Por alrededor 95% de central
0 y de aspectodistribuciónt de
está comprendido entre ± 4,303, ± 2,571, ± 2,228 y ± 2,042, respectivamente. Así, puede
nl estandarizada,
2, 5, 10 y 30 grados
aunqueobservarse
demenos
libertad queestá
apuntadala comprendido
dispersión
en el deentre ± 4,303, ± t de Student disminuye al aumentar los
la distribución
grados de libertad, aproximándose a una distribución normal estandarizada (95% de los
Ejemplo 5.6 De la Tabla 5 del Apéndice se obtiene que el percentil 97,5 en una
228 y ± 2,042,
extremos (Figura 5.1).valores
respectivamente. entreAsí,
Los grados ±de1,96,
puede Ejemplo
libertad de 3.11).
observarse que la
distribución t de Student con 2, 5, 10 y 30 grados de libertad es respectivamente
de
an lasudistribución
dispersión: t
al de Student
aumentar disminuye
los grados
5.3.2 Intervalo de confianza al aumentar
de para una losmedia
gradospoblacional
de
t2;0,975 = 4,303, t5;0,975 = 2,571, t10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de
a distribuciónt de Student
A partir de se
losaproxima
resultadosa anteriores
una puede construirse un intervalo de confianza para la media
poblacional. En general, la distribucionespor
estimación intervaloenlleva
simétricas 0, elasociada
percentiluna coincide conoelnivel
2,5probabilidad de
correspondiente
uanto menor sea el tamañodenotada
confianza, muestral n,enmayor
términosserá porcentuales por 100(1 – α)%, que indica la cobertura del
parámetro poblacional. Aunque percentil en97,5
la práctica
con signo se utilizan
opuesto; 9 casi exclusivamente
es decir, los intervalos
t2;0,025 = -4,303, t5;0,025 = de
-2,571, t10;0,025
confianza al 95% (α = 0,05), t de nos referiremos aquí de forma genérica al intervalo de confianza
al 100(1 – α)% para la media = -2,228
poblacional. = -2,042. la
y t30;0,025Utilizando Por tanto, el 95%
aproximación t decentral
Studentdeallaestadístico
distribución t de
(x − )/(s/ n ), se sigue que hay una probabilidad 1 – α de que dicho estadístico esté
Student con 2, 5, 10 y 30 grados de libertad está comprendido entre± 4,303, ±
ará un estimación precisa deσ
2,571, ± 2,228 y ± 2,042, respectivamente. Así, puede observarse que la
aproximadamente normal. En la Tabla 5 del
dispersión de la distribución t de Student disminuye al aumentar los grados de
de la distribuciónt de Student para distintos Pastor-Barriuso R. 63
libertad, aproximándose a una distribución normal estandarizada (95% de los
valores
Inferencia estadística entre ± 1,96, Ejemplo 3.11).
que indica
media la cobertura
poblacional. del parámetro
En general, poblacional.
la estimación Aunque lleva
por intervalo en la asociada
práctica se
unautilizan casi
exclusivamente
probabilidad los intervalos
o nivel de confianza
de confianza , denotadaalen
95% (α = 0,05),
términos nos referiremos
porcentuales aquí
por 100(1 - αde
)%,
forma
que genérica
indica al intervalo
la cobertura de confianza
del parámetro poblacional. α)% para
al 100(1 - Aunque enlalamedia poblacional.
práctica se utilizan casi
exclusivamente
Utilizando los intervalos
la aproximación deStudent
t de confianza al 95% (α (=x0,05),
al estadístico - μ)/(s/
nos nreferiremos
), se sigue aquí de
que hay
forma
una genérica al1intervalo
probabilidad de dicho
- α de que confianza al 100(1
estadístico - αcomprendido
esté )% para la media
entrepoblacional.
los percentiles
α/2 y 1 - α/2
Utilizando la de una distribución
aproximación t de Student
t de Student con n – 1( xgrados
al estadístico - μ)/(s/
de libertad, denotados
n ), se sigue que hay
-3 -2 -1 0 1 2 3
respectivamente
una probabilidadpor y tn-1,1-
1 - tαn-1,deα/2que dicho α/2;estadístico
esto es,x esté comprendido entre los percentiles
Figura 5.1 Función de densidad
1.2 MEDIDAS de la distribución t de Student con
DE TENDENCIA 2, 5, 10 y 30 grados de libertad,
CENTRAL Figuray 5.1
fun-
ción de densidad normal estandarizada.
α/2 y 1 - α/2 de una distribución
t de Student con n – 1 grados de libertad, denotados
x − μ central informan
Las medidasP t −1α/2 de tendencia
,α / 2 y<1 – α/2 de< t una acerca de cuál es el valor más representativ
/ 2 = 1 − α .t de Student con n – 1 grados
comprendido entre los
respectivamente tn-1,α/2 y tnn-1,1-
porpercentiles ;
α/2 s esto es, distribución
n −1,1−α
por tn–1,α/2 ; esto es,
de libertad, denotados respectivamente
de una
determinada n y tn–1,1–α/2
variable o, dicho de forma equivalente, estos estimadores indican
a distribución simétrica alrededor de 0 y de aspecto
al estandarizada, aunque menos se
Este resultado apuntada en
representa el
alrededor de qué valor
gráficamente x − μenselaagrupan los datos observados. Las medidas de tendencia
P t n −1,α / 2 < < t n −1,1−α / 2 5.2.
Figura =1− Por
α .la simetría de la
s
extremos (Figuradistribución
5.1). Los grados central de
de libertad
t de Student, la
tn-1,αde
/2 =muestra
-t n
sirven
n-1,1-α/2 y la tanto
expresión para resumirpuede
anterior los resultados observados como para
rescribirse
Estecomo
nan su dispersión: alresultado
aumentar selos
representa
realizar
grados gráficamente
de inferenciasenacerca la Figura de los5.2.parámetros
Por la simetría de la distribución
poblacionales t de
correspondientes. A
Este resultado se representa gráficamente en la Figura
Student, tn–1,α/2 = – tn–1,1–α/2 y la expresión anterior puede rescribirse como 5.2. Por la simetría de la
la distribuciónt de Student se aproxima continuación
a una se describen los principales estimadores de la tendencia central de una
distribución t de Student, tn-1,α/2 = -tn-1,1-α/2 y la expresión anterior puede rescribirse
x−μ
Cuanto menor sea el tamaño muestral n, variable.
mayor P −será
t n −1,1−α / 2 < < t n −1,1−α / 2 = 1 − α .
como s
n
t de Media aritmética
1.2.1 s s
P x − t n −1,1−α / 2 < μ < x + t n −1,1−α / 2 =1−α .
Para despejar la media poblacional, se nmultiplica cada término n de la desigualdad por el error
x − μ muestral
(x Para
estándar despejar
− )/(s/ n )y alacontinuación
media
La poblacional,
P − tse
media −1resta
se< multiplica
,1−α / 2 la
naritmética, media
denotada< t n −cada término
1−α / 2 x,,=
1,por αde. lacomo
resultando
se
1 −define desigualdad
que la sumapor de el
cada uno de los
s
Así, elestándar
intervalo de confianza muestrales
(IC) al
y a continuación s 100(1 n- α)% para la media
s depoblacional
xobservaciones viene
precisa deσ s/ nPvalores
ará un estimaciónerror x − t n −1,1−α / 2
sedividida
resta la por
media muestral
el número
< μ < x + t n −1,1−α / 2
, resultando
= 1 − α .
que
realizadas. Si denotamos
n n
determinado pormedia ndel
por5poblacional,
el tamaño se muestral y porcada xi eltérmino
valor observado para el sujeto i-ésimo, i = 1, ..., n,
aproximadamentePara despejar
normal. En la Tabla multiplica de la desigualdad por el10
Así, el intervalo de confianza (IC) al 100(1 – α)% para la media poblacional viene determinado por
de la distribuciónAsí,
t de el intervalo dedistintos
confianzavendría (IC) al 100(1por - α)% spara la media poblacional viene
error Student
estándarparas/ n lay media
a continuacióndada se resta la media muestral x , resultando que
x ± t n −1,1−α / 2 ,
determinado por n
1 n x + x 2 + ... + x n 10
x = xi = 1 .
que depende tanto de la estimación puntual x (valor n i =1 del intervalo) n como de su
s central
64 Pastor-Barriuso R.
tn-1
La distribución tLas
de Student
medidasesdeuna distribución
tendencia centralsimétrica
informanalrededor
acerca dedecuál
0 y es
deelaspecto
valor más representativo
1-α
parecido al de una de
distribución normal variable
una determinada estandarizada,
o, dichoaunque menos
de forma apuntadaestos
equivalente, en elestimadores indican
a distribución simétrica alrededor de 0 y de aspecto
centro y con más probabilidad
alrededor deen losvalor
qué extremos (Figura
se agrupan los5.1).
datosLos grados deLas
observados. libertad de de tendencia
medidas
al estandarizada, aunque menos apuntada en el
una distribución t de Student
central de determinan
la muestra sirven su dispersión:
tanto para alresumir
aumentar loslos grados de
resultados observados como para
α /2
extremos (Figura 5.1). Los grados de libertad de α/2
libertad, disminuyerealizar la variabilidad y la distribución t de Student se
inferencias acerca de los parámetros poblacionales correspondientes. A aproxima a una
nan su dispersión: al aumentar los tn-1,α/2grados de 0 tn-1,1-α/2
distribución normalcontinuación
estandarizada. Cuanto menor
se describen seax el
los principales −μ tamaño muestral
estimadores n,
de mayor
la será central de una
tendencia
la distribuciónt de Student se aproxima a una s
variable. n t de
Figura 5.2
uanto menor sea el tamaño muestral n, mayor será
Student otorgará
Figura 5.2 una mayo muestral del estadístico (x − )/(s/ n ).
Distribución
1.2.1 Media aritmética
t de
el tamaño que muestral
depende Laes media
grande,
tanto de facilitará
s la estimación
aritmética, un estimación
denotada puntual por x ,precisa
(valor
se define deσcomo
central dellaintervalo)
suma de cada como unodedesulos
error
DIDAS DE TENDENCIA CENTRAL
(x − )/(s/ n .)
estándar
distribución1.2 de MEDIDAS
dicho DE TENDENCIA
estadístico será aproximadamente CENTRALnormal. En la Tabla 5 del
Los límitesvalores muestrales
del intervalo estándividida
determinados por el número
por datosdemuestrales
observaciones realizadas. Sieldenotamos
y, en consecuencia, intervalo
didas
ará undeestimación
tendencia central
precisainforman
de σ acerca de cuál es el valor más representativo
ApéndiceLasde confianza
se presentan variará en función de la muestra seleccionada. El principio fundamental de la estimación
medidas por de nloseltendencia
percentiles
tamaño muestral de la informan
central distribución
y por xi el t de Student
acerca
valor de cuál es
observado para distintos
elpara
valor el más
sujeto representativo
i-ésimo, i = 1, ..., n,
por intervalo radica en que, de todas las posibles muestras del mismo tamaño de la población de
determinada
aproximadamentevariablenormal.
o, dichoEn delaforma equivalente, estos estimadores indican
grados dereferencia,
libertad. el 100(1 –Tabla
α)% de5 los delintervalos resultantes incluirá el parámetro poblacional. Así, aunque
de una determinada
la media vendría variable o, dicho
dada por de forma equivalente, estos estimadores indican
no es posible saber si efectivamente un intervalo concreto incluye o no el parámetro desconocido, se
ordedelaqué valor se agrupan
distribución t deuna
Studentlos datos paradel observados.
distintos Las medidas de tendencia
l estudio EURAMIC. tendrá En cadaconfianzaunavalor de las 100(1 – α)% en que el único intervalo disponible esté entre aquellos que
alrededor de qué se agrupan los datos observados. Las medidas de tendencia
contienen dicho parámetro. [Figura En
5.1 otras palabras,1el nivel
aproximadamente n
dexconfianza
aquí] 1 + x 2 + ...de x n intervalo hace referencia a
+ un
de la muestra sirven tanto para resumir los resultados observados x = x i como = para .
mo la frecuencia con la cual el método producenintervalos certeros y no a la probabilidad de que el
n observados
central de la muestra sirven tanto para resumir i =1 los resultados como para
intervalo obtenido en una muestra concreta incluya el parámetro poblacional.
inferencias acerca de los parámetros poblacionales correspondientes. A
.1 realizarobtenidas
inferencias a partir acercade los de controles
los parámetros del estudio EURAMIC.
poblacionales En cada una de
correspondientes. A las
s aproximadamente
Ejemplo aquí]
5.6
s Ejemplo De La la5.7
Tabla
media 5es del
la
En la Figura Apéndice
medida de se obtiene
tendencia que
centralel percentil
más 97,5
utilizada eny una
de más fácil
ación = xse±describen
2,262 los, principales estimadores de 5.3 se presentan
la tendencia centrallos ICde unaal 95% para la media poblacional del
10 10 colesterol
muestras,
continuación HDL
el IC
se describen en
al 100
95% muestras
se calculó
los5,principales aleatorias
como
estimadores de tamaño n =
de laestendencia 10 obtenidas
central de a partir
una de los
distribución de Student
tinterpretación. conCorresponde
2, 10 y 30algrados “centro dede libertad
gravedad” respectivamente
de los datos de la muestra. Su
. controles del estudio EURAMIC. En cada una de las muestras, el IC al 95% se calculó como
Apéndice
s medias ysedesviaciones
tobtiene que típicas
variable. el percentil muestrales.97,5 en una = 2,228 sy t = 2,042.sPor tratarse de
2;0,975 = 4,303, t5;0,975
principal =limitación
2,571, t10;0,975
es
x ±quet 9;0está
, 975
muy30;0,975
=influenciada
x ± 2,262 por, los valores extremos y, en este
edia aritmética 10 10
5, 10 y 30 grados x 1.2.1de libertad es respectivamente
tra se obtuvodistribuciones
= 1,20 Media simétricas
y scaso,
= aritmética
0,30,
puede de talen 0,
no serelunpercentil
fiel reflejo 2,5 decoincide con el central
la tendencia correspondiente
de la distribución.
a aritmética, denotada por x y, se
donde s sondefinelas correspondientes
como la suma de medias
cada yuno desviaciones
de los típicas muestrales. Así, por ejemplo,
= 2,228 y t30;0,975 = 2,042.
donde x y Por
s son tratarse
las de
correspondientes medias
a0;0,975 percentil
media poblacional La media 97,5
de con
colesterol
en la aritmética, signo
primera muestra HDL opuesto;
denotada es
se obtuvo decir,
por x = , set
1,20 =
y s =como
define
2;0,025 0,30,desviaciones
y
-4,303, lat5;0,025
de tal
suma =de
forma típicas
-2,571,
que
cada launo muestrales.
testimación
de los puntual de la
10;0,025
Figura 5.3 Estimaciones puntuales (círculos) e intervalos de confianza al 95% (líneas horizontales) para
la media poblacional del colesterol HDL en 100 muestras aleatorias de tamaño n = 10 obtenidas a partir de
los controles del estudio EURAMIC. La línea vertical en trazo discontinuo corresponde al verdadero nivel
medio μ = 1,09 mmol/l de colesterol HDL.
66 Pastor-Barriuso R.
• El error estándar de la estimación SE( x ) = s/ n . Cuanto mayor sea el error de la
esto es, la media
MEDIDAS DE TENDENCIA poblacional del colesterol HDL se encuentra entre 0,89 y 1,51
CENTRAL
se calcularía como
estimación,
mmol/l con unamayor confianza será del la amplitud
99%. Notar del intervalo. Es decir,eslamás
que este intervalo amplitud
amplio deque
un el
Contraste de hipótesis
Pastor-Barriuso R. 67
tratamiento;
Ejemplo 5.10esEn
decir, la presión
un estudio paraarterial medialade
determinar la población
eficacia tratada con el
de un fármaco
Inferencia estadística
fármaco μT es igual
antihipertensivo, a la medialade
se compara la población
presión arterial no
de tratada μP.deLapacientes
un grupo hipótesistratados
alternativa
hipótesis
con nula.
dichoEnsería,
estepor
fármaco el la
punto,
con contrario,
cabe que las
de unincidir
grupo presiones
en pacientes
de arteriales
que el término
tratados medias
“aceptar”
con ladehipótesis
placebo. ambas
La nula no
implica que dicha hipótesis sea efectivamente cierta, sino que se carece de evidencia suficiente
poblaciones
para rechazarla. son
Como
hipótesis nula másdistintas.
se verá Así,
natural, más eladelante,
en estecontraste de
caso, eslas hipótesis de
la hipótesis quedaría
nunca formulado
pueden
no efecto como
del ser corroboradas
completamente, quedando siempre un margen o probabilidad de error.
tratamiento; es decir, la presión arterial H0: μmedia
T = μP,
de la población tratada con el
Ejemplo 5.10 En un estudio para determinar la eficacia de un fármaco antihipertensivo,
se compara
fármaco la presión
μT es igual a laarterial
mediadedeunlaH grupo de pacientes
población tratados
no tratada μP. Lacon dicho fármaco con la
hipótesis
1: μT ≠ μP.
de un grupo de pacientes tratados con placebo. La hipótesis nula más natural, en este caso,
es la hipótesis
alternativa sería,depornoelefecto del que
contrario, tratamiento; es decir,
las presiones la presión
arteriales mediasarterial media de la
de ambas
La hipótesis nula se aceptará a no ser que los resultados del ensayo clínico
población tratada con el fármaco μT es igual a la media de la población no tratada μP. La
hipótesis alternativa
poblaciones sería, Así,
son distintas. por el contrario,
contraste de quehipótesis
las presiones arteriales
quedaría medias
formulado de ambas
como
muestren una gran diferencia entre los grupos que resulte poco compatible
poblaciones son distintas. Así, el contraste de hipótesis quedaría formulado como con
68 antihipertensivo
Pastor-Barriuso R. sea eficaz.
Los contrates bilaterales son más conservadores que sus correspondientes contrates
Contraste de hipótesis
1.2 MEDIDAS DE TENDENCIA CENTRAL
x − μ0
Distribuci ón de t = bajo H 0 : μ = μ 0
s
n
tn-1
central de la muestra
Figura sirven tanto
5.4 Valor para elresumir
P para losbilateral
contraste resultados
de la observados
media de unacomo para
población.
medidas de tendencia central informan acerca de cuál es el valor más representativo
realizar inferencias acerca de los parámetros poblacionales : μ = 1,
H0correspondientes. A
Ejemplo 5.12 Supongamos que se pretende contrastar si la media poblacional del
na determinada variable o, dicho de forma equivalente, estos estimadores indican
colesterol
continuación se describen HDL en los
los principales controles del
estimadores de laHEURAMIC es igualdea una
: μ ≠ 1. central
1tendencia 1 mmol/l mediante el test de
hipótesis bilateral
edor de qué valor se agrupan los datos observados. Las medidas de tendencia
variable.
Para ello, se obtiene una muestra de H 0 : μ = 1,
tamaño n = 10 donde la media y desviación
al de la muestra sirven tanto para resumir los resultados observados H1 : μ ≠ 1. como para
1.2.1 Media aritmética típica resultaron ser x = 1,20 y s = 0,30 mmol/l. A partir de estos datos se calcula
zar inferencias acercaPara
de los parámetros
ello, se obtiene poblacionales
una muestracorrespondientes.
de tamaño n = 10Adonde la media y desviación típica
La media aritmética, resultaron
denotada
el estadístico por x ,=contraste
ser del se1,20 ys=
define 0,30lammol/l.
como suma de A cada
partiruno
de estos
de losdatos se calcula el estadístico
Para
nuación se describen del ello, se obtiene
los contraste
principales una muestra
estimadores de tamañocentral
de la tendencia n = 10 de donde
una la media y desviación
valores muestrales dividida por el número de observaciones realizadas. Si denotamos
ble. típica resultaron ser x = 1,20 xy − ,20 − 1 A partir de estos datos se calcula
s =μ 00,301mmol/l.
t= = = 2,11,
por n el tamaño muestral y por xi el valor observado para s 0,30 i-ésimo, i = 1, ..., n,
el sujeto
el estadístico del contraste n 10
Media aritmética
la media vendría dadaque pordetermina la diferencia estandarizada (dividida por el error estándar) entre la media
que determina
por x ,yse
muestral ella diferencia
valor predeterminadox − μ 0 μ cada
estandariza − 1 de
1,20 uno
(dividida porlos
el error estándar) entre la
edia aritmética, denotada define como t =la suma de =0. La distribución
= 2,11,muestral de este estadístico bajo
la hipótesis 1nula n H : μ = 1 seguirá s 0,30
0 x1 + x 2 + ... + xaproximadamente una t de Student con 9 grados de
–n1 n n
es muestrales dividida media
por el (n
libertad x =
muestral
número x
= dex
10 y=el valor
i observaciones predeterminado
– 1 = 9). nAsí, sirealizadas..
la hipótesis μ10
Si. La distribución
fuera ciertamuestral
denotamos
0 nula (esto es, de este
si la verdadera
i =1
media poblacional fuera 1 mmol/l), la probabilidad de obtener una muestra de 10 sujetos
el tamaño muestral ycon poruna
que xi elmedia
estadístico
determinavalor
bajola deobservado
hipótesispara
ladiferencia
colesterol nulaelHsujeto
superior 0: o
estandariza μ igual
i-ésimo,
a 1,20ipor
=(dividida
1 seguirá =mmol/l
1,el..., n,
aproximadamente
(mayor
error una
o igual
estándar) tdesviación
entredela que
La media es la medida de tendencia
la observada por lacentral
derecha)másoutilizada
inferior oy de mása fácil
igual 0,80 mmol/l (mayor o igual desviación
edia vendría dada porquemedia la observada
Student con 9 grados
muestral xpor
y ella izquierda)
devalor
libertad (nsería
- 1 = 10 - μ10.=La
predeterminado 9).distribución
Así, si la hipótesis
muestral nula fuera
de este
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su
cierta (esto es, sixla +verdadera + media
x n H0: poblacional
1 n bajo
estadístico x 2 + ... nula
la1 hipótesis μ = 1 seguiráfuera 1 mmol/l), la probabilidad
aproximadamente una t de
principal limitación es que x =está
n
muy
x i = influenciada
n
por los
. valores extremos y, en este
de obtener una muestra de 10 sujetos con una media de colesterol superior o igual
70 Pastor-Barriuso R. i =1
inferior o igual a 0,80 mmol/l (mayor o igual desviación que la observada por la
Contraste de hipótesis
izquierda) sería
P = P( x ≥ 1,20 | H0 ) + P( x ≤ 0,80 | H0 )
x − μ 0 1,20 − μ 0 x − μ 0 0,80 − μ 0
= P ≥ H 0 + P ≤ H0
s s s s
n n n n
fueronHDL
n los valores del colesterol estadísticamente
P =en
caso,
obtenidos significativos
2P(t
puede no
los9910 ser un≈(P
≥ 2,90)
primeros =
2{1
fiel 0,005),
reflejo
sujetos aportando
- Φ(2,90)}
de
del suficiente
la=tendencia
0,004. centralevidencia
de la distribución.
En este caso, aunque la diferencia entre el valor predeterminado y la media
Inferencia estadística
La realización de una prueba de hipótesis presenta la misma estructura básica para todos los
parámetros. En general, se calcula primero un estadístico del contraste, cuyo numerador
corresponde a la diferencia entre el valor observado en la muestra y el valor esperado bajo la
hipótesis nula, y cuyo denominador representa la variabilidad o error estándar de la estimación.
El valor P se obtiene entonces como la probabilidad de obtener un valor del estadístico tanto o
más extremo que el observado en el estudio, asumiendo que la hipótesis nula es cierta.
El contraste de hipótesis para un determinado parámetro está relacionado con su
correspondiente intervalo de confianza. Si se contrasta la hipótesis nula H0: μ = μ0 frente a
la hipótesis alternativa bilateral H1: μ ≠ μ0, el resultado será estadísticamente significativo
para un nivel α = 0,05 si el IC al 95% para μ no incluye el valor μ0. Por el contrario, este
contraste no resultará estadísticamente significativo si el IC al 95% para μ contiene al valor
μ0. No obstante, ambos métodos facilitan 1.2 MEDIDAS
información DEcomplementaria.
TENDENCIA CENTRAL El intervalo de
confianza aporta una medida de la magnitud y precisión en la estimación del parámetro,
aunque no facilita el valor exacto de P Las o elmedidas
grado dedecompatibilidad
tendencia centralconinforman
una hipótesis
acercanula
de cuál es el valor
de interés. El valor P sí determina la compatibilidad de los datos con una determinada
hipótesis, pero no facilita una medida de de la
unamagnitud del parámetro
determinada variable o, odicho
asociación
de formaobjeto de
equivalente, estos esti
estudio. En general, el uso de los contrastes de hipótesis como forma exclusiva de presentar
los resultados de un estudio está siendo ampliamente
alrededor cuestionado
de qué valor se agrupan enlosla datos
actualidad. La Las medidas
observados.
presentación de los resultados de un estudio ha de consistir fundamentalmente en el
estimador puntual y el intervalo de confianza,
central dequela pueden
muestra completarse con el
sirven tanto para P deresultados
valor los
resumir la observa
hipótesis correspondiente.
realizar inferencias acerca de los parámetros poblacionales correspon
Ejemplo 5.14 En la primera muestra de tamaño n = 10 del Ejemplo 5.7 se obtuvo una
media de 1,20 mmol/l y una desviación típica de
continuación se0,30 mmol/l,
describen losde tal formaestimadores
principales que el IC alde la tendencia
95% para la media poblacional del colesterol HDL resultó ser (0,99; 1,41). Estos mismos
datos muestrales se emplearon en elvariable.
Ejemplo 5.12 para el contraste bilateral de la hipótesis
nula H0: μ = 1, obteniendo un valor P de 0,064. Ambos resultados son consistentes dado
que el IC al 95% incluye el valor preestablecido de 1 mmol/l para la hipótesis nula y, por
1.2.1 Media aritmética
tanto, el contraste no resulta estadísticamente significativo para un nivel α = 0,05.
En el Ejemplo 5.9, a partir de unaLamuestra
media aritmética, n = 100 con
de tamaño denotada por x ,=se1,09 mmol/l
define comoyla suma de cada
s = 0,31 mmol/l, se obtuvo un IC al 95% para la media poblacional del colesterol HDL de
valores muestrales
(1,03; 1,15). El correspondiente contraste de H0: μ = 1dividida
frente apor
H1:elμnúmero de observaciones
≠ 1 se realizó en el realizada
Ejemplo 5.13, resultando un valor P de 0,005. En este caso, el valor 1 mmol/l queda fuera
de los límites de confianza al 95%por ny,elen
tamaño muestral ylos
consecuencia, xi el valor observado
porresultados para el sujeto i-é
del test son
estadísticamente significativos.
la media vendría dada por
5.4.3 Errores y potencia de un contraste de hipótesis
1 n x + x 2 + ... + x n
x = xi = 1 .
Como se comentó anteriormente, las hipótesis nunca pueden ser corroboradas n i =1 completamente,
n
quedando siempre un margen o probabilidad de error. La elección entre las hipótesis nula y
alternativa conlleva a alguna de las situaciones presentadas en la Tabla 5.1. Si se acepta la
hipótesis nula cuando ésta es cierta, o si seLarechaza
media la
es hipótesis
la medidanula
de tendencia
cuando lacentral más utilizada
alternativa es y de más
cierta, se habrá tomado una decisión correcta. Sin embargo, es posible cometer alguno de los
siguientes tipos de error en un contraste interpretación.
de hipótesis: Corresponde al “centro de gravedad” de los datos de l
principal limitación es que está muy influenciada por los valores extr
72 Pastor-Barriuso R.
caso, puede no ser un fiel reflejo de la tendencia central de la distribu
Contraste de hipótesis
P(error de tipo I) = P(rechazar H0 | H0 cierta)
P(error de tipo I) = P(rechazar H0 | H0 cierta)
= P(t ≥ tn-1,1-
Tabla 5.1 Resultados α/2 | H0 en
posibles cierta) + P(t ≤ tn-1,
un contraste /2 | H0 cierta)
deαhipótesis.
==P(t n-1,1-α/2 | H0 cierta)
P(t≥ t≥ t ≤+t P(t ≤) t=n-1,αα/2
) + P(t Realidad /2 | H0 cierta)
+ α/2 = α,
n-1 n-1,1-α/2 n-1 n-1,α/2
Decisión H0 cierta H1 cierta
Aceptar H0 = P(tn-1 ≥ tn-1,1-Correcto α/2) =deαtipo
α/2) + P(tn-1 ≤ tn-1,Error /2 +II α/2 = α,
es decir, la probabilidad
Rechazar H0
de cometer un error de
Error de tipo I
tipo I viene determinada
Correcto
de
esantemano
decir, la probabilidad
por el nivel dedesignificación
cometer un αerror . Así,depor tipo I vienepara
ejemplo, determinada
un test condeun
yy El error de tipo I consiste en rechazar la hipótesis nula cuando ésta es, en realidad, cierta.
Como
antemano
nivel de se significación
comentó
por el nivel anteriormente,
de
α =significación α. Así,
0,05, laelprobabilidad
nivel por incurrir αenpara
de significación
de ejemplo, seunutiliza
un test
error para
de con
tipoclasificar
un
I los
resultados obtenidos en un test como significativos si el valor P ≤ α, en cuyo caso se
rechaza
nivel
seráde la0,05;
hipótesis
delsignificación esto es,nula, ohipótesis
αsi=la0,05, como nonula
significativos
la probabilidad es cierta, de éstasi Pse>rechazará
incurrir α,
en enun cuyo
error caso
de tipose acepta
erróneamente I la
hipótesis nula. Con esta regla de decisión, puede comprobarse a partir de la Figura 5.4 que
en un
será del 5%
0,05; de esto
los contrastes de hipótesis realizados
es cierta, sobre todas las posibles
P(error de tipoes, I) =si P(rechazar
la hipótesis nula
H 0 | H 0 cierta)
ésta se rechazará erróneamente
= P(t ≥ tn 1,1 α /2 | H 0 cierta) + P(t ≤ tn 1 ,α /2 | H 0 cierta)
enmuestras
un 5% de dellos mismo tamaño.
contrastes de hipótesis realizados sobre todas las posibles
EDIDAS DE TENDENCIA CENTRAL = P(tn 1 ≥ tn 1,1 α /2 ) + P(t n 1 ≤ t n 1 , α /2 ) = α /2 + α /2 = α ;
muestras
es decir, la delprobabilidad
mismo tamaño. delos cometer un error de tipo I viene determinada
Ejemplo 5.15 A partir de controles del EURAMIC se obtienen 1000de antemano por
muestras
didas de tendencia central informan acerca de cuál es el valor más representativo
el nivel de significación α. Así, por ejemplo, para un test con un nivel de significación
α aleatorias
= 0,05, la deprobabilidad
tamaño nde= los
10 dey,incurrir
en cadaen una undeerror
ellas,desetipo I será
realiza del 0,05;deesto es, si la
el contraste
esEjemplo
determinada variable o, dicho
decir,
hipótesis la5.15
de A
forma
probabilidad
nula
partir
equivalente,
es cierta, de
ésta
controles
se estos
cometer un
rechazará
del
errorEURAMIC
estimadores de tipoindican
erróneamente I se obtienen
viene 1000 muestras
en undeterminada de
5% de los contrastes de
hipótesis
hipótesisrealizados
bilateral para sobre la todas
medialas posibles muestras
poblacional del mismo
del colesterol HDL tamaño.
aleatorias
or de qué valor se agrupan losde tamaño
datos n = 10 y,
observados. Las enmedidas
cada una dede ellas, se realiza el contraste de
tendencia
antemano por el nivel de significación α. Así, por ejemplo, para un test con un
Ejemplo 5.15 A partir de los controles del EURAMIC se obtienen 1000 muestras
de la muestra sirvenhipótesis
tanto para
aleatorias bilateral
resumir
de tamaño para la=media
los nresultados
10 y, en H0: μuna
poblacional
observados
cada = 1,09,
delellas,
como
de colesterol
para HDLel contraste de hipótesis
se realiza
nivel de significación α = 0,05,
bilateral para la media poblacional del colesterol HDL la probabilidad de incurrir en un error de tipo I
inferencias acerca de los parámetros poblacionales correspondientes. H1: μ ≠ 1,09, A
H0 : μ = 1,09,
será del 0,05; esto es, si la hipótesis nula es cierta, ésta se rechazará erróneamente
ación se describen los principales estimadores de la tendencia H1 : μ ≠central
1,09, de una
mediante el estadístico
en En
un este
5% de
mediante
ejemplo
ellos
ilustrativo,de
contrastes
estadístico
la hipótesis
hipótesis nula es ciertasobre
realizados ya que la media
todas poblacional
las posibles
e.
del colesterol HDL tamaño.
en el grupo control x − 1,09 es efectivamente μ = 1,09
mediante
muestras delel estadístico
mismo t = del EURAMIC ,
Media aritmética s
mmol/l. Por lo tanto, se tomó la decisión correcta 10 de aceptar H0 en el 94,4% de las
x − 1,09
donde
ia aritmética, denotada
Ejemplo por 5.15x ,yses A son
definelascomo
partir correspondientes
de los la suma
controlesde medias
t =cadadeluno yde,desviaciones
EURAMIC los típicas muestrales.
se obtienen 1000 muestras En cada
muestras
donde x se
muestra, yy se rechazo
scalcula
son P como elHmedias
erróneamente
laselcorrespondientes
valor áreas bajo
0 (error ydedesviaciones
latipo
curvaI) en
de el restante
latípicas 5,6%, t9 que
muestrales.
distribución para valores
10
muestrales dividida por
tanto
aleatoriasel onúmero
más
de de observaciones
distantes
tamaño n de
= 0 que
10 y, enelrealizadas.
valor una
cada Si
observado denotamos
de se
designificación
ellas, t, yrealiza
se decide rechazar ladehipótesis
el contraste
concuerda
En cada
nula ≤casi
si Pmuestra, 0,05. perfectamente
se calcula
Así, elcon
la hipótesis valor elnula
nivel
P se de
como el áreaenbajo
aceptó la αcurva
un 94,4% = 0,05
dedelas
la muestras (944 de
tamaño muestral ydonde
por
1000)xi elxyvalor observado
ysesrechazó
son las en unpara
5,6%
correspondientes el (56
sujeto i-ésimo,
1000). yi desviaciones
de medias = 1, ..., n, típicas muestrales.
hipótesis bilateral
preestablecido parael la media
contraste. poblacional del colesterol HDL
distribución t9 para valores tanto o más distantes de 0 que el valor observado de t,
En este ejemplo ilustrativo, la hipótesis nula es cierta ya que la media poblacional del
a vendría dada por En cada muestra, se calcula el valor P como el área bajo la curva de la
colesterol HDL en el grupo control del EURAMIC es efectivamente μ = 1,09 mmol/l. Por
y se decide rechazar la hipótesis nula H0:siμ P ≤1,09,
0,05. Así, la hipótesis nula se aceptó
• Ello error
tanto, de se tipo
tomóIIlaconsiste
decisiónencorrecta
aceptar de=
la aceptar H
hipótesis 0 encuando,
nula el 94,4% de las muestras
en realidad, es y se
distribución
1 n
rechazó erróneamentet 9 para
x + valores
x + ... + tanto
x
H0 (error o más distantes de 0 que el valor
de tipo I) en el restante 5,6%, que concuerda casiobservado de t,
en
x =un 94,4%
perfectamente
x i =de1 las muestras
con el
2
El balance
entre 1991 yentre1992lasenprobabilidades
ocho países de un error
Europeos e de tipo
Israel para I yevaluar
tipo II el puede
efecto observarse
los en
μ0 − z1−α / 2σ / n μ0 + z1−αde
/ 2σ / n
aumenta, disminuye
predeterminado β. En la práctica,
(típicamente α = 0,05)laeestrategia
intentar minimizar o, deαforma
habitual esβ fijar en el nivel
equivalente,
74 Pastor-Barriuso R.
predeterminado (típicamente
maximizar la potencia α =contraste.
1 - β del 0,05) e intentar
Para α minimizar β o, dedeforma
fijo, la potencia equivalente,
1 - β depende de la
TENDENCIA CENTRAL
μ0 -de
dencia central informan acerca α/2σ/es n
z1-cuál μ0 +
< x <más
el valor z1-αvariable.
/2σ/ n ;
representativo Contraste de hipótesis
predeterminado
edida de tendencia(típicamente α = 0,05)y edeintentar
central más utilizada minimizar βestudio
más fácil o, de forma equivalente,
“European Study on Antioxidants, Myocardial Infar
esponde al “centro
maximizar de gravedad”
la potencia 1 - β deldecontraste.
los datos Para
de la α
muestra.
fijo, laSu
potencia de 1 - β
the Breast“ (EURAMIC),
depende de un
la estudio multicéntrico de casos
α/2 β α/2
es que está muy influenciada por los valores extremos y, en este entre 1991 y 1992 en ocho países Europeos e Israel para ev
μ μ0 − z1 σ/ n μ μ0 + z
1−α / 2 σ/ n 0 1−α / 2
~ N ( μ , σ 2 / n)
H1 : x → ~ N ( μ , σ 2 / n)
H0 : x → 26
n este y en los sucesivos ejemplos sobre estimadores muestrales, se
1 0
μ1 μ0 − z1−α / 2σ / n5 μ0 μ0 + z1−α / 2σ / n
(b)
Figura 5.6 Errores de tipo I y II para una mayor diferencia μ0 – μ1 (a) y para un mayor tamaño muestral n (b).
Figura 5.6
Pastor-Barriuso R. 75
S DE TENDENCIA CENTRAL
Inferencia estadística
superposición
e tendencia central informan de las distribuciones
acerca nula ymás
de cuál es el valor alternativa de x , que está a su vez
representativo
ritmética • yyEl
Elerror
error estándar
estándar σ / n . Al Al aumentar
aumentareleltamaño muestraln,n,disminuye
tamañomuestral disminuye el el
error estándar de la
error
media muestral y, en consecuencia, la variabilidad de las distribuciones nula y alternativa de
x .,Así,
mética, denotada por estándar para
de laun
se define comonivellamuestral
media de significación
suma de y,
cada α predeterminado,
uno de los
en consecuencia, la potencia
la variabilidad de del
las contraste aumenta
conforme aumenta el tamaño de la muestra (Figura 5.6(b)). Esta relación puede utilizarse
ales dividida por el número
tanto para de observaciones
distribuciones calcular realizadas.
nula ylaalternativa
potencia de
deun xSi denotamos
.contraste
Así, parauna vez determinado
un nivel el tamaño
de significación α muestral,
como para estimar a priori el tamaño muestral necesario para una determinada potencia.
o muestral y por xi elpredeterminado,
valorúltimo
Este observado
puntolapara
se el sujeto
discutirá
potencia i-ésimo,
delcon mayoridetalle
contraste = 1, ...,enn,conforme
aumenta el Tema 9 aumenta
de determinación
el tamañodel tamaño
muestral.
ía dada por de la muestra (Figura 5.6(b)). Esta relación puede utilizarse tanto para calcular la
Ejemplo 5.16 A partir de los controles del EURAMIC se obtienen 1000 muestras
potencia
1 aleatorias
n
xde+de
un contraste
+ ... + x nn una
x 2 tamaño = 10,vez25determinado
y 100 y, enelcada tamaño unamuestral,
de ellas, como para el contraste
se realiza
x = xi = 1 .
n i =bilateral
1
de lasn hipótesis nulas H0: μ = 1 y 1,05 mmol/l para la media poblacional del
estimar a priori
colesterol HDL. el Para
tamaño cada muestral
muestranecesario paraeluna
y contraste, determinada
valor potencia.
P se calcula según Este
los métodos
del Apartado 5.4.2 y la hipótesis nula se rechaza si P ≤ 0,05. En la Tabla 5.2 se presenta
último
la medida de tendencia puntomás
central
el porcentaje se discutirá
utilizada
de muestras con
y demayor detalle en significativos
más resultados
con fácil el Tema 9 de determinación del tamaños
para los distintos
muestrales e hipótesis nulas.
tamaño
Corresponde al “centro muestral. de los datos de la muestra. Su
de gravedad”
En este caso, ambas hipótesis nulas son falsas dado que la verdadera media del colesterol
ación es que está muyHDL en los controles
influenciada del estudio
por los valores EURAMIC
extremos es 1,09 mmol/l. Así, los porcentajes de la
y, en este
Tabla 5.2 representan [Figuravalores empíricos de la potenciaaquí]
5.6 aproximadamente de cada contraste. Para una desviación
subyacente de μ – μ = 1,09
ser un fiel reflejo de la tendencia central0 de la distribución.– 1 = 0,09 mmol/l entre el verdadero nivel medio de colesterol
HDL y el valor nulo, la potencia resultó ser del 11,2% para n = 10, 26,9% para n = 25 y
85,7% para n = 100. Para una desviación de μ – μ0 = 1,09 – 1,05 = 0,04 mmol/l, la potencia
Ejemplo
se redujo5.16
1.4 En este y en los sucesivos A 5,0%
ejemplos
a un partir de los
sobre
para controles
estimadores
n= 10, 8,0% del EURAMIC
muestrales,
para n = 25 se yse obtienen
23,0% para1000 muestras
n = 100. Como puede
apreciarse, sólo se alcanza una potencia aceptable para detectar una diferencia de 0,09
aleatorias
n los valores del colesterol
mmol/l HDL de obtenidos
con tamaño
un tamaño n en
= muestral
10,los25
10yprimeros
100100,
de y, enmientras
cada una
sujetos del desería
que ellas,necesaria
se realizaunael muestra mayor
para poder detectar una diferencia de 0,04 mmol/l.
contraste
European Study on Antioxidants, bilateral de las hipótesis
Myocardial Infarction nulas 0: μ = 1of
andHCancer y 1,05 mmol/l para la media
5.5 REFERENCIAS
st“ (EURAMIC), unpoblacional del colesterol
estudio multicéntrico HDL.yPara
de casos realizadoy contraste, el valor P se
cada muestra
controles
1. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
calcula
91 y 1992 en ocho países según los
Europeos
Englewood
métodos
e Israel
Cliffs, paradel Apartado
evaluar
NJ: Prentice
5.4.2de
Hall,el1977.
efecto loshipótesis nula se rechaza si P ≤
y la
2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole,
2001. 5
3. Colton T. Estadística en Medicina. Barcelona: Salvat, 1979.
27
76 Pastor-Barriuso R.
Referencias
4. Lehmann EL. Testing Statistical Hypotheses, Second Edition. New York: Springer Verlag,
1997.
5. Lehmann EL, Casella G. Theory of Point Estimation, Second Edition. New York: Springer
Verlag, 1998.
6. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999.
7. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia:
Lippincott Williams & Wilkins, 2008.
8. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State
University Press, 1989.
9. Stuart A, Ord JK, Arnold S. Kendall’s Advanced Theory of Statistics, Volume 2A, Classical
Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.
Pastor-Barriuso R. 77
TEMA 6
6.1 INTRODUCCIÓN
En el presente tema se revisan las técnicas básicas de inferencia a partir de datos de carácter
cuantitativo. En la mayor parte de las ocasiones, la inferencia sobre variables cuantitativas se
centra en el estudio de parámetros subyacentes tales como la media y la varianza poblacional.
A partir de los datos obtenidos en muestras aleatorias y utilizando los principios de inferencia
descritos en el tema anterior, se pretende dar respuesta a los siguientes tipos de problemas:
yy La estimación de la media y la varianza de una población.
Ejemplo 6.1 Supongamos que los controles del estudio EURAMIC constituyen una
muestra representativa de la población de referencia del estudio. A partir de los valores de
colesterol HDL obtenidos en los controles, ¿cuál es la estimación y el intervalo de
confianza al 95% para la media y la varianza del colesterol HDL en la población de
referencia? ¿Son estos datos muestrales compatibles con una verdadera media poblacional
de 1 mmol/l?
Ejemplo 6.3 En un estudio de casos y controles sobre el efecto del colesterol HDL en
el riesgo de desarrollar infarto de miocardio, cada caso se emparejó por grupo de edad y
sexo a un control libre de la enfermedad. En este caso, las medias de colesterol HDL de
los casos y de los controles no pueden analizarse como medidas procedentes de muestras
independientes, ya que es esperable un cierto grado de correlación entre los valores de
Pastor-Barriuso R. 79
Inferencia sobre medias
colesterol HDL en cada pareja caso-control. ¿Cómo contrastar entonces si existe una
asociación significativa entre el nivel de colesterol HDL y la ocurrencia de un infarto de
miocardio?
Para evaluar la eficacia de un fármaco antihipertensivo, se seleccionaron 50 pacientes
hipertensos y se administró a todos ellos dicho fármaco durante 4 semanas. La presión
arterial sistólica de cada paciente se determinó tanto al comienzo del estudio como
después de las 4 semanas de tratamiento. En tal caso, los valores medios de presión arterial
antes y después del tratamiento no son independientes, ya que los datos recogidos en un
mismo paciente están correlacionados. En estas circunstancias, ¿cómo estimar la reducción
media de presión arterial sistólica al administrar dicho tratamiento?
1.2 MEDIDAS DE TENDENCIA CENTRAL
Para cada uno de estos problemas, se facilitan las técnicas de inferencia apropiadas para
Las medidas
obtener estimaciones puntuales y por intervalo de tendencia
del parámetro central objeto
poblacional informan acerca deasícuál es el valor
de estudio,
como para el contraste de hipótesis preestablecidas. Estos procedimientos van a permitir inferir
de una determinada
los resultados del estudio al ámbito poblacional variable
de forma clara o, dicho de forma equivalente, estos estim
y sucinta.
χ2
grados de libertad,
chi-cuadrado aumenta
determinan su la media ycentral,
tendencia la varianza de la distribución yaldisminuye su
6 del Apéndicedispersión y asimetría: aumentar
de la los
5
distribución muestral de este estadístico está comprendido entre los percentiles α/2
α/2 6.1
Figura de laFunción
distribución chi-cuadrado
de densidad con n - 1chi-cuadrado
de la distribución grados de libertad,
con 1, 2, 3denotados χ n −1,α / 2
porlibertad.
y 5 grados de
y1-
2 Figura 6.1
y χ n −1,1−α / 2 ,
2
1.2 MEDIDAS DE TENDENCIA CENTRAL
yα /2 2de la distribución chi-cuadrado con n - 1 grados 2de2 libertad, denotados por χ n2−1,α / 2
Aχ partir de
n −1,1−α / 2 ,
la distribución χ 2
n–1 del estadístico (n – 1)s /σ resulta sencillo calcular un intervalo
de confianza para la varianza Las medidas
poblacional. (n − 1El de tendencia
) s 100(1
2 – α)% central
de lainforman
distribución acerca de cuáldeeseste
muestral el valor más repre
y χ 2
, P χ 2
< < χ 2
= 1 − α .
estadístico
n −1,1−αestá
/ 2 comprendido entre los percentiles σ12)2s 2 α/2 y 1 – α/2 de la distribución chi-cuadrado
n −1,α / 2 n − 1 ,1 − α / 2
diferencia de los intervalos de confianza para μ, que están centrados alrededor de x , los
la media vendría
2 (n dada
− 1) s 2por
χ =
2
, 6
σ 0
1 n x + x 2 + ... + x n 6
x = xi = 1 .
que bajo H sigue una distribución chi-cuadrado con n - 1 n i =1 de libertad. Así,
grados n el
82 Pastor-Barriuso R. 0 6
84 Pastor-Barriuso R.
Comparación de medias en dos muestras independientes
Tratamiento Placebo
μ trat μ plac
(a) Efecto constante
Tratamiento Placebo
6.3.1 Comparación de medias en distribuciones con igual varianza
Si se asume que las varianzas poblaciones son iguales σ 12 = σ 22 , resulta natural estimar
(n1 − 1) s12 + (n 2 − 1) s 22
s2 =
n1 + n 2 − 2
n1 n2
( xi − x1 ) 2 + ( x j − x 2 ) 2
i =1 j =1
= .
n1 + n 2 − 2
El numerador de s2 es simplemente la suma de las desviaciones al cuadrado respecto de la
El numerador
media de s2 yeselsimplemente
de cada grupo, la corresponde
denominador suma de las desviaciones
al número dealgrados
cuadrado respectopara
de libertad de el
cálculo de este estimador: n1 – 1 grados de libertad en la primera muestra y n2 – 1 en la segunda,
(n1 la media
– 1) + (n2de– cada
1) = ngrupo, y el denominador corresponde al número de grados de libertad
1 + n2 – 2.
la diferencia
distribución detmedias
En la distribución dex1 Student
poblacionales
x 2 − ( μcon
−muestral 1 − denμ1la + n~μ 2 1– -2μgrados
2 ) diferencia
2 comode libertad,
de medias, las varianzas desconocidas σ12 y σ22
→ t n1 + n2 − 2 .
pueden entonces sustituirse
de la diferencia de medias 1 por ya 1 la noestimación
será normal, combinada
sino quede la varianza
seguirá s2. Sin embargo,
aproximadamente unacomo
s
esta estimación s está sujeta al error + del muestreo, la~1distribución de la diferencia de medias ya
n1 x1n−2 xx12 −± xt 2n1 +−n2(−μ2,11−−α /μ2 2s) →
2
1
nodistribución
será normal,t de sinoStudent
que seguirá t n1 + n2 − 2, .
+ t de Student con n1 + n2 – 2
conMEDIDAS
1.2 naproximadamente
1 + n2 – 1 2 DE grados
1 TENDENCIA una
de distribución
n1libertad, n 2 CENTRAL
grados de libertad,
1.2 MEDIDAS DE TENDENCIAn1CENTRAL s +
n2
A partir de este resultado, y siguiendo un procedimiento análogo al1.2
1.2 MEDIDAS utilizado
MEDIDAS para una
DE TENDENCIA
DE TENDENCIA
que está centrado alrededorLas de medidas − x 2 −de( μtendencia
lax1diferencia 1de μ 2 ) ~central
− medias muestrales informan y cuyaacerca amplitudde cuál CENTRALes el CENTRAL
valor más represen
Las medidas de tendencia central informan → t n1 + n2 − 2 .
media (Apartado 5.3.2),
A partir depuede derivarse
este resultado, un intervalo
y siguiendo 1 un 1 acercaalde100(1
de confianza
procedimiento
cuál es
análogo - αel )% valor más representativo
al para
utilizado para una
de una determinada s + variable o, dicho detendencia
forma equivalente, estos estimadores indic
depende de su error estándar SE( x1 - xn2 1) = sn 2 1 / n1 + 1 / n 2 . Notar que este central Las medidas
Las medidas de de tendencia intervalocentral
informan
es informan acerca acerca
de cuál de es
c
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
la diferencia demedia
medias poblacionales
(Apartado 5.3.2),μalrededor1 - μ2 como
puede derivarse
de un un
quéprocedimiento
valor intervalo
se unaagrupan de confianza
los datos 100(1 - α)%
alobservados. Las para medidas de tendencia
A partir de este resultado, y siguiendo de dedeterminada
una
análogo determinadaal variable
utilizado variable
o,
paradichoo,
una dicho
de forma
media de forma
equivalente,
equivale
una generalización
alrededor de puedebastante
qué valor natural
se agrupan del intervalo
los datos para la media de una poblacional.
(Apartado
Alapartir 5.3.2),
de este deresultado, derivarsey siguiendo un intervalo μun deobservados.
procedimiento confianzaanálogo alLas100(1medidas α)%depara
al– utilizado tendencia
la diferencia
para una
diferencia medias poblacionales
central de la 1 - μ2 como
muestra sirven
alrededor tanto
alrededor de paraqué deresumir
valor
qué valor
se los resultados
agrupan
se agrupanlos datosobservados
los datos como Las
observados.
observados par
de medias poblacionales μ1 – μ2 como 1 1
x 1 − x 2 ± t
central de la muestra sirven tanto paran + n − 2 ,1 −α / 2 s + resumir , los resultados observados como para
del - α)% para
1 2
media (Apartado
Ejemplo 6.7 En 5.3.2),el estudiopuedeEURAMIC, derivarse n1 un nla2intervalo
media y la dedesviación
confianza típica al 100(1
realizar inferencias acerca central de 1los
central
de la parámetros
1demuestra
la muestra poblacionales
sirven sirven
tantotanto paracorrespondientes.
resumir
para resumir los A
los resultadosresul
realizar inferencias acercax1de− los x 2 ±parámetros
t n1 + n2 − 2,1−α / poblacionales
2 s + , correspondientes. A
colesterol HDL
la diferencia los nca = 462 μcasos
entrepoblacionales - μ2decomo infarto 1 de n
ncuya miocardio fueron x ca =
que está centrado alrededorde demedias
la diferencia continuación de medias se1muestrales
describen realizarlos principales
yrealizar amplitud
2
inferenciasinferencias estimadores
acerca de losdeparámetros
acerca la
lostendencia
parámetros central
poblacionales de unc
poblacion
continuación se describen los principales
que está centrado alrededor de la diferencia de medias muestrales y cuya amplitud depende de estimadores de la tendencia central de una
0,98 y sca = 0,25 mmol/l, y entre los nco = 539 controles fueron seyxdescriben
co = 1,09 y sco =
que está
depende de su error centrado
estándar x1 − xvariable.
SE(alrededor 2 ) =de s la1 /diferencia
n1 + 1 / n 2 de continuación
medias
. Notar continuación
1 muestrales
que este1 se describen
intervalo cuya es unalos principales
amplitudlos principales
generalización estimadores
estimadores de la dt
variable.
bastante natural del intervalo para x 1 − x
la2media ± t n1 + nde 2 − 2 ,una s
1−α / 2población. + ,
0,29 mmol/l. De estos datos se deduce que la n1 n 2 puntual de la diferencia
estimación
una generalizacióndepende de sunatural
bastante error estándar
del1.2.1 intervalo SE(
Media xpara xla
1 - aritmética = s variable.
2 ) media / n1una
1 de variable. n 2 . Notar que este intervalo es
+ 1 /poblacional.
Ejemplo
1.2.1
en el Media
nivel 6.7 En el
aritmética
medio deestudio
colesterol EURAMIC, HDL es la x camedia
- x co y=la0,98 desviación
- 1,09 =típica -0,11del colesterol
mmol/l. Si HDL
que está
entre centrado
los n
una generalización ca = alrededor
462 casosLa de
media
de la diferencia
infarto
bastante natural del intervalo aritmética,
de de
miocardio medias
denotada
1.2.1
para fueron
1.2.1
Media muestrales
por Media
la media x , se
=
aritmética
ca de 0,98 y
define cuya
aritmética y s
como
una poblacional.
ca
amplitud
= la
0,25 suma
mmol/l, de cada y uno de los
Ejemplo 6.7La En el
media
entre estudio
los naritmética, EURAMIC,
= 539 controles denotada la
fueronmedia
por x co, se y la
= 1,09 desviación
define y scomo = 0,29 típica
la suma del
mmol/l. de De cada unodatos
estos de los se deduce
asumimoscouna misma variabilidad del colesterolco HDL en casos y controles, la
que ladeestimación
depende su error estándar valores
puntual de muestrales
SE(laxdiferencia
1 - x 2 ) = en dividida
s La el nmedia
1 /nivel por
1 La
+ 1medio el
media número
/ aritmética,
n 2 . de aritmética,
Notar de
colesterol
que observaciones
denotada denotada
esteHDL pores xpor
intervalo realizadas.
ca, se
– esxdefine
, se
co = defineSi denotam
como como
la sum l
colesterol HDL
valores
0,98
es entre
Ejemplo
– 1,09
decir, los
la = n
6.7
muestrales – 0,11=
desviación 462
caEndividida
elmmol/l.casos
estudio
típica por de
Si infarto
EURAMIC,
el númeroesde
asumimos
combinada de miocardio
la
una
s media
=observaciones
misma
0 , 074 fueron
y lavariabilidad
=desviación
0,272 x =
realizadas.
cammol/l, típica
del Si del
cuyodenotamos
colesterol HDL en
varianza combinada de ambas muestras vendría determinado por
una casos y controles,
generalización la varianza
bastante n el combinada
por natural tamaño muestral
del intervalo de ambas y por
valores
para valores ximedia
muestras
la el muestrales
muestrales valor deobservado
vendríadividida dividida
unadeterminado porpara
poblacional. elpor elpor
númerosujeto
el número dei-ésimo, i = 1, ..
observaciones
de observaci
0,98 y sca =por
0,25 n mmol/l,
colesterol
valorelestá
tamañomás y entre
HDL muestral
próxima los nalos
entre ycolapor =ndesviación
539
ca controles
x=i el462 valor casos fueron
de
observado
típica infarto
observada xpara
code =enel
1,09
miocardio
sujeto
los y scoi-ésimo,
controles =fueron quei enx=ca1,=..., n,
la media vendría
2
(n ca − 1) s ca + (n co − 1) s conpor dada por 2
n el tamaño
el tamaño muestral muestral y poryxpor xi el valor
i el valor observado
observadopara elpa
s2 =
0,29 mmol/l. la De
media
los estos
0,98 yvendría
casos ca
Ejemplo s datos
=
(mayor 0,25 dada
se
6.7 En tamaño deduce por
mmol/l,
el estudio quey
muestral la
entre
n ca + de
EURAMIC, estimación
los
n colos n
− co = puntual
539
2primeros).
la media Así, controlesde la diferencia
fueron
el error estándar
y la desviación x = 1,09
típicadedel
co y
la co s =
es decir, la desviación típica combinada es sla=media la
0,074 media
vendría
12 = n vendría
0,272 dada dada
por
mmol/l, por
cuyo
x + x 2 + ... + x n
2
(462 −ca1se )-0x,deduce
25 +0,98(539 − 1estimación
) 0x=,= 29 xpuntual
= 1 Si
en el nivel medio demmol/l.
diferencia
0,29
colesterolcolesterol
de
HDL medias HDL
Deentre estos
=puede es
losdatos nxcalcularse
ca 1 = 462 n =
co como
casos que - 1,09 -0,11
x1 + x 2 + ... +n xi==n1 0,074; de
de lainfarto de mmol/l.
miocardio
i x ca .=
la diferencia
fueron
n
valor está más próxima a la desviación x = 462 +xi539 = −2
n i =1 típica observada n en.los controles que 1enn 1 n x1 + xx21 + ... x 2++x...
n +
asumimos una0,98 misma
en variabilidad
ely nivel medio de del colesterol
colesterol HDL HDL es en
x cacasos
- x co y=controles,
0,98 - 1,09 la = -0,11 = x
xmmol/l. = xSi i = xi = .
es decir,sla
es decir, = 0,25 mmol/l,
ca desviación
la desviación
SE( xtamaño
típica
típica ycombinada
entre 1 los1nco
combinada es=s 539 = controles
0 , 1 =10,272
074 fueron x co = cuyo
mmol/l, 1,09 sn =
n yivalor
=1 co i =está n n
ca - x co La)muestral
=medias es +lalos medida = 0,272 de tendencia + el error = 0,017.
central más utilizada
de la y de más fácil 1
los casos (mayor de primeros). Así, estándar
más
varianza combinada próximo
de ambas a la desviación
muestras típica
n ca observadan en los
462 controles
539 que en los casos (mayor
La media
asumimos esuna la medida
misma de vendría
tendencia
variabilidad determinado
central
co
del colesterolmáspor utilizada
HDL en ycasos de más fácil
y controles, la
0,29 está
tamaño
valor mmol/l.
muestral
más De deestos
próxima los a datos
primeros).
la se deduce
desviación Así, eltípicaque observada
error laestándar
estimación de en puntual
lalosdiferencia
controles de de laque
diferencia
mediasen 12 puede
interpretación.
diferencia de medias puede calcularse como La media Corresponde al “centro
La media de
es la es gravedad”
medidala medida de
de tendencia los
de tendenciadatoscentral decentral
lamás
muestra.
utilizada
más util Su
calcularse
interpretación. como Corresponde al “centro de gravedad” deerror
los datos de la muestra. Su
Avarianza
partir decombinada 2 de ambas muestras vendría determinado por
encasos
los els nivel (nlamedio
2 (mayor
diferencia
) sde
ca − 1tamaño ca + (de
colesterol
medias
nmuestral
co − 1) sHDL
2 muestrales
code los es x
y de su
ca - x co Así,
primeros). = 0,98 el
estándar,
- 1,09
error =
y teniendo
estándar-0,11 mmol/l. Si extremos
= principal limitación es que está
interpretación. muy
interpretación. influenciada
CorrespondeCorresponde al de
por losal lavalores
“centro “centro
de gravedad”
de gravedad” y,
deen loses
ded
en cuenta
principal que
limitación la n caes +
distribuciónn
que co −
está 2 t de
muy1 Student 1
influenciada con n +
por n 1 los– 2 =1
valores999 grados
extremos de y, en este
SE( x ca − x co ) = (n cascalcularse ) s+ca2ser
−n1cano +cocomo = 0−,272
ncolesterol
(un
ca
1reflejo2
) sprincipal
co + = 0,017.
asumimosdeuna
diferencia medias misma s 2 variabilidad
puede
caso, = 2 puede ndel 2fiel
co
principal co 462 HDL de
limitación en
539
la casos
tendencia
limitación es que y es controles,
central
está
que muy de la
está la
muy distribución.
influenciada
influenciadapor los porval
lo
(462 − 1) 0,25 + (539 − 1) 0,29
libertad
caso, puede =es novirtualmente
ser un fielidéntica reflejo de n acauna + n − 2
distribución
la tendencia
co = 0,074 centralnormal
; de estandarizada,
la distribución.el IC al
Avarianza
partir de combinada
la diferencia 462 de de
+ambas medias
539 muestrales
− 2muestras y de su
vendría error estándar,
determinado por y teniendo en cuenta
1) muestrales 1 caso,caso, puede 1 puede
no2 ser1 nounser fielunreflejo
fiel reflejo
de la de tendencia
la tendenciacentral centra
de l
A
que partir
la de la
distribución diferencia t de de
Student ( medias
462 −con 0n , 25 + 2
n+ ( –
539 y
2 de
=− su
999
1 ) 0 error
, grados
29 estándar,
de libertad y teniendo
es virtualmente
95% para μSE( ca - μ xcoca viene
- x co=)dado =Ejemplo
s por +1.4 ca En= coeste
0,272 y en los +sucesivos = 0 , ejemplos
= 0,017.
074 ; sobre estimadores muestral
idéntica a una distribución
Ejemplo 1.4 En este ynormal en los n caestandarizada,
462 n co+ 539ejemplos
sucesivos − 2el2 IC 462 alsobre
95% para μca – μcomuestrales,
539estimadores viene dado se por
2
en cuenta que la distribución 2 ( n t −de 1 ) s
Student
utilizarán los valores del
ca ca + ( n con
co − 1
n )
cas +
co n –
colesterol
Ejemplo co 2
Ejemplo = 999
1.4 HDL En grados
1.4este En de
obtenidos
yeste y enen
en los lossucesivos
sucesivos
los 10 primeros
ejemplos sujeto
ejemplos
sobre
x ca s− x=co ± t999;0,975 n +SEn( x ca− −2 x co ) 12
utilizarán
A partiresdevirtualmente los valores
la diferenciaidéntica de = delmediascolesterol
ca co HDL obtenidos en los 10 primeros sujetos del
muestrales y =de(−normal
su error estándar, y teniendo
libertad estudio − 0,11a una“European distribución
± 1,96⋅0,017 Study 0,14; −estandarizada,
onutilizarán
utilizarán 0,08).
Antioxidants, delelcolesterol
Myocardial IC al Infarction andobtenid
Cancer
2 2 los valores los valores del colesterol HDLHDL obtenidos en
estudio “European (
Study 462 −
on 1 ) 0 , 25
Antioxidants, + ( 539 − 1 )
Myocardial 0 , 29 Infarction and Cancer 12
of
en cuenta = t de Student con nca + nco – 2 == 999 0,074 ;
95% para μque la distribución
ca - μco viene dado the por Breast“ + 539 − 2estudio
462(EURAMIC), un estudio
estudio
“European
grados
multicéntrico
“European
de
StudyStudy on de on casos
Antioxidants, y controles
Antioxidants, Myocardialreali
Myoca
De lostheresultados
libertad Breast“
es virtualmente(EURAMIC),
del estudio idéntica una estudio
EURAMIC una distribución multicéntrico
puede entonces normal de casos
concluirse y que
estandarizada, controles
el nivel
el IC realizado
al
86 Pastor-Barriuso R.
entre 1991
x ca - x co ± t999;0,975 SE( x ca - x co )the Breast“y 1992 en ocho países
the Breast“ Europeos
(EURAMIC),(EURAMIC),e Israelun para un evaluar
estudio estudio el efecto de
multicéntrico
multicéntric
medio de 1991 colesterol HDL en los países
casos de infarto es inferiorpara en 0,11 mmol/l al de los
95% entre
para μca - μyco1992 vieneendado ocho por Europeos e Israel evaluar el efecto
= -0,11 ± 1,96⋅0,017 =entre (-0,14;entre
1991 1991
y 1992
-0,08). y 1992en ocho en ocho
paísespaíses 12 Europeos
Europeos e Israel e Isra
pa
medio de colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al
Comparación de medias en dos muestras independientes
nivel medio de los sujetos libres de la enfermedad, estando esta diferencia
que sigue aproximadamente una distribución t de Student con n1 + n2 - 2 grados de
comprendida entre 0,08 y 0,14 mmol/l con una confianza del 95%.
De los resultados del estudio EURAMIC puede entonces concluirse que el nivel medio de
libertad si la hipótesis nula H0: μ1 = μ2 es cierta. Por tanto, el valor P se obtiene como el
colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al nivel medio de los
En el caso
sujetos de la
libres decomparación
la enfermedad, de medias
estandoentre
esta dos poblaciones,
diferencia la hipótesis
comprendida entrenula
0,08más
y 0,14
área bajo la distribución t n1 +n2 − 2 para valores más extremos que el valor observado de t.
mmol/l con una confianza del 95%.
natural es la igualdad de ambas medias poblacionales. Para realizar el contraste de esta
Esta prueba de hipótesis se conoce genéricamente como el test de la t de Student para
En el caso de la comparación de medias entre dos poblaciones, la hipótesis nula más natural
hipótesis nula H0: μ1 = μ2 frente a la hipótesis alternativa bilateral H1: μ1 ≠ μ2 a partir de
es la igualdad
muestras de ambas medias
independientes con igualpoblacionales.
varianza. Para realizar el contraste de esta hipótesis nula
H0: μ1 = μ2 frente a la hipótesis alternativa bilateral H1: μ1 ≠ μ2 a partir de dos muestras
dos muestras independientes de igual varianza, se emplea el siguiente test estadístico
independientes de igual varianza, se emplea el siguiente test estadístico
Ejemplo 6.8 Un nivel medio de colesterol HDL significativamente más bajo en
x1 − x 2 x1 − x 2
t= = ,
los casos de infarto que en losSE ( x1 − libres
sujetos x 2 ) de enfermedad
1 1 sería compatible con
que sigue aproximadamente una distribución t de Student con ns 1 + n+ - 2 grados de
n1 2 n 2
la hipótesis de que el colesterol HDL es un factor protector en el infarto de
libertad si laque
hipótesis nula H0: μ1 = μ2 esuna
sigue aproximadamente cierta. Por tanto,t de
distribución el valor P secon
Student obtiene
n1 + ncomo el
2 – 2 grados de libertad si
la hipótesis
miocardio. H0:este
nula En μ1 =ejemplo,
μ2 es cierta. Por tanto,
se pretende el valor
contrastar estaP hipótesis
se obtiene comode
a partir el los
área bajo la
área bajo la distribución t n1 +n2 − 2 para valores
valores más másextremos
extremosque queelelvalor
valor observado
observado t. t. Esta prueba de
de de
niveles
hipótesis de colesterol
se conoce HDL observados
genéricamente la tcasos
como el testendelos de Student para muestras
y controles del estudio 13
independientes
Esta prueba con igual varianza.
de hipótesis se conoce genéricamente como el test de la t de Student para
EURAMIC. El resultado de este contraste, junto con la estimación puntual y por
muestras independientes
Ejemplo con 6.8 igual varianza.
Un nivel medio de colesterol HDL significativamente más bajo en los
intervalo
casos de infarto que enellos
obtenida en ejemplo
sujetosanterior,
libres depermiten evaluar
enfermedad seríanocompatible
sólo la con la hipótesis
de que el colesterol HDL es un factor protector para el infarto de miocardio. En este
Ejemplo 6.8significación
Un nivelse
ejemplo, medio de colesterol
estadística
pretende contrastar HDL
estasignificativamente
sino también la relevancia
hipótesis máslos
clínica
a partir de y bajo en pública
deniveles
salud del HDL
de colesterol
observados en los casos y controles del estudio EURAMIC. El resultado de este contraste,
los casos dehallazgo.
infarto
junto que
con la en los sujetos
estimación libresyde
puntual enfermedad
por sería compatible
intervalo obtenidas con anterior, permiten
en el ejemplo
evaluar no sólo la significación estadística sino también la relevancia clínica y de salud
la hipótesis Asumiendo
de que eldel
pública colesterol
igualdadHDL
hallazgo. es un factor
de varianzas protector enelelcontraste
poblacionales, infarto debilateral de la
Asumiendo
miocardio. En igualdad
este ejemplo,H0se de varianzas
: μpretende poblacionales,
contrastar elelestadístico
contraste
esta hipótesis a partir bilateral
de los de la hipótesis nula
hipótesis nula ca = μco se realiza mediante
H0: μca = μco se realiza mediante el estadístico
niveles de colesterol HDL observados en los casos y controles del estudio
x ca − x co − 0,11
t= = = − 6,35.
SE (junto
EURAMIC. El resultado de este contraste, x ca − con
x co ) la estimación
0,017 puntual y por
Si ambas medias poblacionales fueran iguales, la distribución de este estadístico sería t999 o
intervalo obtenida
Si ambasen medias
el ejemplo anterior, permiten
poblacionales fueran El evaluar la
iguales, nodistribución
sólo la de este estadístico
aproximadamente normal estandarizada. valor P bilateral se obtiene entonces como el doble
de la probabilidad a la izquierda de – 6,35 en la distribución normal estandarizada, que corresponde
significaciónsería
estadística sino también la relevancia clínica y de salud pública del se obtiene
a P < t0,001.
999 o aproximadamente normal
Así, puede concluirse estandarizada.
que existen El muy
diferencias valor P bilateral
significativas en el nivel medio
de colesterol HDL entre los infartados y los sujetos libres de enfermedad. Esta diferencia
hallazgo. entonces como el doble de la probabilidad a la izquierda de -6,35 en la
significativa es perfectamente consistente con el intervalo de confianza calculado en el ejemplo
anterior,
igualdadpuesto
Asumiendo distribución que éstepoblacionales,
de varianzas no contenía al cero (valor nulo
el corresponde
contraste para la de
bilateral diferencia
la Así,depuede
medias).
normal estandarizada, que a P < 0,001.
hipótesis Los
nulamétodos
H0: μca descritos en este apartado
μco existen
=que se realiza mediantepueden extenderse a la comparación de tres o más medias
el estadístico
poblacionales. Las técnicas para comparar medias en múltiplesen
concluirse diferencias muy significativas el nivelindependientes
muestras medio de se conocen
con el nombre de análisis de la varianza de una vía y pueden consultarse en los libros referenciados
colesterol
al final HDL
del tema. entre los
− x coinfartados
x ca estos y los sujetos
- 0,11 no selibres
tratandeexplícitamente
enfermedad. Esta
t Aunque
= procedimientos
= = -6,35. en este texto, la
comparación de múltiplesSE (medias
x ca − xacopartir de datos independientes también puede abordarse mediante
) 0,017
los modelos de regresión lineal que se presentarán más adelante (Temas 10 y 11).
14
Si ambas medias poblacionales fueran iguales, la distribución de este estadístico
Pastor-Barriuso R. 87
sería t999 o aproximadamente normal estandarizada. El valor P bilateral se obtiene
distribuyen
en ambascomomuestrasuna independientes,
chi-cuadrado con se nobtiene n2 – 1 grados de libertad, respectivamente.
1 – 1 yque
Combinando
A la derechala distribución de estosseestadísticos
de esta expresión en ambas
tiene el cociente de muestras independientes,
dos variables se obtiene
independientes chi- que
A la derecha de estacuadrado
expresión se tiene por
divididas el cociente des12 dos
sus respectivos / σ 12variables
χ n2 −1de
grados /(independientes
nlibertad,
1 − 1) que sechi-conoce como la
2 2
~ 2
1 .
s 2 / σ 2 χ n2 −1 /(n 2 − 1)
uadrado divididas distribución
por sus respectivos grados de libertad,
F de Fisher con n1 - 1 grados que dese libertad
conoce como la
en el numerador y n2 - 1 en el
A la derecha de esta expresión se tiene el cociente de dos variables independientes chi-
istribución F decuadrado
Fisher con n1 - 1 grados
divididas susderespectivos
pordenota libertad en el numerador y n2 que- 1 en2 el
denominador, y se por Fn1 −1, n2grados de libertad, se conoce 2como
−1 . Así, la razón entre s1 / σ 1 y s 2 / σ 2 sigue una
2 2 la distribución
15
F de Fisher con n1 – 1 grados de libertad en el numerador y n2 – 1 en el denominador, y
enominador, y se por Fn1 −1, n2 −1 . Así, la razón entre ss112/σ
denota por
se denota
2
/ σ1212y ys22s/σ22 2/2σsigue
2
2 sigue unauna
distribución F con n1 – 1 y
distribución F con n1 - 1 y n2 - 1 grados de libertad,
n2 – 1 grados de libertad,
istribución F con n1 - 1 y n2 - 1 grados de libertad,
s12 / σ 12
2 2
~ Fn1 −1, n2 −1 .
s1 / σ 1
2 2 s 2 / σ 2
~ Fn1 −1, n2 −1 .
La distribución F
2
s 2 de/ σFisher
2
2 toma sólo valores positivos y está sesgada positivamente con un
valor La
másdistribución
frecuente (moda)F de Fisher
menor toma de 1sólo valores
y una media positivos
mayor ydeestá sesgada
1. Al positivamente
aumentar los grados de
libertad del numerador y denominador, tanto la media como la moda se aproximan al valor 1
La distribución Fcon
de Fisher toma sólo valores positivos y está
deF1sesgada positivamente
(Figuraun valor
6.3). Losmás frecuente
percentiles de(moda) menor
la distribución dey Fisher
una media paramayor de grados
distintos 1. Al aumentar
de libertad del
numerador y denominador se presentan en la Tabla 7 del Apéndice.
on un valor más frecuente
los grados(moda) menordel
de libertad de numerador
1 y una media mayor de 1. Al
y denominador, aumentar
tanto la media como la moda se
os grados de libertad del0,8
numerador
aproximan al valory 1denominador,
(Figura 6.3). tanto la media como
Los percentiles
F 0,8lala
de moda se F de Fisher para F
distribución
5,5 5,5
F5,10 F10,5
proximan al valor distintos
1 (Figuragrados
6.3). Los percentiles de la distribución
F F de Fisher para F30,5
de libertad del numerador5,30y denominador se presentan en la Tabla 7 del
0,6 0,6
istintos grados de libertad
Apéndice.del numerador y denominador se presentan en la Tabla 7 del
f(x) 0,4 0,4
Apéndice.
0,2 [Figura 6.3 aproximadamente
0,2 aquí]
[Figura 6.3 aproximadamente aquí]
0 0
Ejemplo 6.9 Utilizando la Tabla 7 del Apéndice, el percentil 97,5 de una
0 1 2 3 0 1 2 3
Ejemplo 6.9 Utilizando la TablaF7de
distribución delFisher
Apéndice,
con 5elgrados
percentil 97,5 de en
de libertad unael numerador y denominador
x x
distribución F de Fisher
es F con 5 =
grados
7,15, de libertad
y (a)
para en el numerador
30 grados de libertadyendenominador
ambos es F (b) = 2,07.
5;5;0,975 30;30;0,975
es F5;5;0,975Figura
= 7,15,6.3 Función
yAunque
para de densidad
30esta
grados
tabladeno
libertad ambos Fesdeinferiores,
de la distribución
facilitaenpercentiles FFisher al aumentar los grados de libertad del de-
30;30;0,975 = 2,07.
puede comprobarse que el
nominador (a) y del numerador (b). Figura 6.1
n1 n 2
6.3.3 Así,
Comparación
sustituyendode σ 1medias
2
por s12eny distribuciones
σ 22 por s 22 en lacon distinta varianza
distribución muestral de la
Aunque resulta complicado derivar la distribución exacta de este estadístico, existen
Cuando las varianzas poblacionales son distintas, carece de sentido calcular una estimación
diferencia de medias, se obtiene el estadístico
combinada
diversas de la varianza, yaque
aproximaciones quefuncionan
ésta infraestimará
bien en la o sobreestimará la variabilidad
práctica. El método específica
más utilizado es de
cada población. En este caso, aun perdiendo algo de precisión, es preferible estimar por separado las
σσ121y por y xσ1 22−sus
2
Así,poblacionales
varianzas sustituyendo
la aproximación de Welch, s12 permite
σ22que
mediante por −s(22μen
xaproximar1 −la μla2distribución
2 correspondientes muestral
)distribución
varianzas este de la s12 y s22 .
demuestrales
estadístico
.
2
s 22
Así, sustituyendo σ12 por s12 y σ22 por s22 en sla1 distribución muestral de la diferencia de medias,
diferenciauna
mediante de medias, se obtiene
t de Student con loselsiguientes +
estadísticogrados de libertad
se obtiene el estadístico n1 n 2
diversas aproximaciones que funcionan bien n1 enn 2la práctica. El método más utilizado es
Aunque
Puederesulta complicado
comprobarse que dderivar
es siempre la distribución
inferior o igualexacta a nde1 +este
n2 –estadístico,
2; es decir, existen
esta diversas
la aproximación de Welch, que permite aproximar la distribución de este estadístico
Aunque resulta
aproximaciones complicado
que funcionan derivar
bien en la la distribución exacta de
práctica. El método más este estadístico,
utilizado es laexisten
aproximación
de distribución t de Student
Welch, que permite será más
aproximar dispersa quede
la distribución la este
empleada en el mediante
estadístico caso de igualdad
una t dedeStudent
mediante una t de Student con los siguientes grados de libertad
diversas aproximaciones que
con los siguientes grados de libertad funcionan bien en la práctica. El método más utilizado es
varianzas. Esto es lo que cabría esperar ya que, al estimar por separado las varianzas, la
la aproximación de Welch, que permite ( s12 aproximar
/ n1 + s 22 / nla2 )distribución
2
de este estadístico
d
distribución resultante ha de= .
( s12reflejar
/ n1 ) 2 /(mayor
n1 − 1)incertidumbre.
+ ( s 22 / n 2 ) 2 /(nEsto
2 − 1)
conllevará una
mediante una t de Student con los siguientes grados de libertad
disminución
Puede comprobarsetantoque
en la precisión
d es siempredeinferior los intervalos
o igual de a nconfianza
1 + n2 – 2; como en la
es decir, potencia
esta de t
distribución
de Puede
Studentcomprobarse que d que
será más dispersa es siempre
la empleada inferioren o
el igual
caso a
de n + n
igualdad
1 2 – 2;
de es decir,
varianzas.esta
Esto es lo que
( s12 / n1 + s 22 / n 2 ) 2
los contrastes.
cabría esperar ya que, al destimar
= 2 por 2separado las varianzas, la distribución
. resultante ha de
reflejar mayor tincertidumbre.
distribución de Student será( sEsto
1 más/ n1 conllevará
/(n1 − 1que
)dispersa ) +una s 22disminución
(la / n 2 ) 2 /(n 2en− tanto
empleada 1) casoendelaigualdad
el precisiónde de los
En eldecaso
intervalos de distribuciones
confianza como en lacon distinta
potencia devarianza,
los contrastes.el intervalo de confianza al 100(1 -
varianzas. Esto es lo que cabría esperar ya que, al estimar por separado las varianzas, la
Puede comprobarse
En el caso que d es con
de distribuciones siempredistintainferior o igual
varianza, n1 + n2 –de2;confianza
el aintervalo es decir, esta
al 100(1 – α)%
α)% para la diferencia de medias poblacionales μ1 - μ2 vendrá determinado por
para la diferencia
distribución de medias
resultante ha poblacionales
de reflejar mayor μ2 vendrá determinado
μ1 –incertidumbre. por
Esto conllevará una
distribución t de Student será más dispersa que la empleada en el caso de igualdad de
2 2
disminución tanto en la precisión de los intervaloss1de confianza s2 como en la potencia de
varianzas. Esto es lo que cabríax1esperar − x 2 ± ya
t d ,1−que, +
α / 2 al estimar ,por separado las varianzas, la
n1 n 2
los contrastes.
distribución
donde d son losresultante
grados dehalibertad
de reflejar mayor incertidumbre.
calculados según la fórmula Esto conllevará
anterior. una forma, para
De igual
donde
contrastar
En el dlason los
degrados
hipótesis
caso nulade H0libertad
distribuciones µ2calculados
: µ1 =con frente
distintaa la según laelfórmula
alternativa
varianza, H1: μ1 anterior.
intervalo ≠ de De de
μ2 aconfianza
partir igual
dosforma,
muestras
al 100(1 -
disminución tanto en la precisión de los intervalos
independientes con distinta varianza, se emplea el estadístico de confianza como en la potencia de
para
α contrastar
)%contrastes. la hipótesis
para la diferencia de medias 0: μ1 = μ2 frente
nula Hpoblacionales μ1 a- la
μ2alternativa H1: μ1 ≠ μpor
vendrá determinado 2 a partir de
los x1 − x 2
t= ,
dos muestras independientes con distinta varianza, s12 s 22 2se emplea el estadístico
En el caso de distribuciones con distinta varianza, + s1 els 22intervalo de confianza al 100(1 -
x1 − x 2 ± t d ,1n−α1 / 2 n 2 + ,
n1 n 2
queαbajo
)% para la diferencia
la hipótesis nula,de se medias
distribuyepoblacionales
aproximadamente μ1 - μ2 vendrá
según unadeterminado
t de Student porcon d grados
19
de que bajo Así,
libertad. la hipótesis P viene
el valor nula, se distribuye
dado por laaproximadamente
probabilidad de obtener según una t de más
valores Student con d que
extremos
el valor d son los de
dondeobservado grados
t bajodelalibertad calculados
distribución td. Estesegún la fórmula
contraste anterior.
se conoce con elDe igual forma,
nombre de test de
s12 s 22
grados de libertad. Así, el valor
la t de Student para muestras independientes P viene dado
x1 x 2 t d ,1−α / con
− ± por
2 la probabilidad
+ ,
distinta varianza. de obtener valores más
para contrastar la hipótesis nula H0: μ1 = μ2 frentena1 la nalternativa 2 H1: μ1 ≠ μ2 a partir de
90 extremos R.que el valor observado de t bajo la distribución td. Este contraste se conoce
Pastor-Barriuso
dos
donde muestras
d son losindependientes con distinta
grados de libertad calculadosvarianza,segúnselaemplea
fórmulaelanterior.
estadístico
De igual forma,
con el nombre de test de la t de Student para muestras independientes con distinta
Ejemplo 6.11 En el Ejemplo 6.10 se contrastó que
HDL difiere significativamente entre los casos de infarto y los sujetos libres de la
independientes con distinta varianza. La estimación puntual de la significativamente
HDL difiere diferencia de entre los casos de i
enfermedad. Por ello, la comparación del nivel medio de colesterol
Comparación de medias en HDL entreindependientes
dos muestras
medias es x ca - x co = 0,98 - 1,09 = -0,11 mmol/l, cuyo error estándar
enfermedad. se estima
Por ello, la comparación del nivel med
casos y controles ha de realizarse mediante la prueba t de Student para muestras
directamente
Ejemplo 6.11 porcon
En el Ejemplo 6.10 seLacontrastó casos
quepuntual y controlesdel
la variabilidad ha colesterol
de realizarse
HDL mediante la prue
independientes distinta varianza. estimación de la diferencia de
difiere significativamente entre los casos de infarto y los sujetos libres de la enfermedad.
Por ello, la comparación del nivel2 medio2 de colesterol 2 independientes
HDL2 entre casosconydistinta
controlesvarianza.
ha de La estimación
medias es x ca - x co = 0,98 - 1,09 s ca= -0,11
s co mmol/l,
0,25 cuyo 0,error
29 estándar se estima
realizarse mediante
SE( x ca la
- xprueba
co ) = t de + Student= para muestras
+ independientes
= 0,017. con distinta
varianza. La estimación puntualn cade landiferencia
co 462de medias
539 es x ca − x co == 0,98 –- 1,09
1,09 ==-0,11 mmol/l, c
directamente por
– 0,11 mmol/l, cuyo error estándar se estima directamente por
En el caso de varianzas heterogéneas, los grados de libertad directamente
para lapor
distribución
2 2 2 2
s ca s co 0,25 0,29
SE( x ca − x co ) = + = + = 0,017.
de la diferencia de medias vienen n cadeterminados
n co por la aproximación
462 539 de Welch, a
s ca2 s co2 0,25 2
SE( x ca - x co ) = + =
En el caso de varianzas heterogéneas, los grados de libertad para la distribución de
saber n cala n co 462
En el caso de
diferencia de medias
varianzas heterogéneas,
vienen determinados los grados de libertad para
por la aproximación delaWelch
distribución
contrastar en primer
En resumen, lugar la igualdad
la comparación de varianzas,
de medias paraindependientes
en muestras después utilizar según proceda
requiere
el test de laent de
contrastar Student
primer con
lugar la igual o distinta
igualdad varianza.
de varianzas, Esta
para distinción
después no es
utilizar meramente
según proceda
Pastor-Barriuso R. 91
académica:
el test de la si la Student
t de variabilidad difiere
con igual entre ambas
o distinta poblaciones,
varianza. los procedimientos
Esta distinción de
no es meramente
Inferencia sobre medias
Los datos dependientes surgen cuando las observaciones recogidas en el estudio están
correlacionadas entre sí. A continuación se presentan algunos mecanismos y diseños
epidemiológicos que generan datos dependientes:
yy La obtención de dos o más determinaciones de la misma variable en un mismo sujeto da
lugar a datos dependientes, que pueden presentarse como:
Diferentes medidas de la misma variable en un momento determinado, habitualmente
para aumentar la fiabilidad del instrumento de medida.
Determinaciones de la misma variable en diferentes localizaciones anatómicas.
Medidas repetidas en el mismo sujeto a lo largo del tiempo, bien sea en comparaciones
antes y después de un tratamiento, en ensayos clínicos cruzados o en estudios de medidas
repetidas con visitas sucesivas.
yy La selección de los participantes en un estudio emparejándolos por determinadas
características pronósticas genera datos dependientes entre los sujetos emparejados. El
ejemplo más habitual es el emparejamiento en el diseño de los estudios de casos y controles.
yy Los datos de estudios procedentes de sujetos de una misma familia o de animales
pertenecientes a la misma camada suelen ser también dependientes.
En todos estos casos, la correlación se limita a los grupos específicos donde se genera la
dependencia, que suelen ser habitualmente parejas. Así, en un estudio de casos y controles
emparejados, los datos de cada pareja son dependientes, pero los datos de las distintas parejas
son independientes entre sí. Igualmente, en un estudio de medidas repetidas, los datos de un
mismo individuo son dependientes, mientras que los resultados en diferentes individuos son
independientes entre sí.
Las muestras dependientes están constituidas por observaciones en los mismos sujetos o en
distintos sujetos emparejados según ciertas características pronósticas de interés. De esta forma,
la distribución de dichas características será similar en ambas muestras, eliminando así la
posibilidad de que estos factores influyan en la comparación objeto de estudio. En general, el
emparejamiento es una técnica frecuentemente utilizada en el diseño de estudios clínicos o
epidemiológicos con el propósito de controlar por determinados factores de confusión (ver
textos de método epidemiológico referenciados al final del tema). Estos diseños requieren de
técnicas específicas de análisis que preserven el emparejamiento. En este apartado se revisan
los métodos estadísticos para el tratamiento de un caso específico de dependencia, en el que se
dispone de dos determinaciones de una variable continua para cada pareja de datos dependientes.
92 Pastor-Barriuso R.
Comparación de medias en dos muestras dependientes
Tabla 6.1 Colesterol HDL en 50 casos y controles del estudio EURAMIC emparejados
según grupos quinquenales de edad.
Colesterol HDL (mmol/l) Colesterol HDL (mmol/l)
Pareja Caso Control d* Pareja Caso Control d*
1 0,81 0,63 0,18 26 0,96 1,29 – 0,33
2 0,91 0,91 0,00 27 1,33 0,72 0,61
3 0,98 0,76 0,22 28 0,93 1,04 – 0,11
4 0,91 1,19 – 0,28 29 0,32 1,54 – 1,22
5 0,55 0,99 – 0,44 30 0,86 1,08 – 0,22
6 0,62 1,14 – 0,52 31 0,93 1,12 – 0,19
7 0,79 0,73 0,06 32 1,40 1,75 – 0,35
8 0,89 1,08 – 0,19 33 1,50 1,29 0,21
9 1,24 0,87 0,37 34 0,92 1,17 – 0,25
10 1,76 1,04 0,72 35 0,88 0,93 – 0,05
11 1,35 1,03 0,32 36 0,82 0,88 – 0,06
12 0,72 1,09 – 0,37 37 1,52 0,74 0,78
13 0,94 1,12 – 0,18 38 1,68 1,45 0,23
14 1,01 1,20 – 0,19 39 0,81 1,02 – 0,21
15 0,98 1,62 – 0,64 40 0,60 1,15 – 0,55
16 0,92 1,25 – 0,33 41 1,16 1,49 – 0,33
17 0,68 1,31 – 0,63 42 0,75 0,98 – 0,23
18 1,48 1,00 0,48 43 0,96 1,31 – 0,35
etar el problema, supongamos
19 que
1,23se dispone de
0,78 n pares de
0,45 observaciones
44 1,46 1,15 0,31
20 0,83 0,95 – 0,12 45 0,76 1,51 – 0,75
e aleatoria continua. 21
En cada pareja
0,92
de datos1,13
dependientes,
– 0,21
una 46 0,76 1,01 – 0,25
22 0,82 0,97 – 0,15 47 1,12 1,26 – 0,14
corresponde a la primera muestra y la otra observación x2 a la segunda
23 1,21 0,74 0,47 48 1,01 0,91 0,10
24 0,78 0,88 – 0,10 49 0,99 1,63 – 0,64
jetivo se centra en comparar las medias poblacionales μ1 y μ2 a partir de
25 0,88 1,14 – 0,26 50 0,75 1,45 – 0,70
* Diferencia de colesterol HDL entre caso y control.
stras dependientes.
medias muestrales,
1 n 1 n
d= n
n i =1
d i =
i =1
( x i1 − x i 2 )
Pastor-Barriuso R. 93
1 n
1 n
=
n i =1
x i1 − xi 2 = x1 − x 2
n i =1
n i =1 n i =1
son independientes.
6.3 no puedenPor a 1esta
otro lado, la media1den las diferencias d coincide con la
n
rrollados en el Apartado aplicarse
Inferencia sobre medias
=
n i =1
x i1 − xi 2 = x1 − x 2
n i =1
de ambas muestras diferencia de medias muestrales,
no son independientes por provenir de
donde sd es la desviación típica de las diferencias observadas. De igual forma, la
das. Sin embargo, y, la en consecuencia,
comparación d es un estimador
se simplifica notablemente insesgado de la diferencia de medias
1 n 1 n
= d i = H: (μx i1=−μx i 2puede
hipótesis de igualdad de mediasdpoblacionales ) contrastarse frente a la
s d = x - x en cada una de las n μobservaciones
poblacionales n i =1 de la
1 - μ2. Así, el problema
emparejadas. n comparación
0
i =1
1 2
de medias en dos muestras
1 2
1 n el estadístico
hipótesis alternativa H1: μ1 ≠ μ2 mediante 1 n
dependientes
tas parejas no están relacionadasqueda
entrereducido a=una simple
sí, estas diferencias xi 2 = sobre
x i1 − inferencia x1 − xla
2 media de una única
n i =1 n i =1
o lado, la mediay,deen muestra
las de n diferencias
diferencias
consecuencia, d escoincide independientes.
un estimador con la insesgado d de la diferencia de medias poblacionales μ1 – μ2.
t= .
Así,y,elenproblema
consecuencia, de la comparación
d es un estimador de medias s d en dosde
insesgado muestras dependientes
la diferencia de medias queda reducido a
rales, una simple Los métodos
inferencia delsobre
Apartado la media 6.2.1de paraunalaúnica media
n muestrade unade muestra pueden independientes.
n diferencias entonces
poblacionales
Los métodos μ1 -Apartado
μ2. Así, el6.2.1 problema demedia
la comparación de medias en dos muestras
utilizarse paradel calcular un intervalo parade la confianza deal una
100(1 muestra
- α)% para pueden μ entonces
1 - μ2 como
utilizarse
1 n
1Bajo la hipótesis
para calcular
n nula, las de
un intervalo diferencias
confianzaobservadas al 100(1 – se α)% distribuirían
para μ – μaleatoriamente
2 como
d = di = ( x i1 − x i 2 ) queda reducido a una simple inferencia sobre1 la media
dependientes de una única
n i =1 n i =donde
alrededor sdel d esvalor
la desviación típica de quelas diferenciassobservadas. Dedistribución
igual forma,t de la
1
0, de tal forma deste
± testadístico
d seguiría una
,
nmuestra de n diferencias independientes.
n −1,1−α / 2
1 n
1 n
= x i1 − Student xi 2 con
hipótesis = x1de n x12 grados de
−- igualdad de medias
liberad. poblacionales
El valor P H0: μ1 = μ2 puede
corresponderá, contrastarse
por tanto, a la frente a la
n i =1 n i =1
donde sd esmétodos
Los la desviación típica de
del Apartado las para
6.2.1 diferencias
la media observadas.
de una muestra De igual puedenforma, la hipótesis de
entonces
igualdad
hipótesis
probabilidad de medias
alternativa H1: μ1 ≠ μt2H
bajo lapoblacionales
distribución µ1 =valores
0:para
mediante
n-1
µ2 el puede contrastarse
estadístico
más extremos que frenteel avalor
la hipótesis
observado alternativa
n estimador insesgado H : µ ≠
1 utilizarse µ mediante
para calcular
1 de 2la diferencia el estadístico
un intervalo de confianza al 100(1 - α)% para μ1 - μ2 como
de medias
de t. Esta prueba se denomina habitualmente como el test de la t de Student para 24
d
el problema de la comparación de medias en dos muestrast = .s d
muestras dependientes. d ± t s d
n −1,1−α / 2 ,
n n
o a una simple inferencia sobre la media de una única
Bajo la hipótesis nula, las diferencias observadas se distribuirían aleatoriamente alrededor del
dependientes. valor Bajo Ejemplo
0, la
dehipótesis 6.13 nula,
tal forma Para
que estepreservar
las diferencias
estadístico el emparejamiento
observadas
seguiría unase entre los casos
distribuirían
distribución t de yStudent
controles
aleatoriamenteconden –la1 grados
ar el problema,de libertad. Elque
supongamos valor se P corresponderá,
dispone de n parespor detanto, a la probabilidad bajo la distribución tn–1 para
observaciones
do 6.2.1 para la valores
media demás Tabla
alrededor 6.1,
del
unaextremos se calcula
valor 0,
muestra pueden de latal diferencia
que el entonces valor observado de t. HDL
forma que de colesterol
este estadístico d = xca una
Estaseguiría
prueba -sexcodenomina
en cada pareja.
distribución t de 24
habitualmente
aleatoria continua. comoEn test de
el cada la t de
pareja de Student
datos dependientes,para muestras una dependientes.
Student Como conpuede
n
ntervalo de confianza al 100(1 - α)% para μ1 - μ2 como - 1apreciarse,
grados de predominan
liberad. El las
valor parejas donde el caso
P corresponderá, porpresenta
tanto, a laun nivel
corresponde a la primera Ejemplo muestra6.13 y laPara otrapreservar
observación el emparejamiento
x2 a la segundaentre los casos y controles de la Tabla 6.1,
inferior debajo
probabilidad colesterol HDL quetn-1
la distribución supara
correspondiente
valores control (diferencias negativas).
se
sd calcula la diferencia de colesterol HDL d = xca –más extremos
xco en que el
cada pareja. valor
Como observado
puede apreciarse,
d ±
etivo se centrat n −1en
,1−α comparar ,
/ 2 predominan las parejas
las medias donde el caso
poblacionales μ1 y μ presenta
2 a partir undenivel inferior de colesterol HDL que su
de tDe hecho,
nEsta
.correspondiente
prueba la media
secontrolde estashabitualmente
denomina diferencias
(diferencias negativas). De como el hecho, t de Student
test delalamedia de estas para
diferencias
tras dependientes.
muestras dependientes. 1 50 0,18 + 0,00 + ... − 0,70
mientos desarrollados en el Apartado 6.3 no50
d=
pueden i =1
di =
aplicarse a esta 50
= −0,12
1 ncomo
Así, el 1ICde
casos n
alinfarto
95% paray loslasujetos
diferencia dede
libres medias poblacionales
la enfermedad. μca - μco de
La varianza se las
obtiene
=
n i =1
x i1 −
n i =1
xi 2 = x1 − x 2
SE (d ) =
= = 0,057 .
n 50
Así, el IC al 95% para la diferencia de medias poblacionales μca - μco se obtiene
Referencias
Así, el IC al 95% para la diferencia de medias poblacionales μca - μco se obtiene
como
como
Así, el IC al 95% para
d ± la
t diferencia ) medias poblacionales μca – μco se obtiene como
SE( d de
49;0,975
Pastor-Barriuso R. 95
Inferencia sobre medias
96 Pastor-Barriuso R.
7.1 INTRODUCCIÓN
cuya distribución
dado por será aproximadamente N(0, 1) si la hipótesis nula H0: = 0 es cierta.
Así, el intervalo de confianza al 100(1 – α)% para la proporción poblacional π viene dado por
El valor P del test corresponde entonces a la probabilidad bajo la distribución normal
p(1 p )
p z1 / 2 .
estandarizada para valores más alejados de 0 que el nvalor observado de z.
Para realizar el contraste de la hipótesis nula H0: π = π0 frente a la alternativa bilateral H1: π ≠ π0,
puedeEjemplo
emplearse
Para el A
realizar
7.1 estadístico
el contraste
partir de controles
de los la hipótesisdelnula H0:
estudio = 0 frente se
EURAMIC, a la alternativa
pretende estimar
p 0
bilateral H1: z el estadístico ,
la proporción de0, individuos
puede emplearse
en la población
0 (1 de
0referencia
) de dicho estudio que
n
presentan niveles de colesterol HDL inferiores o iguales a 0,90 mmol/l (niveles 2
cuya distribución será aproximadamente N(0, 1) si la hipótesis nula H0: π = π0 es cierta. El
P
bajos
cuya
valor según el “National
distribución
del test Cholesterol
será aproximadamente
corresponde entonces Education
a la probabilidad Program”).
N(0, 1) si bajo
la hipótesis nula
la distribución =de
En kH=0normal
:158 0estandarizada
los n=
es cierta.
para valores más alejados de 0 que el valor observado de z.
539 controles
El valor P del testsecorresponde
observaron entonces
valores inferiores o igualesbajo
a la probabilidad a este
la umbral,
distribución normal
Ejemplo 7.1 A partir de los controles del estudio EURAMIC, se pretende estimar la
obteniéndose
estandarizada deuna
proporción para proporción
valores
individuos más muestral
enalejados de 0 que
la población el valor observado
de referencia de dichode z.
estudio que presentan
niveles de colesterol HDL inferiores o iguales a 0,90 mmol/l (niveles bajos según el
“National Cholesterol Education p = k/nProgram”).
= 158/539 =En k = 158 de los n = 539 controles se
0,293.
Ejemplo 7.1 A partir de los controles del
observaron valores inferiores o iguales a este umbral, estudio EURAMIC, se pretende
obteniéndose una estimar
proporción
muestral
Dado que np(1 - p)
la proporción de =individuos
111,7 5,enpuede emplearse
la población de la aproximación
referencia normal
de dicho paraque
estudio
p = k/n = 158/539 = 0,293.
presentan
calcular
Dado que ICniveles
unnp(1 p) =depara
al– 95% colesterol
111,7 HDL inferiores
la≥proporción
5, puede olaiguales
poblacional
emplearse como a 0,90 mmol/l
aproximación normal(niveles
para calcular
un IC al 95% para la proporción poblacional π como
bajos según el “National Cholesterol Education Program”). En k = 158 de los n =
0,293(1 0,293)
0,293 z 0,975
539 controles se observaron valores539 inferiores o iguales a este umbral,
= 0,293 1,960,020 = (0,255; 0,332);
obteniéndose una proporción muestral
es decir, la proporción poblacional de sujetos con niveles bajos de colesterol HDL está
comprendida entre el 25,5 y el 33,2% p = k/ncon=una confianza
158/539 del 95%. Asimismo, para determinar
es decir, la proporción poblacional de sujetos con=niveles
0,293. bajos de colesterol HDL
si los datos muestrales son compatibles con una proporción subyacente del 30%, se
contrastó la hipótesis H0: π = 0,30 versus H1: π ≠ 0,30 mediante el estadístico
estáDado
comprendida
que np(1 entre
- p) =el111,7
25,5 y 5, el puede
33,2% emplearse
con una confianza del 95%.normal
la aproximación Asimismo,
para
p 0 0,293 0,30
z= = 0,35,
para determinar
calcular un ICsiallos
95%datos muestrales
para
0 (1
son
laproporción
0)
compatibles
0,30 (1 0,30) con
poblacional una proporción
como
n 539
subyacente del 30%, se contrastó la hipótesis H0: = 0,30 versus H1: 0,30
que corresponde a un valor P = 2P(Z ≤ –0,35)
0,293 = 2{1
(1 0,293 ) – Φ(0,35)} = 0,726 en las tablas de
la distribución normal0, 293 z
estandarizada
P = 2P(Z (Tabla
que corresponde a un valor 5393 del
-0,35) Apéndice).
= 2{1 - (0,35)}Por= tanto,
0,726 puede
en las concluirse
0 , 975
mediante el estadístico
que la prevalencia poblacional de niveles bajos de colesterol HDL no es significativamente
distintadedel
tablas la 30%.
distribución normal=estandarizada (Tabla=3(0,255;
del Apéndice).
0,293 1,960,020 0,332); Por tanto,
Lospuede concluirse que
procedimientos de la prevalencia
inferencia poblacional
presentados en de niveles
este bajosasumen
apartado de colesterol
que el tamaño
es decir, la proporción poblacional de sujetos con niveles bajos
muestral es suficientemente grande para aplicar la aproximación normal; es decir,de colesterol HDL
3 ha de
HDLelnorequerimiento
cumplirse es significativamente
mínimo de distinta del 30%.
que nπ(1 – π) ≥ 5. No obstante, en el Apéndice de este
tema (Apartado 7.8) se facilitan correcciones de con
está comprendida entre el 25,5 y el 33,2% unamétodos
estos confianza
quedelpermiten
95%. Asimismo,
aumentar la
cobertura de los intervalos de confianza y reducir la probabilidad de un error de tipo I en los
para
contrastes, determinardesiinferencia
Los procedimientos
particularmente los datoselmuestrales
cuando presentados son
en compatibles
tamaño muestral este
es apartado
moderado con
o una
asumen proporción
que el
pequeño. tamaño
Esta corrección
muestral subyacente
es suficientemente
del 30%,grande para aplicar
se contrastó H0: = 0,30
la aproximación
la hipótesis normal; 1: ha
versusesHdecir, de
0,30
98 Pastor-Barriuso R.
Supongamos ahora que el interés radica en comparar la proporción de sujetos con una
determinada característica en dos muestras independientes. Este planteamiento general es
aplicable a las comparaciones realizadas en cualquiera de los siguientes diseños de un estudio:
yy Un estudio prospectivo es aquel en el que n1 individuos expuestos a una intervención
(ensayo clínico) o a un potencial factor de riesgo (estudio de cohortes) y n2 individuos no
expuestos son seguidos a lo largo de un periodo de tiempo para determinar cuántos
desarrollan la enfermedad. Los tamaños muestrales de ambos grupos n1 y n2 están fijados
de antemano y, en el caso de un ensayo clínico, la intervención se asigna de forma aleatoria
a cada sujeto. El objetivo se centra en comparar la proporción de sujetos que desarrollan
la enfermedad entre los expuestos y los no expuestos.
yy Un estudio retrospectivo (estudio de casos y controles) es aquel en el que m1 sujetos con
la enfermedad (casos) y m2 sujetos libres de ella (controles) son examinados para determinar
cuántos han estado previamente expuestos al potencial factor de riesgo. Bajo este diseño,
el número de casos y controles está predeterminado y, en consecuencia, ha de compararse
la proporción de expuestos entre los sujetos con y sin la enfermedad.
yy Un estudio transversal es aquel en el que se selecciona un total de n individuos en un
instante determinado para establecer en cada sujeto la presencia o ausencia de la exposición
y la enfermedad. A diferencia de los estudios prospectivos, donde se compara la incidencia
de nuevos casos de la enfermedad, los estudios transversales comparan la prevalencia de
la enfermedad en un instante determinado entre expuestos y no expuestos.
Pastor-Barriuso R. 99
valores de colesterol HDL
valores
inferiores
de colesterol
a dicho HDL
umbral.
inferiores a dicho umbral.
tras independientesmuestras
suelen organizarse
independientes en una
suelen
tablaorganizarse
22 (Tabla en 7.1).
unaEntabla
este22 (Tabla 7.1). En este
Tabla 7.1 Tabla 2×2 genérica de la
2(1 - 2)/n2). Además, como ambas muestras son
asociación entre exposición y enfermedad.
ado suponemos queapartado
se analizan
suponemos
datos deque
un estudio
se analizan
prospectivo,
datos de un
en el
estudio
que seprospectivo, en el que se
4), se tiene que Enfermedad
1, en ~ N( , (1 - )/n ). Además, como ambas muestras son
N(
nde estimar la diferencia
pretende la- proporción
1(1estimar
1)/n1la p2 de
) ydiferencia
enfermos
en
2 la2 proporción
Exposición entreSí
2 expuestos
2 de No
enfermos
y no Total
entre expuestos y no
1 (1 1 ) 2 (1 2 ) Sí a b n1
estos.
1 Estos
2, métodos independientes
expuestos. Estos . métodos
pueden aplicarse
(véase Apartado
igualmente a3.4),
No pueden se tiene
estudios
aplicarse que d a estudios
c retrospectivos,
igualmente peron retrospectivos, pero
n1 n2 2
Total m1 m2 n
arando la proporción comparando
de expuestos la proporción
entre casosdey expuestos controles (ver entre
1Ejemplo
(1casos
1 )y 7.5).
controles
2 (1 (ver Ejemplo 7.5).
~ 2)
p1 - p2 es un estimador puntuallos
En general, insesgadop1 de
resultados p 2de 1 2 ,
lalaN comparación de .
n1 una variable n 2 dicotómica
en dos muestras
independientes
N(1,[Tabla
1(1 - 7.1suelen ~
organizarse en
2, aquí] una tabla 2×2 (Tabla
2)/n2). Además, como 7.1). En este apartado suponemos
1)/n 1) y p2 N(
aproximadamente [Tabla 2(1
7.1- aproximadamente aquí] ambas muestras son
1 - 2 entre expuestos y no expuestos, E(p - p ) = -
que se analizan datos de un estudio prospectivo, en el que se pretende estimar la diferencia en
1 2 1
De este resultado
la independientes
proporción se desprende
de enfermos que p1 - p2 yesno
entre expuestos unexpuestos.
estimador puntual insesgado
Estos métodos de la aplicarse
pueden
(véase Apartado 3.4), se tiene que
0(1 - )% para igualmente
- se obtiene siguiendo el mismo
1
proporción de enfermos 2
ena laestudios retrospectivos, pero comparando la proporción
La proporción muestra de de enfermos
sujetosen expuestos
la muestra vienede sujetos
dada por p1 =
expuestos de expuestos entre= casos
viene dada por p1
diferencia(ver
y controles de Ejemplo
riesgos subyacente
7.5). 1 - 2 entre expuestos y no expuestos, E(p1 - p2) = 1 -
roporción como 1 (1 1 ) 2 (1 2 )
y en la muestra de N( a/n
La proporción
1,yen
sujetos 1no muestra
(1la-expuestos ) ypde
1por
p2sujetos
de 1enfermos
1)/n =~ la
p~p22en
N(
,2.expuestos
Nno
c/n2muestra2Sin-1 de
1(1 nsujetos
y22,)/n
2 2por
son psuficientemente
= c/n2como n1ambas
. Siviene
2expuestos
). Además, y ndada
2. son a/n1 y en la
p1 = son
suficientemente
por
muestras
. El intervalo de confianza al 100(1
- )% paran 1 1 - 2 se obtiene
muestra de sujetos no expuestos por p2 = c/n2. Si n1 y n2 son suficientemente grandes, estas
2 n 2 siguiendo el mismo
des, estas proporciones grandes, ~ N(π
pp11 ~ N(π ,
π1)/n1) ypp12
p 2 (1muestrales
proporciones pestas
p1 (1 p1 ) independientes ) proporciones
tenderán
2muestrales
(véase tenderán a distribuirse
Apartado muestrales
3.4), sede
a distribuirse tenderán
de
tieneforma quenormal,
forma anormal,
distribuirse de forma
1, π1(1 –normal,
/ 2 procedimiento , utilizado para unamuestras
proporción como
2
n1 π (1 –
2 De este π )/n ). Además, como ambas son independientes
2n 2 2resultado se desprende que p1 - p2 es un estimador puntual insesgado de la (véase Apartado 3.4), se tiene que
~ , 1 (1 1 ) 2 (1 2 ) .
diferencia de riesgospsubyacente1 p 2 N -1 entre 2p1 (1 expuestos
p1 ) p 2y(1no p2 )
expuestos, E(p1 - p2) = 1 -
erencia de proporciones muestrales con una p 2 z11 / 22
p1 amplitud n1 n2 6 , 6
n1 n2
Deeste
2. Elresultado
intervalosededesprende
confianzaque p1 – p2- es
al 100(1 )% un para 1 - puntual
estimador 2 se obtiene insesgado de laeldiferencia
siguiendo mismo de
mación de su error estándar.
De este
riesgos resultadoπse
subyacente 1 –desprende que p1 - py2 no
π2 entre expuestos es un estimador
expuestos, E(p puntual
1 – p2) = insesgado deintervalo
π1 – π2. El la de
que es simétrico
confianza –alrededor
α)% para
al 100(1utilizado
procedimiento paradeπuna
la–diferencia
π se obtiene
proporción decomo proporciones
siguiendo el muestrales
mismo con una amplitud
procedimiento utilizado
encias en la probabilidad subyacente de desarrollar 1 la2
para una proporción
diferencia de riesgoscomo subyacente 1 - 2 entre expuestos y no expuestos, E(p1 - p2) = 1 -
directamente proporcional a la estimación de su error estándar.
stos y no expuestos, se contrasta la hipótesis nula H0: p1 (1 p1 ) p 2 (1 p 2 )
2. El intervalo de confianza p1 pal 2 z1 / 2- )% para 1- 2 se obtiene
100(1 , siguiendo el mismo
Para determinar si existen diferencias en lan1probabilidadn 2subyacente de desarrollar la
tiva bilateral H1: 1 2. Bajo la hipótesis nula de
queprocedimiento
es simétrico
enfermedad
utilizado
alrededor
entre los sujetos
para una
de expuestosproporcióndecomo
la diferencia y no expuestos,proporciones muestrales
se contrasta con una
la hipótesis amplitud
nula H0:
directamente
2 = , se cumple que que es proporcional
simétrico alrededor a ladeestimación
la diferencia de su
de error estándar.
proporciones muestrales con una amplitud
Para
1 = determinar
2 frente a la si hipótesis
existenalternativa
diferenciasbilateral pen1 (1la H 11): 1 p2 (12.Bajo
pprobabilidad 2 ) la hipótesis
psubyacente de nula de
desarrollar la
directamente proporcional p1 a pla2 estimación
z1 / 2 de su error estándar. ,
enfermedad 1 entre los sujetos expuestos y no expuestos, n1 se contrasta
n2 la hipótesis nula H0: π1 = π2
~ N 0, (1 ) 1igualdad
,
de proporciones H : = = , se cumple que
frente
a la hipótesis alternativa 0 bilateral
1 2 H1: π1 ≠ π2. Bajo la hipótesis nula de igualdad de
n1 Paran 2 determinar
proporciones H : π = πsi existen= π, se
diferencias en
cumple que
la probabilidad subyacente de desarrollar la
0 1 2
que es simétrico alrededor de la diferencia de proporciones muestrales con una amplitud
enfermedad entre los sujetos expuestos ~ N y0no expuestos, 1 se1contrasta
la hipótesis nula H0:
dad de enfermar común para expuestos y no p1 p 2 , (1
de su error ) ,
directamente proporcional a la estimación n 2
n1estándar.
1 = 2 frente a la hipótesis alternativa bilateral H1: 1 2. Bajo la hipótesis nula de
ad es desconocida, su
dondePara valor puedea estimarse
π corresponde
determinar lasiprobabilidad de enfermar
existen diferencias en la común para expuestos
probabilidad subyacentey no expuestos. Aunque
de desarrollar la esta
probabilidad
donde π es desconocida,
corresponde a la su valor
probabilidadpuede
igualdad de proporciones H0: 1 = 2 = , se cumple que estimarse
de enfermar mediante
común la proporción
para combinada
expuestos y no de enfermos
de enfermos enenambas ambas muestras
muestras
enfermedad p =los
entre =(a(asujetos
c)/(1nexpuestos
++c)/(n +1 +n2) = m1/n. y Así, el estadístico
no expuestos, se propuesto
contrasta para este test nula
la hipótesis es H0:
expuestos. Aunque esta probabilidad es desconocida, p 1 p 2 su valor puede estimarse
z ~ 1 ,1
uesto para este testes 1 = 2 frente a la hipótesis p1alternativa
p 2 N bilateral
0, (11 H)1: 11
2. Bajo , la hipótesis nula de
mediante la proporción combinada depenfermos (1 p ) enambas n1 n muestras
2 p = (a + c)/(n1 +
n1 n 2
igualdad de proporciones H0: 1 = 2 = , se cumple que
) = mH1/0corresponde
quen2bajo
donde n.sigue aproximadamente
Así, el estadístico propuesto
a la probabilidad
una distribución
depara este test
enfermar
normal
es para
común
estandarizada, lo que permitirá
expuestos y no
determinar
que bajo la H0significación estadística deuna
sigue aproximadamente la distribución
diferencia entre normalproporciones.
estandarizada, lo que
p1 p 2 ~ N 0, (1 ) 1 1 ,
expuestos. Aunque esta probabilidad es desconocida, puede estimarse
sun valor
permitirá determinar la significación estadística delan1diferencia
2 entre proporciones.
100 Pastor-Barriuso R. 7
mediante la proporción combinada de enfermos en ambas muestras p = (a + c)/(n1 +
corresponde
dondeEjemplo 7.4 EnalalaTabla
probabilidad de enfermar
7.2 se presenta común
el número depara expuestos
muertes y no
por enfermedad
n ) = m /n. Así, el estadístico propuesto para este test es 7
permitirá determinar la significación estadística de la diferencia entre proporciones.
p2 es un estimador puntual insesgado de la
que bajo H0 sigue aproximadamente una distribución normal estandarizada, lo que
Comparación de proporciones en dos muestras independientes
entre expuestos y no Ejemplo 7.4E(p
expuestos, En1 la 2) = 17.2
- pTabla - se presenta el número de muertes por enfermedad
permitirá determinar la significación estadística de la diferencia entre proporciones.
)% para 1 - 2 se obtiene siguiendoobservadas
cardiovascular el mismo durante el seguimiento del estudio NHANES II entre
Tabla 7.2 Muertes por enfermedad cardiovascular
rción como Ejemplo
los sujetos En(ECV)
7.4con niveles durante
la Tablaaltos el seguimiento
7.2 ysemoderados-bajos
presenta el número
de de del estudio
muertes
colesterol por enfermedad
sérico total (Ejemplo
NHANES II según niveles del colesterol sérico total.
cardiovascular observadas
7.2). La proporción durante
de muertes
Colesterol porelenfermedad
seguimiento
Mortalidad del
ECVestudio NHANES
cardiovascular
por II entre
es p1 = 254/2.713
p1 (1 p1 ) p 2 (1 p 2 )
, total (mmol/l) Sí No Total
n1 n 2 los sujetos
= 0,094 en con niveles altos ycon
los participantes moderados-bajos de colesterol
niveles de colesterol sérico total
total superiores (Ejemplo
a 6,20
≥ 6,20 254 2.459 2.713
< 6,20 309 4.690 4.999
cia de proporciones 7.2).
mmol/lLa yproporción
muestrales pcon
2 = una de muertes
309/4.999 porenenfermedad
= 0,062
amplitud aquellos cardiovascular
con es p1a=6,20
niveles inferiores 254/2.713
mmol/l.
Total 563 7.149 7.712
ón de su error estándar.=Por0,094
tanto,enlalosestimación
participantes con niveles
puntual de colesterol
de la diferencia total superiores
de riesgos subyacentea es6,20
p - p2 =
Ejemplo 7.4 En la Tabla 7.2 se presenta el número de muertes por1 enfermedad
cardiovascular
mmol/l observadas=durante
p2 = =309/4.999 el aquellos
seguimiento con del estudio NHANES II entre los sujetos
0,094 - y0,062
s en la probabilidad subyacente 0,032 y su 0,062 en
la intervalode de confianza niveles
al 95% inferiores a 6,20 mmol/l.
con nivelesde desarrollar
altos y moderados-bajos colesterol sérico total (Ejemplo 7.2). La proporción
de muertes
Por tanto, lapor enfermedad
estimación cardiovascular
puntual de la diferencia es p1 de
= 254/2.713 = 0,094 eneslos
riesgos subyacente p1 participantes
- p2 =
y no expuestos, se contrasta
con nivelesla hipótesis
de colesterol H0:0,superiores
nula total 094(1 0,094 0,062(1yp02 ,=062
) mmol/l
a 6,20 )
309/4.999 = 0,062 en aquellos
0,032 z 0,975
con niveles
0,094 - 0,062inferiores
= 0,032 ya su 6,20 mmol/l.
2.713
intervalo dePor tanto, laalestimación
confianza 495%
.999 puntual de la diferencia de
bilateral H1: 1 2. Bajo
riesgosla hipótesis
subyacente nulaes de
p1 – p2 = 0,094 – 0,062 = 0,032 y su intervalo de confianza al 95%
cardiovascular en los sujetos con=niveles 0,032 altos de colesterol
1,960,007 = (0,019;total0,045).
excedió en 32
, se cumple que 0,094(1 0,094) 0,062(1 0,062)
0,032 z 0,975
casos por 1.000 a la de los participantes 2.713 con niveles4más .999bajos (IC al 95% entre 19
Para el contraste bilateral de la hipótesis nula de igualdad de proporciones
1 1 = diferencia
0,032 1,960,007 = (0,019;(0,045).
0, (1 ) y ,45 casos por 1.000), siendo esta muy significativa P < 0,001).
n
1 n 2 poblacionales
Para el contraste 1 = 2 de
H0:bilateral se emplea el estadístico
la hipótesis nula de igualdad de proporciones poblacionales
H0: πel
Para π2 se emplea
1 =contraste el estadístico
bilateral de la hipótesis nula de igualdad de proporciones
de enfermar común para expuestos y no 0,032
z = [Tabla 7.2 aproximadamente aquí]= 5,13,
poblacionales H0: 1 = 2 se emplea el estadístico 1 1
es desconocida, su valor puede estimarse 0,073(1 0,073)
2.713 4.999
Ejemplo
donde p 7.5 La
a +Tabla
cz)/(=n17.3
= (563/7.712 += muestra
0,073 eslos 0la,032
casos de infarto
proporción de miocardio
global y lospor enfermedad
nfermos en ambas muestras = de muertes
5,13,
donde p = 563/7.712
cardiovascular en todos= los 0,073 es la proporción
participantes del1 NHANES 1 de
global II.muertes
El valorporP enfermedad
del test se obtiene
controles del EURAMIC 0,073
con (1valores
0,073de ) colesterol
HDL superiores o inferiores a
para este test es como 2P(Z ≥ 5,13) = 2{1 – Φ(5,13)} < 0,001.
2.713 4.999 En resumen, después de 15 años de
seguimiento,
cardiovascularlaen incidencia
todos losacumulada
participantes de del
muertes
NHANESpor enfermedad
II. El valor cardiovascular
P del test se en los
0,90
sujetosmmol/l. A partiraltos
con niveles de esta tabla 22, total
de colesterol se pretende
excediócomparar
en 32 casosla proporción
por 1.000dea la de los
obtienepcomo
donde
participantes = 563/7.712
con
2P(niveles = 0,073
Z 5,13) más es la- (IC
= bajos
2{1 proporción global
al 95%< entre
(5,13)} 0,001. de
19En muertes
y 45 casos por
resumen, por enfermedad
1.000),desiendo
después 15 esta
sujetos
diferencia conmuyniveles bajos de colesterol
significativa (P < 0,001). HDL ( 0,90 mmol/l) entre casos p1 = c/m1
cardiovascular en todos los participantes
años de seguimiento, la incidencia acumulada del NHANES
de muertes II. por
El valor P del test se
enfermedad
= 193/4627.5
Ejemplo = 0,418 y controles
La Tabla p2 = dlos
7.3 muestra /m2 casos
= 158/539 = 0,293.
de infarto La diferencia
de miocardio y losdecontroles del
obtiene como 2 P ( Z 5,13) 7= 2{1 - (5,13)} < 0,001. En resumen, después de 15
EURAMIC con valores de colesterol HDL superiores o inferiores a 0,90 mmol/l. A8 partir
proporciones
de esta tabla muestrales
2×2, se pretendees p1 - comparar
p2 = 0,418la- 0,293 = 0,125
proporción deysujetos
el IC alcon para bajos
95%niveles 1- de
años de seguimiento, la incidencia acumulada de muertes por
colesterol HDL (≤ 0,90 mmol/l) entre casos p1 = c/m1 = 193/462 = 0,418 y controles p2 = enfermedad
d/m dado por= 0,293. La diferencia de proporciones muestrales es p1 – p2 = 0,418 –
2 = 158/539
2 viene
0,293 = 0,125 y el IC al 95% para π1 – π2 viene dado por 8
p1 (1 p1 ) p 2 (1 p 2 )
p1 p 2 z 0,975
m1 m2
0,418(1 0,418) 0,293(1 0,293)
= 0,125 1,96
462 539
= 0,125 1,960,030 = (0,065; 0,184).
Pastor-Barriuso R. 101
7.4 fijos), retrospectivos
ASOCIACIÓN (marginales m1 EN
ESTADÍSTICA y m2UNA
fijos)TABLA
y transversales (tamaño muestral n fijo).
DE CONTINGENCIA
102 Pastor-Barriuso R.
Ejemplo 7.6 La Tabla 7.2 muestra los valores observados de la asociación entre la
Ejemplo
estimarse7.6 La Tabla
mediante 7.2 muestra
la proporción los valores
combinada observados
de muertes de lamuestras
en ambas asociación entre la
mortalidad por enfermedad cardiovascular y el colesterol total en el estudio prospectivo
NHANES
563/7.712 =II.0,073.
Si ambas variables
Así, entre fueran
los 2.713 independientes,
participantes la probabilidad
con niveles altos de de morir por
enfermedad cardiovascular sería igual en los sujetos con niveles altos y bajos de
colesterol total,
total.cabría
Esta probabilidad podría =entonces
esperar 2.7130,073 estimarse
198,1 muertes mediante la proporción
por enfermedad
combinada de muertes en ambas muestras 563/7.712 = 0,073. Así, entre los 2.713
participantes
cardiovascularcon bajoniveles altos de
la hipótesis nulacolesterol total, cabría
de independencia. esperar este
Aplicando 2.713·0,073
mismo = 198,1
muertes por enfermedad cardiovascular bajo la hipótesis nula de independencia.
Aplicando
razonamiento,estelosmismo
valoresrazonamiento, los valores
esperados en cada esperados
celda vendrían en por
dados cada celda vendrían
dados por
Estos valores esperados se representan en la Tabla 7.4. Notar que los marginales de la
[Tabla
tabla de frecuencias observadas 7.4 aproximadamente
(Tabla aquí] 7.4) coinciden. De hecho,
7.2) y esperadas (Tabla
una vez calculado el valor esperado en una cualquiera de las celdas, los restantes11
valores
esperados de la tabla 2×2 quedan determinados por dichos marginales.
Para evaluar la independencia de las variables de una tabla 22, se comparan las
Para evaluarobservadas
frecuencias la independencia de las mediante
y esperadas variables el
deestadístico
una tabla 2×2, se comparan las frecuencias
observadas y esperadas mediante el estadístico
2 2
(Oij E ij ) 2
2 = Eij .
i 1 j 1
Cuanto mayor sea la diferencia entre los valores observados y esperados, mayor será la magnitud
del estadístico y, en consecuencia, se tendrá mayor evidencia en contra de la hipótesis nula de
independencia. En particular, puede probarse que si las variables de la tabla 2×2 son
independientes, este estadístico sigue aproximadamente una distribución chi-cuadrado con 1
grado de libertad (sólo una frecuencia esperada de la tabla 2×2 es independiente). El valor P del
contraste corresponde entonces a la probabilidad a la derecha del estadístico χ 2 bajo la
distribución χ 21. Esta prueba se conoce con el nombre de test chi-cuadrado de independencia
o asociación de Pearson, y puede aplicarse siempre que los marginales de la tabla sean
suficientemente grandes, de tal forma que todas las frecuencias esperadas sean superiores o
iguales a 5.
Ejemplo 7.8 La Tabla 7.5 muestra las muertes por enfermedad cardiovascular
Dado que las frecuencias esperadas son superiores a 5, puede utilizarse la distribución
chi-cuadrado
Dado queconlas
(3frecuencias
– 1)(2 – 1)esperadas
= 2 grados
son de libertad a(Tabla
superiores 6 del
5, puede Apéndice)
utilizarse la para
obtener un valor P = P(χ 2 ≥ 33,79) < 0,005. Esto es, la incidencia de muertes por
2
enfermedad cardiovascular
distribución difierecon
chi-cuadrado significativamente
(3 - 1)(2 - 1) = 2entre
gradoslosde
tres grupos,
libertad obteniéndose
(Tabla 6 del
una incidencia acumulada en los 15 años de seguimiento de 52, 72 y 94 muertes por
cada 1.000 participantes
Apéndice) con niveles
para obtener un valordeseables,
P = P( 22 limítrofes
33,79) <altos
0,005.y Esto
altoses,
delacolesterol
total, respectivamente.
incidencia de muertes por enfermedad cardiovascular difiere significativamente
Tabla 7.5 Frecuencias observadas (esperadas) de
entre los tres por
muertes grupos, obteniéndose
enfermedad una incidencia
cardiovascular acumulada
(ECV) entre en
loslos 15 años de
participantes del NHANES II con niveles de colesterol
seguimiento de 52,
total < 5,20, 72 y 94ymuertes
5,20-6,19 por cada 1.000 participantes con niveles
≥ 6,20 mmol/l.
Colesterol Mortalidad por ECV
deseables, limítrofes altos y altos de colesterol total, respectivamente.
total (mmol/l) Sí No Total
≥ 6,20 254 (198,1) 2.459 (2.514,9) 2.713
5,20-6,19 174 (175,8) 2.234 (2.232,2) 2.408
< 5,20 [Tabla 7.5
135 (189,1) aproximadamente
2.456 (2.401,9) aquí]
2.591
Total 563 7.149 7.712
A partir de una tabla r2, el test chi-cuadrado de Pearson permite contrastar la hipótesis
De este Deresultado
este resultado p1se p1 )que pp21que
(1 desprende
se desprende (-1 p2ppes
1 2-)un
p2 estimador
es un estimador
puntual
puntual
insesgado
insesgado
de la de la
p1 p 2 z1 / 2 ,
Inferencia sobre proporciones n1 n 2
diferencia
diferencia
de riesgos
de riesgos
subyacente 1 - 2entre
subyacente 1 - 2 expuestos
entre expuestos
y no expuestos,
y no expuestos, p2)1=- p12)- = 1 -
E(p1 -E(p
e es simétrico alrededor de la diferencia de proporciones muestrales con una amplitud
. El intervalo
2. El intervalo
de confianza
de confianza
al 100(1 - )%-para
al 100(1 )%para 1 - 2se 2 se obtiene
1 - obtiene siguiendo
siguiendo
el mismo
el mismo
7.5 2 TEST DE TENDENCIA EN UNA TABLA r×2
ectamente proporcional a la estimación de su error estándar.
Aprocedimiento
partirprocedimiento
utilizado
de una tabla utilizado
r×2, para
el testuna
paraproporción
una proporción
chi-cuadrado como
de comopermite contrastar la hipótesis nula de
Pearson
Para determinarigualdad
si existende diferencias
proporciones en H π1 = π2 = ... =subyacente
la0:probabilidad πr frente a de la hipótesis
desarrollar alternativa
la H1: πi ≠ πj, donde
i y j son 2 muestras cualesquiera. Un resultado p1 (1 ppsignificativo
) pp12)(1 ppde ) esta
p 2 prueba indicaría que al
1 1(1 2 2(1 )
menos 2 de las r p1 pp2poblacionales
proporciones 1 zp
fermedad entre los sujetos expuestos y no expuestos, se contrasta / 2 z1 / 2son heterogéneas.
12
lanhipótesis En
nula ,el
H0:caso, de que los grupos o
simplemente tomar los valores 1, 2, ..., r indicando el orden de n1los grupos.
1 An
muestras estén intrínsecamente ordenados, cabría preguntarse además si estas proporciones
2 n 2
= 2 frente a la siguen
hipótesisalguna tendencia
alternativa determinada
bilateral H1: 1 alo largo la dehipótesis
los grupos. nulaEndeeste apartado se presenta un
continuación, setest
relacionan las proporciones observadas 2.pBajo con sus correspondientes
que específico
esquesimétrico
simplemente para
es simétrico
tomar detectar
alrededorlos delalaexistencia
alrededor
valores diferencia
de2,la...,
1, r de
i
diferencia deun gradiente
proporciones
indicando de omuestrales
proporciones
el orden componente conlineal
muestrales
de los grupos. una (creciente
Aconamplitud o
una amplitud
decreciente) entre las proporciones de los sucesivos grupos.
ualdad de proporciones
puntuaciones si mediante H0el: estadístico
1 = 2 = , se cumple que
directamente
directamente
continuación,
En primer proporcional
proporcional
se relacionan
lugar, se asigna a lalasestimación
una a puntuación
la estimación
proporciones de su error
de su estándar.
sobservadas errorpiestándar.
con sus correspondientes
i a cada una de las muestras ordenadas. Esta
puntuación puede representar un atributo numérico del grupo (ver Ejemplo 7.9), o simplemente
Para
lospdeterminar
Para determinar
puntuaciones r ...,
si
s~i1,medianteexisten si el 1 diferencias
existen
diferencias
estadístico 1 en2
la probabilidad
en la probabilidad subyacente
subyacente
de desarrollar
de desarrollar
la la
tomar valores
1 p 2 N
2, 0n, (r(p1indicando
p))( s els )orden
, de los grupos. A continuación, se relacionan las
proporciones observadas
i pi i con sus
n1i correspondientes
n2
puntuaciones si mediante el estadístico
enfermedad
enfermedad entre
2
= los
entre
i 1
sujetos
los sujetos
expuestosexpuestosy no , expuestos,
y no expuestos,
se contrasta
2 se contrasta
la hipótesis nula Hnula
la hipótesis 0: H0:
r
r 2
p (1 p ) ni ( s i s ) ni ( p i p )( s i s )
nde corresponde 1 a=la2probabilidad
= 2 frente
1frente
de
a laenfermar
a la hipótesis hipótesis común
ialternativa
1 2 alternativa
para expuestos
i 1bilateral H1: 1Hy1:no
bilateral 2.1 Bajo
2. la
Bajo
hipótesis
la hipótesis
nula de
nula de
= r
,
puestos. Aunque igualdad
esta probabilidad
igualdad
de proporciones es desconocida,
de proporciones H0: 1H=0:2su p (1valor
1==
,2sep=)cumple
puede
, ni (cumple
se sestimarse
i s)
que
2
que
donde ni es el tamaño de cada muestra, n = ni, p = nipi/n esi la 1 proporción
prospectivos
7.6.1 parariesgo
veces más
Riesgo comparar
relativo o sonlaun
incidencia
25% másdepropensos
la enfermedad entre expuestos
a desarrollar y no que los
la enfermedad
expuestos,
El riesgo no y seodefine
relativo razón
expuestos como
de
(100( riesgos
- 1) =es100(1,25
la medida- 1)de =
efecto
25%).más utilizada en estudios prospectivos
para comparar la incidencia de la enfermedad entre expuestos y no expuestos, y se define como
< 1 indica una menor probabilidad 1 deP(contraer
D | E ) la enfermedad en expuestos que
= ,
2 P( D | E c )
en no expuestos. Por ejemplo, si = 0,80, los sujetos expuestos son un 20%
donde π1 = P(D|E) y π2 = P(D|Ec) representan la probabilidad de desarrollar la enfermedad D
entre los sujetos
donde 1 = P(D|E)
menos y 2 E=a ydesarrollar
expuestos
propensos no expuestos
P(D|E c Ec, respectivamente.
) representan la probabilidad
la enfermedad Así,
que los no de el riesgo (100(0,80
relativo
desarrollar
expuestos la determina
- 1)
cuántas veces es más frecuente la enfermedad en expuestos que en no expuestos. Se trata, por
tanto, de =una
enfermedad medida
D entredelos
-20%). efecto
sujetosmultiplicativa
expuestos Eque y nopuede tomarEcualquier
expuestos c valor no negativo,
, respectivamente. Así, el de
tal forma que:
riesgo relativo
yy ψ =Un
1 indica la
valordetermina
de y su cuántas
misma inverso 1/ representan
veces
probabilidad es más
de frecuente
enfermar la enfermedad
el mismo nivel de
en expuestos en expuestos
asociación,
y no expuestospero en =
P(D|E)
P(D|Ec); es decir, la exposición y la enfermedad son independientes. Cuanto más alejado
queesté
ensentido
nodeexpuestos.
ψ opuesto.
1 en SePor
cualquiertrata, por tanto,
ejemplo,
sentido, si de
mayor una
=será
4, lamedida
los sujetosdeexpuestos
magnitud efecto multiplicativa
son 4 veces
de la asociación que
entremás
exposición
y enfermedad.
puede propensos
tomar cualquier valor nolanegativo,
a desarrollar enfermedad de tal
queforma
los noque:
expuestos, o equivalentemente
yy ψ > 1 indica una mayor probabilidad de desarrollar la enfermedad en expuestos que en no
expuestos.
Por ejemplo, ψ = 1,25, losdesujetos
siprobabilidad expuestos tienen 1,25
y no veces más riesgo o
los= no
1 indica la misma
expuestos son un 75% menos propensosenfermar aen expuestos
contraer expuestos
la enfermedad que los
son un 25% más propensos a desarrollar la enfermedad que los no expuestos (100(ψ – 1)
= 100(1,25
P(D|E) =– P(D|E
1) = 25%).
c
);es- decir, la exposición
expuestos (100(1/ 1) = 100(0,25 - 1) =y-75%).
la enfermedad son independientes.
yy ψ < 1 indica una menor probabilidad de contraer la enfermedad en expuestos que en no
expuestos.
Esta medida Pordeejemplo, si ψ = 0,80,
efecto también puedelosaplicarse
sujetos expuestos
a estudiosson un 20% menos
transversales propensos a
en términos
desarrollar la enfermedad que los no expuestos (100(0,80 – 1) = –20%). 18
yde la razón
y Un valor dede prevalencias.
ψ y su inversoSin 1/ψembargo,
representany aleligual quenivel
mismo ocurríade con la diferencia
asociación, de sentido
pero en
opuesto. Por ejemplo, si ψ = 4, los sujetos expuestos son 4 veces más propensos a
riesgos, el riesgo
desarrollar relativo no que
la enfermedad es directamente
los no expuestos,estimable a partir de estudios
o equivalentemente los no expuestos son
un 75% menos propensos a contraer la enfermedad que los expuestos (100(1/ψ – 1) =
retrospectivos
100(0,25 – 1)ya=que la proporción de casos está predeterminada por el propio diseño
–75%).
Esta medida de efecto también puede aplicarse a estudios transversales en términos de la
del estudio.
razón de prevalencias. Sin embargo, y al igual que ocurría con la diferencia de riesgos, el riesgo
relativo
A no es directamente
partir estimable a en
de los datos observados partir
unade estudios
tabla retrospectivos
22 (Tabla 7.1), un ya que la proporción
estimador puntual de
casos está predeterminada por el propio diseño del estudio.
delpartir
A riesgoderelativo viene
los datos determinado
observados por tabla 2×2 (Tabla 7.1), un estimador puntual del
en una
riesgo relativo viene determinado por
p1 a / n1
RR = ,
p 2 c / n2
que corresponde al cociente entre la proporción de enfermos en la muestra de sujetos expuestos
p1 = a/n1 y no expuestos p2 = c/n2.
19
Ejemplo 7.10 De la Tabla 7.2 se desprende que la proporción de muertes por enfermedad
cardiovascular es p1 = 254/2.713 = 0,094 en los participantes del estudio NHANES II con
niveles de colesterol total superiores a 6,20 mmol/l y p2 = 309/4.999 = 0,062 en aquellos
con niveles inferiores a 6,20 mmol/l. Así, la estimación puntual del riesgo relativo es
RR = 0,094/0,062 = 1,51;
108 Pastor-Barriuso R.
El cálculo de un intervalo de confianza y un test de hipótesis para no resulta
Medidas de efecto en una tabla de contingencia
sencillo ya que la distribución muestral de su estimador RR es muy asimétrica,
particularmente cuando el riesgo relativo subyacente dista mucho del valor nulo 1. Para
es decir, la incidencia acumulada de muertes por enfermedad cardiovascular en 15 años
de seguimiento
solventar es un de
este problema 51% superior en
inferencia, los sujetostrabajar
es preferible con niveles altos
con el de colesterol
logaritmo naturaltotal
del que
en quienes tienen niveles más bajos.
riesgo relativo, cuya distribución presenta una mayor simetría. De hecho, puede
El cálculo de un intervalo de confianza y un test de hipótesis para ψ no resulta sencillo ya
queprobarse
la distribución muestral
que si los tamaños dedesu ambas
estimador RR esson
muestras muy asimétrica, particularmente
suficientemente grandes n11(1cuando
- 1) el
riesgo relativo subyacente dista mucho del valor nulo 1. Para solventar este problema de
inferencia,
5 y n2es preferible
2(1 - 2) 5,trabajar
el log(RR)contiende
el logaritmo naturalde
a distribuirse delforma
riesgo relativo,
normal concuya distribución
media log()
presenta una mayor simetría. De hecho, puede probarse que si los tamaños de ambas muestras
sonysuficientemente 1/an-1π1/n
grandes
varianza aproximada + π1/c
1(11 – 1) ≥- 5 y 2n, 2π2(1 – π2) ≥ 5, el log(RR) tiende a distribuirse
1/n
de forma normal con media log(ψ) y varianza aproximada 1/a – 1/n1 + 1/c – 1/n2,
~ N log( ), 1 1 1 1 .
log( RR)
a n1 c n 2
Ejemplo 7.11 En las Figuras 7.2(a) y (b) se presentan las distribuciones muestrales
RR y del7.11
delEjemplo log(RR) deFiguras
En las mortalidad poryenfermedad
7.2(a) cardiovascular
(b) se presentan entre los sujetos con
las distribuciones
un colesterol total ≥ 6,20 y < 6,20 mmol/l obtenidos a partir de 1000 muestras aleatorias
simples de tamaño
muestrales del RR 500
y deldel estudio
log(RR) NHANES por
de mortalidad II. enfermedad
Como puede observarse, ambas
cardiovascular
distribuciones están centradas alrededor de los parámetros subyacentes 1,51 y log(1,51)
= 0,42 en todos los participantes del estudio. Sin embargo, la distribución muestral del
20
RR presenta una clara asimetría, mientras que el log(RR) se distribuye de forma
aproximadamente normal.
25 25
20 20
15 15
Frecuencia relativa (%) en muestras de tamaño 500
10 10
5 5
0 0
0 1 2 3 4 -1 0 1 2
25 25
20 20
15 15
10 10
5 5
0 0
0 1 2 3 4 -1 0 1 2
Pastor-Barriuso R. 109
1 / 2
En base a la distribución aproximadamente a normal
n1 cdel log(RR),
n2
[Figura 7.2 aproximadamente aquí] puede obtenerse un
intervalo
Inferencia de confianza
sobre proporciones - )% para el
al 100(1 logarítmica
Deshaciendo la transformación enlog( ) como
ambos límites de este intervalo, el IC al
En base a la distribución aproximadamente normal del log(RR), puede obtenerse un
bajo -H0 )%
que100(1 siguepara el riesgo relativouna
aproximadamente subyacente 1 queda
distribución 1 entonces
1normal determinado
estandarizada.
1 por
Conviene
intervalo
En base ade - ) )%
confianza alaproximadamente
la distribución 100(1
log( RR zpara del
el log(
1 / 2 normal )como
log(RR),
. puede obtenerse un intervalo
de confianza
destacar que estaal 100(1 – α)%nula
hipótesis paraHel:
log(ψ)
= 1 comoa con
coincide
n1 c n 2
la hipótesis H : = 2 de la
0
1 1 1 1 0 1
explog( RR) z1 / 2 1 1 1 1 .
Deshaciendo
comparación de la log(
transformación
proporciones RR z1 / 2 en
)muestras
logarítmica
en dos aambos
n1 límites
c nde
independientes, 2. este intervalo, el IC al
a n1 c n 2así como con la hipótesis
100(1
Deshaciendo- )% la para el del
riesgo
transformación relativo subyacente queda entonces determinado por
unalogarítmica enenambos límites deEste
este intervalo, el IC unal 100(1
2
nula de independencia
Notar que por tratarse detest de Pearson
medida de efecto una tabla 22.
multiplicativa, test es, por
el intervalo detanto,
confianza
– α)%
Deshaciendo
para el la
riesgo transformación
relativo subyacente ψ
que bajo H0 sigue aproximadamente una distribución normal estandarizada. Conviene al
logarítmicaqueda en ambos
entonces límites de
determinadoeste intervalo,
por el IC
procedimiento
no es simétrico alternativo
alrededor para
de contrastar
la estimaciónla misma
puntual hipótesis
RR. nula,quelaarroja resultados
100(1 - )% para el riesgo relativo subyacente 1 Asimismo,
1 queda 1entonces hipótesis
1 determinado nula de
destacar que esta hipótesisexp nula H0: RR
log( =) 1 zcoincide
1 / 2 lahipótesis
con H . 0: 1 = 2 depor la
muy similares cuando el tamaño muestral es grande.a No n1 obstante,
c n 2 si la muestra es
no efecto H0: = 1 puede contrastarse frente a la hipótesis alternativa bilateral H1:
comparación
Notar que pordetratarseproporciones
de una en dos muestras
medida de efectoindependientes,
1 1 1 así
multiplicativa, el como condela confianza
1 intervalo hipótesis no es
moderada
1Notar o
mediante
simétrico que pequeña, el
el estadístico
alrededor
por valor
de la de
tratarse exp P de
log(
estimación
una este
medida test
RRpuntual puede
) dez1efecto
RR.
/2 resultar algo impreciso,
la hipótesis
Asimismo,
multiplicativa, .intervalo
el en cuyo
nulade nocaso
efecto H0:
deconfianza
2 a n c n
nula
ψ = 1de independencia
puede contrastarsedel test ala de
frente Pearson
hipótesis en una tabla
alternativa
1
22. H
bilateral
2
Este test es, por tanto, 2un
1: ψ ≠ 1 mediante el estadístico
es preferible utilizar los contrates basados en la diferencia de proporciones o el test
no es simétrico alrededor de la estimaciónlog( RR) RR. Asimismo, la hipótesis nula de
puntual
procedimiento
Notar que por alternativo
tratarse de para z delaefecto
unacontrastar
medida mismamultiplicativa,
hipótesis, nula,elque arroja resultados
intervalo de confianza
de no
Pearson.
efecto H0: = 1 puede contrastarse frente 1 1 1 1
a la hipótesis alternativa bilateral H1:
muy nosimilares
es simétrico cuando el tamaño
alrededor de lamuestral aes grande.
estimación npuntual
1 c No n 2obstante,
RR. Asimismo, si lalamuestra esnula de
hipótesis
que1 bajo
mediante
H0 sigue
Ejemplo
el estadístico
7.12 aproximadamente
Retomando una distribución
de este
nuevo delnormal estandarizada. Conviene la destacar
moderada
no efectoo pequeña,
H : = 1elpuede P de
valor contrastarse testlos
frente
datosresultar
puede a la
NHANES
hipótesis
II presentados
algoalternativa
impreciso, en cuyo
bilateral
encaso
H 1: de
que esta hipótesis nula H : ψ = 1 coincide con la hipótesis H : π = π de la comparación
0
0 0 1 2
proporciones en dos
Tabla 7.2, muestras
el IClos independientes,
al contrates
95% para el log(en asíRR
log(
) resultacomo
) con la hipótesis nula de independencia
ser 2
es preferible
1 mediante utilizar
el estadístico basados
z la diferencia ,de proporciones o el test
del test χ de Pearson en una tabla 2×2. Este
2
test
1 1 1 1 es, por tanto, un procedimiento alternativo para
contrastar la misma hipótesis nula, que arroja resultados
muy similares cuando el tamaño 21
de Pearson. a 1n1 c 1 n 2 1
1 muestra
muestral es grande. No obstante, si la
log(1,51) z 0,975 z log(es moderada
RR
) o pequeña, el valor P de este test
puede resultar algo impreciso, en cuyo 254 caso 2.713
es 309 4,utilizar
preferible .999 los contrastes basados en la
1 1 1 1
diferencia de proporciones o el test
χ 2 de Pearson.
Ejemplo 7.12 Retomando de nuevo alos datos
n cdel nNHANES II presentados en la
= 0,415 1 1,960,081 2
= (0,256; 0,574).
Ejemplo
Tabla 7.2,7.12 Retomando
el IC al 95% para eldelog( nuevo los datos
) resulta ser del NHANES II presentados en la
Tabla 7.2, el IC al 95% para el log(ψ) resulta
Aplicando la exponencial a ambos límites del intervalo, ser el IC al 95% para 21
1 1 1 1
por1,51) z 0,975
vendría dadolog(
254 2.713 309 4.999 21
= 0,415
(exp{0,256}, 1,960,081
exp{0,574}) = (0,256;
= (1,29; 1,78), 0,574).
Aplicando la exponencial a ambos límites del intervalo, el IC al 95% para ψ vendría dado por
que es ligeramente
Aplicando asimétrico
la exponencial respecto
a ambos
(exp{0,256},
a ladel
límites estimación
exp{0,574}) intervalo, el IC alRR
puntual
= (1,29; 1,78),
= 1,51.
95% para El
que corresponde a un valor P bilateral 2P(Z 5,11) = 2{1 - (5,11)} < 0,001.
,
medirse
7.6.2 Odds ratio la probabilidad P(D|E)
mediante P( D c de
| Eque
) un sujeto de la población expuesta
vendría dada por
presente o desarrolle
La frecuencia de una dicha enfermedad.
enfermedad D en una Otrapoblación
medida de frecuencia
expuesta
Medidas adeun de la
factor
efecto en enfermedad
unaEtabla
suele
de contingencia
que se conoce como el odds de estar enfermo P( D | E ) entre los expuestos y puede estimarse
vendría ,
medirse dada
mediantepor la probabilidad P(D|E) P( D c de | Eque ) un sujeto de la población expuesta
mediante
7.6.2 Odds ratio
presente o desarrolle dicha enfermedad.POtra ( D | medida
E) de frecuencia de la enfermedad
que se conoce como el odds
La frecuencia de una enfermedad D ena /unade estar enfermo entre
n1( Dpoblación
ca
,
los expuestos
expuesta ya puede un factor estimarse
E suele medirse
P | .E )
vendría dada por
mediante la probabilidad P(D|E) de quebun / nsujeto
1 b de la población expuesta presente o desarrolle
mediante
dicha enfermedad. Otra medida de frecuencia de la enfermedad vendría dada por
que se conoce como el odds de estar enfermo P( D | Eentre ) los expuestos y puede estimarse
a / n1 por ca
,
Ejemplo 7.13 La proporción de muertes P ( D | .E enfermedad
) cardiovascular entre los
mediante b / n1 b
que se conoce como el odds de estar enfermo entre los expuestos y puede estimarse mediante
participantes del NHANES II con niveles de colesterol total 6,20 mmol/l es
que se conoce como el odds de estar enfermo a / n1 entre a los expuestos y puede estimarse
.
Ejemplo 7.13porLa proporción deconmuertesb / n1poraltos b de colesterol
medianteesto es, cada 10 sujetos a niveles 254 enfermedad cardiovascular
que no fallezcan entre los
por
0,094 ;
Ejemplo n1de muertes
2.713 por enfermedad cardiovascular entre los
esto es,7.13
participantes
enfermedad pordel La
NHANESproporción
cardiovascular,
cada 10 sujetosII con habrá
con niveles de
aproximadamente
niveles altos colesterol
de colesterol total
1 muerteque 6,20no
por mmol/l
dicha es
fallezcan causa
por a
participantes del NHANES II con a
niveles/ n 1 deacolesterol total ≥ 6,20 mmol/l es
Ejemplo 7.13 La proporción de muertespor. enfermedad cardiovascular entre los
es decir,
los 15aproximadamente 1 dehabrá
cada 11 1sujetos b con niveles altosambas de colesterol
enfermedadaños de seguimiento.
cardiovascular, a baproximadamente
Aunque / nla
254 interpretación 1difiere,
muerte por medidas
dicha causade a
participantes del NHANES IIn con niveles 0de ,094 ;
colesterol total 6,20 mmol/l es
fallecerá 2.713
es,por
porenfermedad cardiovascular laa interpretación
los 15deaños dedifiere,
seguimiento. Por otraporde
1
frecuencia
esto
los 15 años facilitan
cada
de 10 la
seguimiento. misma
sujetos con información.
Aunqueniveles altos colesterol queambasno fallezcan
medidas
es decir,
Ejemplo aproximadamente
7.13 La proporción 1 dede cada 11 sujetos
muertes con nivelescardiovascular
por enfermedad altos de colesterol entrefallecerá
los
parte,
por el odds
enfermedad de morir por
cardiovascular enfermedad
a a
los 15 254
cardiovascular
años de entre
seguimiento. estos Por sujetos
otra es
parte, el odds
es decir, aproximadamente
enfermedad
frecuencia cardiovascular,
facilitan la misma1 dehabrá
cada 11
sujetos
aproximadamente
información. 0con ,094niveles
; 1 muerte altos por de colesterol
dicha causa a de
Departicipantes
morirforma equivalente,
por enfermedad el odds II
cardiovasculardecon n
estar
1 entre 2 . 713
enfermo estos entre
sujetos loses no expuestos se define
del NHANES niveles de colesterol total 6,20 mmol/l es
fallecerá
los 15 por
añosenfermedad
de seguimiento. cardiovascular
Aunque
a 254 laa los 15
interpretación años de seguimiento.
difiere, ambas Por otra
medidas de
como
Dees forma equivalente, el odds de enfermo
estar 0,103 ; los no expuestos se define
entre
decir, aproximadamente 1 bde cada 11 sujetos con niveles altos de colesterol
parte, el odds facilitan
de morir la por enfermedad a2.459 254
cardiovascular
frecuencia misma información.
0,094 ; entre estos sujetos es
comoestofallecerá
es, por cada 10 sujetos con
por enfermedad cardiovascular niveles
n altos
2 . 713 de colesterol que no fallezcan por enfermedad
1
P( D | Ea )los 15 años de seguimiento. Por otra
c 23
cardiovascular, habrá aproximadamente 1 muerte , por dicha causa a los 15 años de
a P254 c
| E 0c ,)103
seguimiento.
De parte, Aunque
formaelequivalente,
odds de lael interpretación
morir odds
por ( Denfermo
de estar
enfermedad difiere, ambas ; los
entre medidas
no de frecuencia
expuestos esfacilitan la
se define
es decir, aproximadamente 1 bde cada
misma información. P
2.(459D11 | Ecardiovascular
sujetos
c
) con nivelesentre estos
altos sujetos
de colesterol
,
como P( D c | E c )
y el odds ratio opor
fallecerá razón de odds entre
enfermedad expuestos
cardiovascular 254ayentre no15
los expuestos
años de queda seguimiento. entonces Por otra 23
De forma equivalente, el odds de estaraenfermo 0,103 ; los no expuestos se define como
b 2.459c
ydeterminado
el odds
parte, elpor
ratio o razón
odds de demorirodds porentre expuestos
enfermedad y) no expuestos
P( D | Ecardiovascular queda
entre estosentonces
sujetos es
,
P( D | E )c c
23
determinado por c c c
P( D | E ) / P( D
y el odds ratio o razónde= odds entre expuestos a | E254 ) P( D | E ) Pqueda (D | E )
yc no expuestos
0,103 ; entonces
, determinado por
P ( D | E
y el odds ratio o razón de odds entre expuestos
c
) / P ( b
D c
| 2
E . 459
) P ( D c
| E
y no expuestos cqueda ) P ( D | E c
) entonces
P( D | E ) / P( D c | E ) P( D | E ) P( D | E c )
= c c c
c c
, 23
determinado
cuya estimación por puntualP( D | E ) / P ( D | E ) P( D | E ) P( D | E )
cuya estimación puntual
cuya estimación puntual P( D | E ) / P ( D c
(a / |nE1 )( ) d / nP2()D | ad E ) P( D c | E c )
= OR = c c c ,
P( D | E c ) / P( D | E )
(b / n1 )(c / n 2 ) bc P ( D | E ) P ( D | E c
)
(a / n1 )(d / n 2 ) ad
coincide con la razón del productoOR =
cruzado de las celdas de una tabla 2×2.
cuya estimación puntual (b / n1 )(c / n 2 ) bc
coincide
Al conellariesgo
igual que razón relativo,
del producto el odds cruzado
ratio es deuna las celdas
medidadedeuna efecto tabla 22.
multiplicativa que toma
valores no negativos. Si ω = 1, las probabilidades de enfermar en expuestos y no expuestos
Al igual
coincide
coinciden conque
P(D|E) elP(D|E
la=razón riesgo c relativo,
del), producto
indicando elcruzado
odds
(a / nratio
1 )(ded las/esn 2una) medida
celdas ad de una detablaefecto 22. multiplicativa
OR = independencia entre exposición y enfermedad. Si por el
contrario ω > 1, la probabilidad de contraer (b / nla1 )(enfermedad
c / n 2 ) bcserá mayor en expuestos que en no
queAltoma
expuestos; igual valores
que elque
mientras no negativos.
riesgo < 1, Si
si ωrelativo, la el odds
= 1, las
probabilidad ratio probabilidades
esdeuna medidadede
desarrollar laenfermar en expuestos
efecto multiplicativa
enfermedad será menor y en
expuestos que en no expuestos. Resulta sencillo probar que el odds ratio estará siempre más
c
coincide
tomacon
no expuestos
que lacoinciden
valores razón delP(D|E)
producto
no negativos. cruzado
= P(D|E
Si de
= 1, ),lasindicando las celdas
probabilidades de de
unaenfermar
independencia tablaentre22. enexposición
expuestos yy
no Al igual que
enfermedad.
expuestos Si el
porriesgo relativo,
el contrario
coinciden P(D|E) el odds
=P(D|E
> 1, lac),probabilidad
ratio es unaindependencia
indicando medida de efecto
de contraer multiplicativa
laentre
enfermedad seráy R.
exposición
Pastor-Barriuso 111
que toma
en valores
enfermedad.
mayor noelque
Si por
expuestos negativos.
contrario > 1,
Si = la
1, probabilidad
en no expuestos; las probabilidades
mientras de enfermar
quedesicontraer
< 1, en expuestos
lalaprobabilidad
enfermedad será y
de
254 4.690
OR = = 1,57.
Inferencia sobre proporciones 2.459 309
y no expuestos, de tal forma que P(Dc|E) y P(Dc|Ec) estén próximas a 1, el odds ratio
Por tanto, el odds de mortalidad por enfermedad cardiovascular es un 57%
será entonces
alejado del valor aproximadamente igualrelativo.
nulo 1 que el riesgo al riesgo relativo.si la probabilidad de enfermar es baja en
Además,
los sujetos superior
expuestosen los sujetos
y no con niveles
expuestos, de colesterol
de tal forma que P(Dtotal
c
|E) ysuperiores a 6,20próximas
P(Dc|Ec) estén mmol/l que
a 1, el
odds ratio será entonces
Ejemplo 7.14 Acon aproximadamente
partir de datos igual alenriesgo
observados relativo.
el estudio
en aquellos niveles inferiores a 6,20 mmol/l. Este NHANES
odds ratio II
es(Tabla 7.2),
ligeramente
Ejemplo 7.14 A partir
la estimación deodds
los datos observados en el estudio NHANES II (Tabla 7.2), la
mayor que puntual
el riesgodel
relativo ratio
RR =es1,51 estimado en el Ejemplo 7.10, aunque la
estimación puntual del odds ratio es
diferencia no es muy grande porque 254 la4.incidencia
690 acumulada es relativamente baja
OR = = 1,57.
2.459 309
tanto en expuestos 254/2.713 = 0,094 como en no expuestos 309/4.999 = 0,062.
Por tanto, el odds de mortalidad por enfermedad cardiovascular es un 57% superior en los
sujetos conelniveles
Por tanto, odds dedemortalidad
colesterol total superiores a cardiovascular
por enfermedad 6,20 mmol/l queesen unaquellos
57% con niveles
inferiores
De la propia a 6,20 mmol/l.
definición de Este odds obvio
, resulta ratio esqueligeramente
el odds ratiomayor
puedeque el riesgo
estimarse relativo
a partir
RR
superior
= 1,51enestimado
los sujetos
en con niveles 7.10,
el Ejemplo de colesterol
aunque la total superiores
diferencia a 6,20
no es muymmol/l
grande que
porque la
de estudios prospectivos y transversales, ya que ambos diseños facilitan estimaciones como
incidencia acumulada es relativamente baja tanto en expuestos 254/2.713 = 0,094 de
aquellos
en no con niveles
expuestos 309/4.999inferiores
= 0,062.a 6,20 mmol/l. Este odds ratio es ligeramente
las probabilidades de enfermar P(D|E) y P(D|Ec). Aplicando la definición de
Demayor que definición
la propia el riesgo relativo RR = 1,51
de ω, resulta obvioestimado
que el en el Ejemplo
odds 7.10,estimarse
ratio puede aunque laa partir de
estudios prospectivos
probabilidad y transversales,
condicional (ver Tema 2), ya elque
odds ambos diseñosexpresarse
ratio puede facilitan aestimaciones
su vez en de las
diferencia de
probabilidades no es muy grande
enfermar porque
P(D|E) la incidencia
y P(D|E c acumulada
). Aplicando es relativamente
la definición baja
de probabilidad
condicional
términos (ver
de laTema 2), el odds
probabilidad de ratio
estarpuede expresarse
expuesto a su vez
en enfermos enenfermos
y no términos de la probabilidad
como
tanto
de estar en expuestos
expuesto 254/2.713
en enfermos y no = 0,094 como
enfermos comoen no expuestos 309/4.999 = 0,062.
P( D | E ) P( D c | E c ) P( D E ) P( D c E c )
De la propia definición Pde( Dc, |resulta
E ) P ( Dobvio
| E c )quePel
( Dodds
c
Eratio
) P(puede
D Eestimarse
c
) a partir
( E | D) P( E c ya
de estudios prospectivos yPtransversales,
c
| D que) ambos diseños facilitan estimaciones de
,
P( E | D c ) P( E c | D)
las probabilidades de enfermar P(D|E) y P(D|Ec). Aplicando la definición de
de donde se desprende
estimación queodds
puntual del el odds ratio
ratio en es también
estudios estimable a partir
retrospectivos de estudios
coincide retrospectivos,
con la razón del
aundecuando
dondeestos
probabilidad se diseños (ver
desprende
condicional no
quefacilitan
el odds2),
Tema información
ratio es también
el odds alguna
ratio sobre
estimable
puede las probabilidades
a partir
expresarse devez
a su en absolutas de
estudios
enfermar en cruzado
producto expuestos y no expuestos. Por supuesto, la estimación puntual del odds ratio en
estudios
términos retrospectivos
retrospectivos, coincide
aun cuando
de la probabilidad condiseños
deestos
estar la razónnodel
expuesto producto
enfacilitan
enfermos cruzado
información alguna
y no enfermos sobre las
como
112 estimación
Pastor-Barriuso R. del riesgo relativo, asumiendo que se cumplen las condiciones citadas
anteriormente.
retrospectivo
población dedelhombres
estudio no permite
adultos, esteconocer la incidencia
odds ratio de infartoscomo
puede interpretarse entreunlosriesgo
con un colesterol HDL inferior a 0,90 mmol/l (100(0,58 - 1) = -42%).
sujetos
Como con
layvalores
relativo altos
concluir
incidencia deylos
que bajos
infarto de
sujetoscolesterol
agudo HDL, síes
condeunmiocardio
colesterol es
HDLposible
Medidas obtener
superior
de efecto
relativamente enauna
0,90
bajaunammol/l
tabla
en de contingencia
la
El odds
medida
presentanratio un
población es
relativade una
de
42% lamedida
hombresasociación
menos de efecto
riesgo
adultos, de multiplicativa
entre
este el colesterol
padecer
odds un puede
ratio cuya
HDL
infarto ydedistribución
elmiocardio
riesgo de
interpretarse muestral
infarto
que
como dees
aquellos
un riesgo
incidencia de infartos entre los sujetos con valores altos y bajos de colesterol HDL, sí es
notablemente
miocardio
con
posible un
relativo asimétrica
mediante
colesterol
obtener el(Figura
HDLodds
una medida
y concluir que los 7.2(c)),
ratio
inferior a 0,90
relativa
sujetos demientras
con lammol/l que
asociación
un suentre
colesterol transformación
(100(0,58HDLel - superior
1)colesterol
= -42%).alogarítmica
HDLmmol/l
0,90 y el riesgo
de infarto de miocardio mediante el odds ratio
log(OR) tiende aun
presentan distribuirse
42% menos normalmente
riesgo de (Figuraun
padecer 7.2(d))
infartocon deuna varianza
miocardio que aquellos
269 158
El odds ratio es una medida deOR efecto
= multiplicativa = 0,58.cuya distribución muestral es
aproximadamente igual HDL
a la suma de los 381 193 de las frecuencias de una tabla 22
inversos
con un colesterol inferior a 0,90 mmol/l (100(0,58 - 1) = -42%).
notablemente asimétricade(Figura
Como la incidencia infarto7.2(c)),
agudo de mientras
miocardio que essu relativamente
transformaciónbaja logarítmica
en la población
de hombres adultos, este odds ratio puede interpretarse 1 1 1 1 como un riesgo relativo y concluir
log(OR)
que tiende
los
El odds ratioaes
sujetos distribuirse
con
una un normalmente
var{log(OR)}
colesterol
medida (Figura
HDLmultiplicativa
de efecto superior 7.2(d))
a 0,90cuyacon
mmol/l unapresentan
varianza
. distribución un 42%
muestral esmenos
riesgo de padecer un infarto de miocardioa queb aquellos c d con un colesterol HDL26 inferior
aproximadamente
a 0,90 mmol/l
notablemente igual a(Figura
(100(0,58
asimétrica la –suma de los inversos
1) =7.2(c)),
–42%). mientrasde quelassufrecuencias
transformación de una tabla 22
logarítmica
Utilizando esta aproximación normal a la distribución muestral del log(OR) y
log(OR)
El odds tiende
ratio aesdistribuirse
una medida normalmente
de efecto(Figura 1 1 7.2(d)) 1 1con
multiplicativa cuya unadistribución
varianza muestral es
deshaciendoasimétrica
notablemente a continuación
(Figura var{log(OR)}
la 7.2(c)),
transformación
mientraslogarítmica, .
se obtiene ellogarítmica
que su transformación intervalo delog(OR)
a b c d
aproximadamente igual a la suma de los inversos de las
tiende a distribuirse normalmente (Figura 7.2(d)) con una varianza aproximadamente frecuencias de una tabla 22igual a la
confianza
suma al 100(1de
de los inversos - las
)%frecuencias
para el oddsderatio tabla 2×2
una subyacente
Utilizando esta aproximación normal a la distribución muestral del log(OR) y
1 1 1 1
var{log(OR)} .
deshaciendo a continuación transformaciónalogarítmica, 1 b 1 c 1 dse1 obtiene
explalog( OR) z1 / 2 , el intervalo de
Utilizando esta aproximación normal a la distribución a bmuestral c d del log(OR) y deshaciendo a
confianza
Utilizandoal
continuación 100(1
laesta - )% para
transformación
aproximación el odds aratio
logarítmica,
normal subyacente
lasedistribución
obtiene el intervalo
muestral de log(OR) yal 100(1 – α)%
delconfianza
para el odds ratio subyacente ω
que no es simétrico alrededor de la estimación puntual OR. De forma análoga, la
deshaciendo a continuación la transformación logarítmica, se obtiene el intervalo de
Ejemplo 7.16 Continuando con el ejemplo anterior, 1 1 el1 IC 1al95% para el odds
significación estadística exp log(OR) bilateral
del contraste z1 / 2 de la nula , H0: = 1 se obtiene
confianza al 100(1 - )% para el odds ratio subyacente a bhipótesisc d
ratio de infarto agudo de miocardio entre los sujetos con niveles altos y bajos de
quea no es simétrico
partir alrededor de la estimación puntual OR. De forma análoga, la significación
del estadístico
quecolesterol
no es
estadística delsimétrico
contraste
HDL es alrededor estimación
bilateral de la hipótesis nula1 H0:1ωOR.
puntual =11 seDe forma análoga,
1 obtiene a partir del la estadístico
explog(OR) z1 / 2 ,
log(ORa) b c d
significación estadística del contraste z bilateral de la hipótesis , nula H0: = 1 se obtiene
11 1 1 1 11 1
exp log(0,58) z 0,975
aqueEjemplo
partir
no es 7.16 Continuando
delsimétrico
estadístico con el 269 a b381
ejemplo c 193 d OR.
anterior, el158
ICDe al 95% para el odds
alrededor de la estimación puntual forma análoga, la
que bajo H0 sigue aproximadamente una distribución normal estandarizada.
ratio de infarto
significación agudodel
estadística de miocardio
contraste entre losdesujetos
bilateral con niveles Haltos
: =y 1bajos de
se obtiene
que bajo H0 sigue aproximadamente una distribución
= exp(-0,55log(OR ) la hipótesis nula
normal=estandarizada.
1,960,134) (0,44; 00,75).
z ,
Ejemplo
colesterol 7.16
HDL Continuando
es con el 1ejemplo 1 1anterior,1 el IC al 95% para el odds ratio de
a partir
infartodel estadístico
agudo de miocardio entreuna
losconfianza
sujetos
Por tanto, puede afirmarse con a b con cdelniveles
d95% que altoslos y bajos decon
sujetos colesterol
nivelesHDL es
1 log( 1OR) 56% 1 riesgo de padecer un
1 menos
altos de colesterol
log(HDL
0,58)tienen
z 0,975zentre
expaproximadamente unaun 25 y un
, estandarizada.
que bajo H0 sigue 269 distribución normal 27
1 1381 1 193 1 158
infarto de miocardio que quienes tienen
= exp( niveles
a0,55 más
d bajos=(100(0,75
b c1,960,134) - 1) = -25% y
(0,44; 0,75).
100(0,44
Por tanto, -puede
1) = -56%). Asimismo,
afirmarse con una el contrastedelbilateral
confianza 95% que delos
la hipótesis de niveles
sujetos con no altos de
que bajo H0 sigue aproximadamente una distribución normal estandarizada.
colesterol HDL tienen entre un 25 y un 56% menos riesgo de padecer un infarto de miocardio
Por tanto,
efecto H0: puede afirmarse el
tienen
= 1 mediante con una confianza del 95% que los sujetos con niveles 27
estadístico
que quienes niveles más bajos (100(0,75 – 1) = –25% y 100(0,44 – 1) = –56%).
Asimismo, el contraste bilateral de la hipótesis de no efecto H0: ω = 1 mediante el estadístico
altos de colesterol HDL tienen entre un 25 y un 56% menos riesgo de padecer un
log(0,58)
z= = − 4,10
infarto de miocardio que quienes1 tienen1 niveles
1 más
1 bajos (100(0,75 - 1) = -25% y 27
269 381 193 158
100(0,44 - 1) = -56%). Asimismo, el contraste bilateral de la hipótesis de no
arroja
efecto un
H0:resultado muy significativo
= 1 mediante P = 2P(Z -4,10) = 2{1 - (4,10)} <Pastor-Barriuso
el estadístico 0,001. R. 113
arroja un resultado muy significativo P = 2P(Z ≤ –4,10) = 2{1 – Φ(4,10)} < 0,001. Notar
que este test es equivalente al contraste de hipótesis realizado en el Ejemplo 7.5 sobre la
igualdad en la proporción de sujetos con niveles bajos de colesterol HDL entre los casos
de infarto y los sujetos libres de la enfermedad, de tal forma que los valores P resultantes
de ambos procedimientos son virtualmente idénticos.
Hasta este punto se han presentado distintos métodos para la comparación de proporciones a
partir de muestras independientes. Con cierta frecuencia, sin embargo, suelen emplearse
muestras dependientes, que surgen tanto de observaciones tomadas en los mismos sujetos como
en distintos sujetos emparejados de acuerdo a determinados factores pronósticos. En el Apartado
6.4 del tema anterior, se presentaron diversos diseños o mecanismos de generación de datos
dependientes. En general, el propósito de los diseños emparejados es aumentar la precisión de
las comparaciones y, en mayor medida, mejorar la validez de las inferencias al controlar por
posibles factores de confusión. En este apartado se aborda el tratamiento estadístico de datos
binarios o dicotómicos procedentes de parejas dependientes.
La muestra consiste en n parejas dependientes o correlacionadas, donde cada pareja está
compuesta por dos observaciones de una variable dicotómica procedentes de distintas poblaciones.
Así, por ejemplo, en comparaciones antes y después de un tratamiento, cada pareja de datos está
constituida por la respuesta en un mismo sujeto antes y después de dicho tratamiento. Igualmente,
en un estudio de casos y controles emparejados, cada pareja de observaciones está formada por
la presencia o ausencia de exposición en cada caso y su correspondiente control. Para simplificar
la presentación, nos centraremos en adelante en un estudio de casos y controles emparejados.
Para preservar el emparejamiento muestral, la unidad de análisis será cada pareja y no cada
individuo. Así, la organización de los datos por individuo mediante la Tabla 7.1 no resulta adecuada
ya que se pierde la información relativa al emparejamiento. La forma apropiada de presentar los
datos se muestra en la Tabla 7.6. Cada unidad de esta tabla representa una pareja, de tal forma que
hay a parejas donde ambos caso y control están expuestos al factor de riesgo, b parejas donde el
caso está expuesto y el control no, c parejas donde el control está expuesto y el caso no, y d parejas
donde ninguno está expuesto. Las a + d parejas donde ambos o ninguno de los miembros están
expuestos se denominan parejas concordantes, mientras las restantes b + c parejas son discordantes.
114 Pastor-Barriuso R.
[Tabla 7.7 aproximadamente
Comparación deaquí]
proporciones en dos muestras dependientes
1
que
donde delaesta
coincideexpresión,
última con
igualdad se refleja
la razóntiene que
entre
suambos
relación tipos
condeelpares
oddsdiscordantes.
ratio subyacente Si elω.
número de
Despejando ω de
esta expresión, se tiene que
parejas probabilidadb con
Como ladiscordantes puede estimarse
el caso expuestomediante la proporción
es superior de parejasb/(b + c) de
al númeroobservada
.
parejas discordantes 1
discordantes c con eldonde
controlelexpuesto,
caso está el
expuesto,
odds ratio la estimación
será mayor puntual
de 1 y ladel odds ratio de
exposición
Como la probabilidad π puede estimarse mediante la proporción observada b/(b + c) de parejas 30
enfermar
discordantes
Como
estará entre
dondeexpuestos
el caso
la probabilidad
directamente y no
está
puede
asociada conexpuestos
expuesto,
estimarse es
la estimación
mediante
la enfermedad; lapuntual delsiodds
proporción
mientras que es ratio
bobservada deb/(b
inferior enfermar
a c,+elc) deentre
expuestos y no expuestos es
odds ratio
parejas será menordonde
discordantes de 1 yellacaso
exposición
bestá c)estaráb inversamente
expuesto,
/(b c) b asociada
labestimación
/( conodds
puntual del la ratio de
OR = ,
1 b /(b c) c /(b c) c
enfermedad.
enfermar entre expuestos y no expuestos es
que coincide con la razón entre ambos tipos de pares discordantes. Si el número de parejas
queAlcoincide
igualbque
discordantes conenel
con lamuestras
caso independientes,
razónexpuesto
entre ambos tipos el log(OR)
c) de al
bes/(bsuperior pares también se Si
b discordantes.
b /(númeroc) deb parejas
distribuye
el númerode de
discordantes forma
c con el
control expuesto, el odds ratioOR será= mayor de 1 y la exposiciónestará
1 b /(dependientes,
b c) c /(b con c) media
c
, directamente asociada con
aproximadamente
parejas discordantes
la enfermedad; mientrasnormal conen
bque sielbmuestras
caso expuesto
es inferior eselsuperior
a c, odds ratioal número deparejas
será log(
menor ) ydevarianza
1 y la exposición
estará inversamente asociada con la enfermedad.
discordantes
aproximada
que ccon
coincide1/b con elrazón
+la1/c. control expuesto,
El intervalo
entre ambos el odds
de confianza
tipos de ratio será
al 100(1
pares mayor
discordantes.de Si
- )% para 1 el
yella exposición
odds ratiode
número
Al igual que en muestras independientes, el log(OR) también se distribuye de forma
estará directamente
aproximadamente
subyacente
parejas normal
resulta
discordantes asociada
en el con
casolaexpuesto
conmuestras
bentonces enfermedad;
dependientes, mientras
con
es superiormedia que si byde
log(ω)
al número esvarianza
parejas a c, el
inferioraproximada 1/b
+ 1/c. El intervalo de confianza al 100(1 – α)% para el odds ratio subyacente ω resulta entonces
odds ratio será
discordantes menor
c con de 1 y la
el control exposición
expuesto, estará
el odds inversamente
ratio será mayorasociada
de 1 y la con la
exposición
1 1
explog(OR) z1 / 2 .
enfermedad.
estará directamente asociada conla enfermedad; mientras b c que si b es inferior a c, el
Alratio
odds igual quemenor
en muestrasy independientes, el log(OR) tambiénasociada
se distribuye lade forma
Ejemploserá
7.18 Endela 1Tabla
la exposición estará
7.7 se tienen inversamente
6 parejas discordantes con sólo
donde el caso de
infarto tiene7.18
Ejemplo un nivel
En la alto
Tabla de7.7
colesterol
se tienenHDL y 17discordantes
6 parejas parejas discordantes
donde sólodonde sólo el
el caso
aproximadamente
enfermedad. normal en muestras dependientes, con media log( ) y varianza
de infarto tiene un nivel alto de colesterol HDL y 17 parejas discordantes donde
aproximada 1/b en
Al igual que + 1/c. El intervalo
muestras de confianza
independientes, el log(OR) - )% para
al 100(1también el odds ratio
se distribuye de forma R.
Pastor-Barriuso 115
subyacente resulta
aproximadamente normal en muestras dependientes, con media log() y varianza
entonces
sólo el control presenta un nivel alto, de lo cual se deduce que la estimación
Inferencia sobre proporciones
sólo el control
puntual del oddspresenta
ratio es un nivel alto, de lo cual se deduce que la estimación
esperada
esta bajo laesperada
frecuencia
Ejemplo hipótesis
7.19 nula.
sería Si del
no hubiera
simplemente
El estadístico test de asociación
la McNemar
mitad enentre
del número exposición
total7.7
la Tabla de toma y enfermedad,
parejas el valor
contraste
Ejemplo se 7.19
conoceElcomo el test del
estadístico de McNemar
test de McNemar y se aplica en lacuando
Tabla 7.7la varianza de b bajo
toma el valor
esta frecuencia
discordantes (b +esperada
c)/2, consería
lo cualsimplemente
el estadístico la mitad del número
del2 contraste vienetotal de parejas por
determinado
la hipótesis nula es var(b) = (b + c)2=(1(-6)17 = )(b += c)/45,26. 5; es decir, cuando el número
discordantes (b + c)/2, con lo cual el estadístico 6 17del contraste viene determinado por
de Aparejas
partir discordantes es superior
de la distribución o igual acon
chi-cuadrado 20.1 grado de libertad (Tabla 6 del Apéndice),
A partircomprobarse
puede de la distribución que chi-cuadrado con 1está
este estadístico gradocomprendido
de libertad (Tabla
entre6 del
los percentiles
χ 1 Ejemplo
2
;0,975 = 5,02 y χEl1 ;0,99
7.19
2
= 6,63, de
estadístico dello cual se tiene queen0,01 < P <7.7
0,025. Así, el riesgo de
Apéndice),
infarto puede
agudo comprobarse
de miocardio quetest
difiere este deestadístico
McNemar
significativamente
la Tabla
está entre
comprendido toma ellos
entre
los sujetos con
valor
niveles
32 de
colesterol HDL superiores e inferiores a 0,90 mmol/l.
percentiles 12;0,975 = 5,02 y 12;0,99 2= 6,63, (6 de
17lo) 2 cual se tiene que 0,01 < P < 32
= = 5,26.
6 17
0,025. Así, el riesgo de infarto agudo de miocardio difiere significativamente
116 Pastor-Barriuso R.
A partir de la distribución chi-cuadrado con 1 grado de libertad (Tabla 6 del
entre los sujetos con niveles de colesterol HDL superiores e inferiores a 0,90
Apéndice), puede comprobarse que este estadístico está comprendido entre los
siguen
CE: CORRECCIÓN PORargumentos similares a los descritos en este apartado y pueden consultarse en los
CONTINUIDAD
libros de análisis de datos categóricos referenciados en este tema.Apéndice: corrección por continuidad
ice se derivan las versiones con corrección
cada paciente que conformaporun
continuidad del intervalo
grupo de emparejamiento). Estas generalizaciones
7.8
y del test de hipótesis APÉNDICE:
para
siguen una proporción
argumentos CORRECCIÓNpoblacional
similares . Si kCONTINUIDAD
POR
a los descritos es
en el número
este apartado y pueden consultarse en los
La inferencia sobre proporciones puede extenderse a estudios donde se empareja más de un
eventos en una sujeto
muestra
En
poraleatoria
libros
este
muestra de
deapéndice
(por
análisis se de
ejemplo,
datos n,
tamaño
derivan
unintervalo
el estudio dedecasos
categóricos
las versiones referenciados
con
y controles
confianza
corrección enaleste por
donde cada caso está emparejado
tema.
continuidad del intervalo
con múltiples controles, o un ensayo clínico donde cada paciente que recibe un nuevo tratamiento
está emparejado
para vendrá determinado con
por aquellos varios pacientes
valores bajo
( inf, para tratamiento estándar), así como a estudios donde se
de confianza y del test de hipótesis sup) unaque proporción
verifiquen poblacional . Si k es el número
comparan más de dosCORRECCIÓN
7.8 APÉNDICE: muestras dependientes (por ejemplo, un ensayo clínico donde se asignan
POR CONTINUIDAD
aleatoriamente distintos tratamientos a cada paciente que conforma un grupo de emparejamiento).
observado
k | de= eventos
P(Xgeneralizaciones
Estas en
/2, unaargumentos
inf) = siguen muestra aleatoria similares de atamaño n, el intervalo
los descritos en este de confianza
apartado al
y pueden
En este apéndice
consultarse en los librosse derivan
de análisislas versiones con corrección
de datos categóricos por continuidad
referenciados en estedel intervalo
tema.
100(1 - )% para
P(X k | = sup) = /2, vendrá determinado por aquellos valores ( inf , sup ) que verifiquen
de confianza y del test de hipótesis para una proporción poblacional . Si k es el número
7.8 APÉNDICE: CORRECCIÓN POR CONTINUIDAD
a distribución binomial de parámetros y una
n en . Como P(X k | = en
se discutió infel) = /2,
En observado
este apéndicede eventos
se derivan lasmuestra
versiones aleatoria de tamaño por
con corrección n, elcontinuidad
intervalo de del confianza al de
intervalo
confianza y del test de hipótesis para P(X una proporción = sup)poblacional
k | aproximarse = /2, π. Si k es el número observado
2, si n(1 - ) 5,100(1
estas probabilidades
- )% para binomiales
vendrá pueden
determinado por aquellos valores ( infconfianza
, sup) quealverifiquen
de eventos en una muestra aleatoria de tamaño n, el intervalo de 100(1 – α)%
para π vendrá determinado por aquellos valores (πinf, π sup) que verifiquen
istribución normaldonde X es unaZdistribución
estandarizada como binomial de parámetros n y . Como se discutió en el
P(X k | = inf) = /2,
Apartado 3.3.2,k si n/2(1-n) 5, P(X k | = sup) = /2,
1 estas probabilidades binomiales pueden aproximarse
P(X k | = inf) P Z = /2,
inf
donde X es una distribución
n (1 binomial
) de parámetros n y π. Como se discutió en el Apartado 3.3.2,
mediante la distribución
inf inf
normal estandarizada Z como aproximarse mediante la distribución
si nπ(1 – π) ≥ 5, estas probabilidades binomiales pueden
donde X es una distribución
normal estandarizada Z como binomial de parámetros n y . Como se discutió en el
k 1 / 2 n sup
3.3.2, n inf pueden aproximarse
P(X k | = Apartado
sup) P Z
siP(X n(1 -k|)=5,estas P Z k 1 / 2binomiales
= )/2.probabilidades = /2,
n sup (1 sup ) inf
n (1 )
inf inf
mediante la distribución normal estandarizada Z como
k 1 / 2 n sup
érmino 1/2 de la corrección por continuidad P(X k | se =añade
sup)aambas P Z expresiones = /2.
n (1 )
sup sup
k 1 / 2 n inf
P(X k | = inf) P Z
incluir la probabilidad de observar exactamente k eventos. Para = /2,
Notar que el término 1/2 de la corrección k 1 / 2 por ncontinuidad
inf n inf (1 se ) a ambas expresiones con
infañade
= z1-/2,
objeto de incluir
s cálculos, las desviaciones típicasladeprobabilidad
estas distribuciones de observar
np (1normales
p ) exactamente
se k eventos. Para simplificar los
cálculos, las desviaciones típicas de estas distribuciones normalesañade
Notar que el término 1/2 de la corrección por continuidad se a ambaspor
se sustituyen expresiones
la estimación
k 1 / 2 n sup
la estimación np p) , dedeloincluir
(1 objeto cual k | = que
P(Xseladeduce ksup)1/de2P Z = /2.
con probabilidad n sup n=exactamente
observar
sup1-(
-z 1/2. sup )k eventos. Para
k np 1 / (21 np) inf = z
simplificar los cálculos, las desviaciones 1/2,
np(1 típicasp) de estas distribuciones normales se
Notar que el término 1/2 de la corrección por continuidad se añade a ambas expresiones
Finalmente,
sustituyen por despejando
la estimación inf y npksup( 1se/p2obtiene
1, n lo
) , de supel intervalo
cual de confianza al 100(1 - )%
= zse deduce
1/2.
que
con objeto de incluir la probabilidadnpde(1observar p) exactamente k eventos. Para
para 34
Finalmente, despejando π inf y π sup, se obtiene el intervalo de distribuciones
simplificar los cálculos, las desviaciones típicas de estas confianza al 100(1 normales
– α)% separa π
Finalmente, despejando inf y sup, se obtiene p(1 el
pintervalo
) 1 de confianza al 100(1 - )%
sustituyen por la estimación pnp (1z1p/)2 , de lo cual se deduce . que
n 2n
para 34
Este intervalo de confianza difiere de la versión sin corrección presentada en el Apartado 7.2 en
que ambos límites del
Este intervalo deintervalo
confianzasedifiere
amplían deen la una cantidad
versión 1/(2n) inversamente
sin corrección presentadaproporcional
en el al
tamaño muestral. La utilización de esta p (1 p ) 1
p z1corrección se fundamenta
. en el hecho de aproximar una
límites del 2n encontinua.
/ 2
distribución
Apartado binomial
7.2 en quediscreta
ambosmediante una intervalo n se amplían
distribución normal Cuanto
una cantidad menor sea el
1/(2n)
tamaño muestral, más imprecisa será la aproximación normal y, en consecuencia, la corrección 34por
inversamente proporcional al tamaño muestral. La utilización de esta corrección se
Este intervalo de confianza difiere de la versión sin corrección presentada en el
fundamenta en el hecho de aproximar una distribución binomial discreta mediante una R.
Pastor-Barriuso 117
Apartado 7.2 en que ambos límites del intervalo se amplían en una cantidad 1/(2n)
distribución normal continua. Cuanto menor sea el tamaño muestral, más imprecisa será
inversamente proporcional al tamaño muestral. La utilización de esta corrección se
la aproximación normal y, en consecuencia, la corrección por continuidad 1/(2n) ha de
1 1
p(1 p ) 1 | p 00 | | p 00 |
muestra 2n 2 n
Una
Una muestra
muestra Una
Una muestra p(1zz11p// 22) 1
p z11 // 22pp z zz
n 2nnn 22nn 00 (1 00 ) 00 (1 00 )
n nn
1 1 11 1 1
| p11 p22 | | p11 p 22|
p(1 p ) p1 (p1 (1p1 )p ) p 2 (11 1p 2 ) 1 1 1 1 2 n n22
Dos
DosmuestrasDos
muestrasindependientes
Dos muestras
muestras independientes
independientes
independientesp11 p 22 ppz1111
p11 (zz111
//pp22 22 p11 ) p11 (p122(1p11 )p22 ) p22 (11 1p22 ) 1 1 1 1
// 22 n z 2 n11 n22 11
zz
n11 n11 n22 2nn22 n11 n22 22 nn11 nn22 1 1 1 1
p (1 p ) p (1 p)
n11 n 22 n11 n 22
2 22 2 2 2
2 2 2
22 22 (2| O 2 E
ijij
2 (||
ijij
O1ijij/ 2)E ijij | 1 / 2)
Test 2 de Pearson*
χ 2 de2 Pearson*
Test deTest
Pearson* ―
2 2
ii 11
jj 11
ii 11 E E
jj 11 ijij
Eijij
2
( | b c2 | 1( )| 22b c | 1 ) 2
Test
Test de de Test de McNemar
McNemar
McNemar
― 22 ( | b c22 | 1()| b c | 1 )
bc bc bc
2
** La corrección
** La
La corrección corrección
por
corrección
Lapor por
continuidad
continuidad no
no se aplica no
por continuidad
continuidad
se aplica no
al se
test
se aplica
al testaplicade al
22 de al test
Pearson
test
Pearson de
en
2en Pearson
tablas de en
Pearson
detablas de en tablas
contingencia
tablas de
de contingencia
contingencia contingencia
mayores
mayores de mayores
22.
mayores de
de 22. de 22.
22.
* La corrección por continuidad no se aplica al test χ 2 de Pearson en tablas de contingencia mayores de 2×2.
Pastor-Barriuso R.
Apéndice: corrección por continuidad
119
46 46
Inferencia sobre proporciones
por continuidad (IC al 95% 25,4-33,3%) es ligeramente más amplio que su correspondiente
intervalo sin corrección (25,5-33,2%, Ejemplo 7.1), y el valor P aumenta al aplicar dicha
corrección (P = 0,764 versus 0,726, Ejemplo 7.1). No obstante, los resultados con y sin
corrección son muy similares dado que el tamaño muestral utilizado en este ejemplo es
moderadamente grande.
7.9 REFERENCIAS
1. Agresti A. Categorical Data Analysis, Second Edition. New York: John Wiley & Sons,
2002.
2. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, Fourth
Edition. Oxford: Blackwell Science, 2001.
3. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of
Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980.
4. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The Design and
Analysis of Cohort Studies. Lyon: International Agency for Research on Cancer, 1987.
5. Collett D. Modelling Binary Data, Second Edition. London: Chapman & Hall, 2002.
6. Colton T. Estadística en Medicina. Barcelona: Salvat, 1979.
7. Fleiss JL, Levin B, Paik MC. Statistical Methods for Rates and Proportions, Third Edition.
New York: John Wiley & Sons, 2003.
8. Hennekens CH, Buring JE. Epidemiology in Medicine. Boston: Little, Brown and
Company, 1987.
9. Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic Research: Principles and
Quantitative Methods. New York: John Wiley & Sons, 1982.
10. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press,
1999.
11. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia:
Lippincott Williams & Wilkins, 2008.
120 Pastor-Barriuso R.
TEMA 8
MÉTODOS NO PARAMÉTRICOS
8.1 INTRODUCCIÓN
En los temas anteriores se han presentado distintos métodos de inferencia para datos de carácter
continuo (Tema 6) y categórico (Tema 7). Estos procedimientos se conocen como métodos
paramétricos y asumen que los datos proceden de una población cuya distribución de probabilidad
es conocida (normal o binomial), o que al menos la distribución de los estadísticos empleados
puede aproximarse mediante el teorema central del límite. Así, las inferencias se fundamentaban
en la aproximación normal a la distribución de las medias y proporciones muestrales. Aunque en
la mayoría de las ocasiones estas asunciones son razonables, pudiera ocurrir que no se cumplan
las condiciones necesarias para la realización de análisis paramétricos, especialmente cuando los
tamaños muestrales son muy reducidos. En tales circunstancias, es posible utilizar métodos
alternativos que realizan asunciones mínimas acerca de la distribución de la variable a estudio, y
que reciben colectivamente el nombre de métodos no paramétricos o de distribución libre.
Antes de proceder a la descripción de los métodos no paramétricos más utilizados, conviene apuntar
sus principales ventajas e inconvenientes. Entre las ventajas fundamentales cabe destacar que:
yy Los métodos no paramétricos son muy robustos y, en consecuencia, pueden aplicarse a
situaciones donde la utilización de pruebas paramétricas es cuestionable. Así, por ejemplo,
la comparación de medias en dos muestras independientes requiere de tamaños muestrales
suficientemente grandes para aplicar el teorema central del límite y de una varianza
homogénea en ambas poblaciones, mientras que su equivalente no paramétrico permite
contrastar globalmente la igualdad de distribuciones bajo la única asunción de que ambas
distribuciones sean continuas.
yy Como se verá más adelante, la propia naturaleza de las pruebas no paramétricas las hace
particularmente útiles para comparar variables cualitativas ordinales, cuyo tratamiento
mediante métodos paramétricos clásicos entraña problemas conceptuales ya que estas variables
carecen de interpretación numérica (ver definición de tipos de variables en el Tema 1).
Sin embargo, los métodos no paramétricos presentan una serie de limitaciones que impiden
su uso generalizado:
yy Los métodos no paramétricos se emplean casi exclusivamente para determinar la
significación estadística de la comparación entre grupos. Aunque existen procedimientos
no paramétricos para obtener estimadores de efecto e intervalos de confianza, éstos
requieren de asunciones adicionales y su aplicación es más compleja.
yy Si se cumplen las condiciones de aplicación de las pruebas paramétricas, el uso de métodos no
paramétricos es un tanto ineficiente, lo que conlleva una leve pérdida de potencia en el análisis.
Estudios de simulación bajo la asunción de normalidad han mostrado una perdida de potencia
aproximada del 5% de las pruebas no paramétricas respecto a sus equivalentes paramétricos.
yy Los métodos paramétricos pueden extenderse fácilmente al análisis multivariante de
situaciones más complejas. Aunque en la actualidad los métodos no paramétricos han
experimentado un fuerte desarrollo, su utilización es aún limitada por la mayor complejidad
y menor disponibilidad en los programas de análisis estadístico de uso rutinario.
Pastor-Barriuso R. 121
Métodos no paramétricos
correspondientes.
8.2 Finalmente,
TEST(empates),
DE LA SUMA DEseRANGOS
suman los DE
rangos de una cualquiera de las dos
WILCOXON
la variable se asigna a cada una de ellas la media de los rangos
muestras, seleccionemos
En el Apartado 6.3 se tratópor ejemplo la
el problema deprimera muestra,de variables continuas en dos muestras
la comparación
correspondientes. Finalmente, se suman los rangos de una cualquiera de las dos
independientes. Si ambos tamaños muestrales n1 y n2 son suficientemente grandes para aplicar
el teorema central del límite, el test de la t den1 Student permite realizar inferencias acerca de la
muestras, seleccionemos por ejemplo la primera muestra,
U = rSin
diferencia de medias entre ambas poblaciones. i . embargo, si la distribución subyacente dista
mucho de ser normal y las muestras son muyi =pequeñas,
1 las medias muestrales no se distribuirán
n1
de forma normal y la anterior prueba paramétrica no será aplicable. Bajo estas circunstancias,
U = ri .
ha estadístico
El de utilizarse el equivalente
del test de Wilcoxonnose paramétrico
basa en al test de la t de Student para muestras
i =1 esta suma de rangos.
independientes, que se conoce como el test de la suma de rangos de Wilcoxon. Este procedimiento
permite contrastar globalmente la igualdad de distribuciones bajo la única asunción de que la
El estadístico
Ejemplo
variable del
8.1test
a estudio de una
tenga Wilcoxon
Supongamos queselabasa
distribución en esta
subyacente
muestra suma de nrangos.
continua.
consiste en 1 = 10 casos de infarto de
y en los controles
i =1
ri = 1 + 9 + ... + 19 = 96,5
rango 1, al siguiente valor 0,05 μg/g se le otorga el rango 2 y así sucesivamente
y en los controles
y enhasta
los controles 10
asignar el rango 20 al
r j mayor
= 13 +valor + 6 μg/g.
2 + ...0,57 A los dos sujetos con idéntico
= 113,5.
j =1
nivel
Notar que la μg/g
0,13 de β-caroteno
elección entre una les
10 corresponden
u otra las posiciones
suma de rangos 7 y 8 y,
es arbitraria. Laensuma total de
rangos en ambas muestras es
r j = 13 + 2 + ... + 6 = 113,5.
(n + n
Notar que la elección entrej =1una1u otra )(n
2 suma
1 + n 2de rangos es irrelevante. Latal
+ 1)/2 = 20⋅21/2 = 210, de forma que una
suma
vezconsecuencia, se asigna
calculada la suma el rango
de rangos 96,5medio
en la(7primera
+ 8)/2 =muestra,
7,5 a ambas observaciones.
la otra queda determinada
por 210 – 96,5 = 113,5.
total de rangos en ambas muestras es (n1 + n2)(n1 + n2 + 1)/2 = 20⋅21/2 = 210, de
Notar
Así,que la elección
la suma entreen
de rangos una
losucasos
otra suma de rangos
de infarto es es irrelevante. La suma
122 tal forma
Pastor-Barriuso que una vez calculada la suma de rangos 96,5 en la primera muestra, la
R.
total de rangos en ambas muestras
10 es (n1 + n2)(n1 + n2 + 1)/2 = 20⋅21/2 = 210, de
otra queda determinada por 210 r = 1 + 9 + ... + 19 = 96,5
- i96,5 = 113,5.
tal forma que una vez calculada la suma de rangos 96,5 en la primera muestra, la
i =1
Test de la suma de rangos de Wilcoxon
muestra es igualmente
nula de igualdad de distribuciones, probable. Así, como1elcombinación
cualquier número de combinacionesde rangos en ladeprimeralos n1 + n2
.
nación r1, ..., rn1 viene n1 + n 2
si u ≤dada
muestra E(U).espor Esta probabilidad
igualmente probable. puede
Así, calcularse 2teniendo
n1 +elnnúmero
como de en cuenta que bajo
combinaciones la hipótesis
de los n1 + n2
posibles rangos tomados de n1 en n1 es n1 , la probabilidad bajo H0 para
nula de igualdad de distribuciones, n1 combinación
cualquier de rangos en la primera
El cálculo 1
del valor exacto de P se ilustra en nel n2
1 +siguiente ejemplo.
posibles rangos. tomados de n1 en n1 es , la probabilidad bajo H0 para
El cálculo
cualquier del
n 2 valor exacto
n1 +combinación r , de
..., P
r se ilustra
viene
dadaen n el
1por siguiente
ejemplo.
muestra
es igualmente probable.
1 n1
Así, como el número de combinaciones de los n1 + n2
n 1
cualquier combinación r1, ..., rn1 viene dada 27 27
n1 1+porn2
posibles rangos tomados de n1 en n1 es ., la probabilidad bajo H0 para
alor exacto de P se ilustra en el siguiente ejemplo. n1 +n1n 2 5 R. 123
Pastor-Barriuso
1
n1 .
cualquier combinación r1, ..., rn1 viene dada n1 + porn2
Ejemplo 8.2 Si la distribución del β-caroteno fuera igual en los casos de infarto y
10(10 + 10 + 1)
E(U) = = 105.
en los controles libres de enfermedad, la 2suma de rangos esperada en los 10 casos
Como el valor observado de esta suma de rangos u = 96,5 es inferior al esperado,
Métodos no paramétricos
Ejemplo 8.2 Si la distribución del β-caroteno fuera igual en los casos de infarto y
de
Como infarto
el valor del
el Pvalor ejemplo
observado
se obtiene anterior sería
de esta
mediante sumaigual a
de rangos u = 96,5 es inferior al esperado,
en los controles libres de enfermedad, la suma de rangos esperada en los 10 casos
Ejemplo
el valor P8.2 Si la distribución
se obtiene mediante del10b-caroteno fuera igual en los casos de infarto y en los
controles + 10
(10 de +961) esperada en los 10 casos de infarto del
de infartolibres de enfermedad,
del ejemplo anterior
P = 2PE(U) la suma
sería igual arangos
= | H0) = 2 P=(U105.
(U ≤ 96,5 = k | H0).
ejemplo anterior sería igual a 2 k =55
96
P = 2P(U ≤ 96,5
E(U) =
10| (H
100)+=102 + 1)P(U = k | H 0 ) .
Como el valor
Notar que observado
la suma arrancadeenesta sumamínimo
el valor de rangos
k = 55 u==105.
posible 96,5
1 + 2es+inferior
... + 10al= esperado,
55 y sólo
2
Como
el valor
Notar elPvalor
que observado
se suma
la obtiene de
enesta
mediante
arranca sumamínimo
el valor de rangos u = 96,5
posible es
2 +inferior
1 + facilitar 10alcálculos).
... + los =esperado, el valor
55 y sóloLa
toma valores enteros (se excluyen posibles empates para
Como
P el valor
se obtiene observado de esta suma de rangos u = 96,5 es inferior al esperado,
mediante
toma valores enteros
probabilidad bajo H0(se excluyen
para posibles
cualquier empates
combinación
96 depara facilitar
rangos en lalos cálculos).
primera La
muestra
el valor P se obtiene = 2P(U ≤ 96,5 | H0) = 2 P(U = k | H 0 ) .
P mediante
k = 55
probabilidad
es bajo H0 para cualquier combinación de rangos en la primera muestra
Notar que la suma arranca en el valor mínimo96posible 1 + 2 + ... + 10 = 55 y sólo toma
Notar que
valores
es la suma
enteros P = 2P(en
(se arranca
excluyen Uposibles
≤el96,5 H 0) = 2
valor| empates
mínimo P(facilitar
U =1 k+| 2Hlos
posible
para +0 )...
. + 10 = 55
cálculos). Layprobabilidad
sólo
1 10! (20 − 10)!k =55 1
bajo H0 para cualquier combinación = de rangos en = la primera , muestra es
20
toma valores enteros (se excluyen 20! empates 184para
.756 facilitar los cálculos). La
1 10posibles
! (20 − 10)! 1
Notar que la suma arranca 10 en el= valor mínimo =posible 1 +, 2 + ... + 10 = 55 y sólo
20
probabilidad bajo H0 para cualquier 20!
combinación 184
de.756rangos en la primera muestra
toma valores enteros (se excluyen
10 posibles empates para facilitar los cálculos). La
de
es lo cual se sigue que
de lo cual se sigue
probabilidad bajo Hque
0 para cualquier combinación de rangos en la primera muestra
de lo cual se sigue que
P(U = 55 | H0) = P(1, 1 2,10 3,! 4,
(205,−6,107, 1 | H0) = 1/184.756,
)! 8, 9, 10
es = = ,
P(U = 56 | H0) =P(1, 20 2, 3, 4,20 5,!6, 7, 8, 184
9, 11.756| H0) = 1/184.756,
P(U = 55 | H0) = P(1, 2, 3, 4, 5, 6, 7, 8, 9, 10 | H0) = 1/184.756,
P(U = 57 | H0) =P(1, 10 3, 4, 5, 6, 7, 8, 9, 12 | H )
1 2,10 ! (20 − 10)! 1 0
P(U = 56 | H0) =+P(1, =
2, 3, 4, 5, = ,
| H ) = 1/184.756,
P(1,
20 2, 3, 4,20 5,!6,
6,7,7,8,8,9,
10,11.11
184 756| 0H0) = 2/184.756
de lo cual se sigue que 10
y así sucesivamente. ComoP(1,
P(U = 57 | H 0 ) = puede 2, 3, 8, 9, 12 | H0) resulta muy laborioso incluso
4, 5, 6,el7,procedimiento
intuirse,
para estas pequeñas muestras de tamaño 10, ya que requiere determinar el número de
P(U = con
combinaciones H0) =
55 | igual P(1, 2,
+suma de3,rangos.
4, 5, 6, 7, 8, 9,
10,10 H|H
11|múltiples
0)0)==1/184.756,
2/184.756
de lo sucesivamente.
y así cual se sigue queComo puede intuirse,Después de
el procedimiento cálculos,
resulta se tiene que
muy laborioso
96
yincluso
P(U P = 256
así sucesivamente.
para
| HP0()U= =P(1,
Como kpuede| H2,0 3, =4,2(1
5, 6,
)intuirse, 17,+
+ el 8,29,+ 11 +| H
...ya
procedimiento 0) = 1/184.756,
4.397)/184.756
resulta muydeterminar
laborioso
P(Uestas
= 55k =pequeñas
|55H0) = P(1, muestras
2, 3, 4, de tamaño
5, 6, 10,10
7, 8, 9, |H que se requiere
0) = 1/184.756,
P(U = 57 | H0) = P(1, 2,= 3,
= 97.708/184.756 4, 5, 6, 7, 8, 9, 12 | H0)
0,529.
incluso paradeestas
el número pequeñas muestras de tamaño 10, ya que se requiere determinar
P(U =combinaciones
56 | H0) = P(1,con igual
2, 3, 4, 5,suma
6, 7,de8, rangos.
9, 11 | HDespués de múltiples
0) = 1/184.756,
Aunque los casos de infarto muestran
+ P(1, 2, 3, 4, niveles
5, 6, 7, 8, inferiores
10, 11 | de H0)b-caroteno
= 2/184.756 que los controles
el númerose
cálculos, detiene
combinaciones
que con igual suma de rangos. Después de múltiples
(la suma P(U
de rangos
= 57 | H observada
0) = P(1, 2,en3,los casos
4, 5, 6, 7,es8,menor
9, 12 | queH0) la esperada), no se alcanzan
Aunque los casos
diferencias de infarto muestran
estadísticamente niveles inferiores
significativas. No obstante, de β-caroteno
dado el que los
reducido tamaño
se tiene que Como puede intuirse, el procedimiento resulta muy laborioso6
y así sucesivamente.
cálculos,
muestral, cabe esperar que la potencia
+ P(1, 2, 3, 4, 5,de6,este7, 8,contraste
10, 11 | H sea
0) =muy pequeña para detectar
2/184.756
controles
cualquier (la sumadiferencia
posible de rangos en observada
los niveles en los casos es menor
subyacentes que la esperada),
de b-caroteno entre los no
casos de
6
incluso para estas pequeñas muestras de tamaño 10, ya que se requiere determinar
infarto y los sujetos libres de la enfermedad.
y así
se sucesivamente.
alcanzan diferencias Como puede intuirse,
estadísticamente el procedimiento
significativas. resulta muy
No obstante, dadolaborioso
el
el número de combinaciones con igual suma de rangos. Después de múltiples
Para simplificar
incluso
reducido para
tamaño los cálculos
estas pequeñas
muestral, decabe
esteesperar
test, la
muestras Tabla
deque la8potencia
tamaño del
10,Apéndice
ya que sefacilita
de este losdeterminar
requiere
contraste percentiles
sea muy de la
distribución de la suma de
cálculos, se tiene que rangos de Wilcoxon bajo la hipótesis nula de igualdad de distribuciones,
cuando el la menor
número
pequeña dede
para las doscualquier
combinaciones
detectar muestras es desuma
conposible
igual tamaño inferior
de rangos.
diferencia o igualsubyacentes
en losDespués
niveles a múltiples
de 8. Para un de nivel de
significación α bilateral, la hipótesis nula se rechazará si la suma de rangos en la muestra 6 de
menorβcálculos,
tamaño es
-caroteno inferior
seentre
tienelos
que al percentil
casos α/2 oysuperior
de infarto los sujetosal percentil α/2 de dicha tabla.
libres de1la– enfermedad.
6
Para simplificar los cálculos de este test, la Tabla 8 del Apéndice facilita los
124 percentiles
Pastor-Barriusode
R. la distribución de la suma de rangos de Wilcoxon bajo la hipótesis nula
s r2 == (n + n )(n (r i −− r ) 2
n111++ nn222−−111n1ii=++=1n12n2i + 1) 2
2
= n 1 n1. + n 2 + 1
= 12 i −
n(n1 1++nn2 2−)(1nn11i+=+n12 n2 + 1) 2
n1 .+ n 2 + 1
2
= 1
= 12 i −
Sustituyendo en la expresión=anterior, n(n1 1++nn2 2−se )(1ntiene
1i =+ 1 n 2 + 1) 2
.
Sustituyendo en la expresión anterior, se tiene 12
Sustituyendo en la expresión= anterior, (n1 + n 2 )(sen1tiene + n 2 + 1)
.
n1
n1 (n12 1 + n 2 + 1)
Sustituyendo en la expresión ri − se tiene
anterior, 2 U − E (U )
z= i =n11
n1 (n1 + n 2 + 1) = ,
Sustituyendo en la expresión nri1 n−2 (n1se+tiene
anterior, n 2 + 1)
2
SE (U )
U − E (U )
z = in=11 n1 (12 n1 + n 2 + 1) = ,
rni 1−n 2 (n1 + n 2 + 1)
2
SE (U )
U − E (U )
z = in=11 n1 (n12 1 + n 2 + 1) = ,
rni 1−n 2 (n1 + n 2 + 1)
2
SE (U )
U − E (U )
z = i =1 12 = , Pastor-Barriuso R. 125
n1 n 2 (n1 + n 2 + 1) SE (U ) 8
12
8
Las medidas
Las medidas
de tendencia
de tendencia
central
central
informan
informan
acercaacerca
de cuál
de es
cuál
el valor
es el valor
más representati
más represe
alrededor
alrededor
de qué devalor
qué valor
se agrupan
se agrupan
los datos
los datos
observados.
observados.
Las medidas
Las medidas
de tendencia
de tendenc
que corresponde simplemente a la suma de rangos estandarizada; es decir, la diferencia entre la
suma de rangos observada central
central
de la de
y esperada muestra
enlalamuestra
sirvensirven
primera tanto tanto
muestrapara resumir
para resumir
dividida lossuresultados
por los resultados
error observados
estándar observados
bajo comocomo
para p
la hipótesis nula de igualdad de distribuciones. Bajo H0, este estadístico seguirá aproximadamente
una distribución normalrealizar realizar
inferencias
estandarizada inferencias
si n1,acercaacerca
n2 > 8. de losdeparámetros
Notar los en
que, parámetros
poblacionales
general, poblacionales
este tamañocorrespondientes.
correspondientes.
muestral A A
es muy inferior al que se requeriría para aplicar la prueba paramétrica de la t de Student en dos
muestras independientes. continuación
continuación
se describen
se describen
los principales
los principales
estimadores
estimadores
de la de
tendencia
la tendencia
central
central
de unade
variable.
Ejemplo 8.4 A partir variable.
del estudio EURAMIC, se seleccionan 1000 muestras aleatorias
simples de n1 = 10 casos de infarto de miocardio y n2 = 10 controles. En cada una de estas
muestras, se calcula1.2.1
la diferencia
1.2.1
Media de niveles
Media
aritmética medios de b-caroteno entre casos y controles, así
aritmética
como la suma de rangos para los casos de infarto. Las Figuras 8.1(a) y (b) presentan las
La media
distribuciones muestrales Lademedia
aritmética,
aritmética,
la diferenciadenotada por xpor
dedenotada
medias se xdefine
1, – 2, y
sede
define
como como
la suma
la suma delarangos
suma
de cada U,uno
de cadadeuno
losde los
respectivamente. Como la distribución poblacional del b-caroteno es marcadamente asimétrica
(ver Figura 4.3) yvalores
las muestras
valores son muy
muestrales
muestrales pequeñas,
dividida
dividida lanúmero
por elpor diferencia
el número dedemedias
de observaciones muestrales
observaciones realizadas.se Si denotamos
realizadas. Si denota
distribuye de forma asimétrica alrededor de la diferencia subyacente μ1 – μ2 = – 0,09 mg/g, de
tal forma que no sepor npor
cumple lan condición
el tamaño
el tamaño
muestral
de y poryxipor
muestral
normalidad xi el valor
elnecesaria
valor observado
observado
para paraelel
aplicar para
testsujeto
el la
de i-ésimo,
t de i-ésimo,
sujeto i = 1,i...,
= 1,n
Student. Por el contrario, la suma de rangos sí se distribuye de forma aproximadamente normal
en torno a su valorlaesperado
media
la media
vendría vendría
en esta dada dada
por E(U)
población por = 96,9. Así, aun cuando se disponga de
muestras tan reducidas, se podría aplicar la aproximación normal al test de la suma de rangos
de Wilcoxon. 1 n 1 n x1 + xx21 ++ ... x 2++x...
n + xn
x = x = xi
= xi = . .
n i =1 n i =1 n n
30 30
La media
La media
es la medida
es la medida
de tendencia
de tendencia
central
central
más utilizada
más utilizada
y de más
y defácil
más fácil
Frecuencia relativa (%)
25 25
1.2 MEDIDAS
1.2 MEDIDASDE TENDENCIA
DE TENDENCIA CENTRALCENTRAL
20 interpretación.
interpretación.
Corresponde
Corresponde al “centro
20 al “centro
de gravedad”
de gravedad” de losdedatoslos datos
de la demuestra.
la muestra.
Su S
Las medidas
Las medidas
de tendencia
de tendencia
centralcentral
informan
informan
acercaacerca
de cuál
dees
cuál
el valor
es el valor
más repres
más
15 15
principal
principal
limitación
limitación
es quees está
quemuyestá influenciada
muyvariable
de unadedeterminada
una determinada
influenciadapor
variable
o, dicho
los
porvalores
o, dicho
de forma
losequivalente,
valores
de forma
extremos
extremos
equivalente,
y, enestimado
estos estos
y,
este
estimadores
enin
10 10
caso, caso,
puedepuede
no sernounser
fielunalrededor
reflejo
fielalrededor
reflejo
de ladede
de qué tendencia
lavalor
valor
qué setendencia
secentral
agrupan los central
agrupan dedatos
datos
los la de
distribución.
la distribución.
observados.
observados.
Las medidas
Las medidas
de tenden
de te
5 5
centralcentral
de la muestra
de la muestra
sirvensirven
tanto tanto
para resumir
para resumir
los resultados
los resultados
observados
observados
como c
0 0
Ejemplo
Ejemplo
1.4 En
1.4este
Enrealizar
yeste
enrealizar
los
y ensucesivos
los sucesivos
inferencias
inferencias ejemplos
acercaacerca ejemplos
de losde los sobre
parámetros sobre
estimadores
parámetros estimadores
poblacionales muestrales,
poblacionales muestr
correspondientes.
correspondien
A
-0,9 -0,6 -0,3 0 0,3 0,6 50 70 90 110 130 150
continuación
continuación
se describen
se describen
los principales
los principales
estimadores
estimadores
de la tendencia
de la tendencia
centralcent
de
xutilizarán
1 − x2
utilizarán
los valores
los valores
del colesterol
del colesterol
HDL HDL
obtenidos
U obtenidos
en losen10los
primeros
10 primeros
sujetos
suje
d
variable.
variable.
estudio
(a) estudio
“European StudyStudy
“European on Antioxidants,
on Antioxidants,
Myocardial
(b) Myocardial
Infarction
Infarction
and Cancer
and Canc
of
1.2.1 1.2.1
MediaMedia
aritmética
aritmética
the Breast“
the Breast“
(EURAMIC),
(EURAMIC),
un estudio
un estudio
multicéntrico
multicéntrico
de casos
de casos
y controles
y controles
realizad
rea
Figura 8.1 Distribución muestral de la diferencia de niveles La medios
La media media de denotada
aritmética, β-caroteno
aritmética, 1 –
por xpor
denotada 2 entre casos y
, se xdefine
, se define
como como
la suma
la suma
de cada
de uno
cadadeuno
lo
controles (a) y de la suma de rangos U en los casos de infarto (b) en 1000 muestras aleatorias Figura simples
8.1 de
entre
n1 = 10 casos de infarto de miocardio y nentre
1991 1991
y 1992
y 1992
en ocho
en
valores ocho
países
valores países
muestrales Europeos
muestrales Europeos
dividida e por
dividida
por el Israel
elenúmero
número Israel
para evaluar
para evaluar
de observaciones
2 = 10 controles obtenidos a partir del estudio EURAMIC. Las líneas
de elrealizadas.
observacionesefecto
el efecto
de los
realizadas. Sid
Si deno
verticales en trazo discontinuo corresponden a los parámetros subyacentes μ1 – μ2 = – 0,09 μg/g y E(U) = 96,9.
por n por n el tamaño
el tamaño muestral y por yxi por
muestral xi el valor
el valor observado
observado
para elpara
sujeto i-ésimo,
el sujeto i-ésimo
i=1
la media
la media
vendría
vendría
dada por
dada por
La media
La media
es la medida
es la medida
de tendencia
de tendencia
centralcentral
más utilizada
más utilizada
y de más
y defácil
más fáci
interpretación.
interpretación.
Corresponde
Corresponde
al “centro
al “centro
de gravedad”
de gravedad”
de losde
datos
los datos
de la muestra.
de la mu
126 Pastor-Barriuso R. principal
principal
limitación
limitación
es queesestá
quemuy
estáinfluenciada
muy influenciada
por los
por
valores
los valores
extremos
extremos
y, en
caso, caso,
puedepuede
no serno
unser
fielunreflejo
fiel reflejo
de la tendencia
de la tendencia
centralcentral
de la distribución.
de la distribución
Si se producen empates en la asignación T
de rangos en la muestra combinada, la
f = T ,
(n1 + n 2 )(nt1i (+t i n+2 1+)(1t)( n + n − 1)
[Tabla 8.2 aproximadamente
i =1
i − 1)
1 2
aquí]
con ti el número de empates fpara = el valor i-ésimo de la variable. Notar , que, si no hay empates,
f =con
0 y teste estadístico ( n
se reducepara1 + n 2 )( n1 + n 2 + 1)( n1 + n 2 − 1)
al citado anteriormente.
i el número de empates el valor i-ésimo de la Finalmente,
variable. Notarcomo la si
que, suma de rangos
no hay
es una variable discreta que se aproxima mediante una distribución normal continua, es frecuente
aplicar
con tilael corrección
empates,
Ejemplo f = 8.5
número0 y Como
esteporlacontinuidad
estadístico
de empates paraseel
muestra a estos
dereduce
casos
valor al estadísticos.
citado
y controles
i-ésimo laLa
deanteriormente.
lade Tabla
variable. versión con
n1 =sicorrección
Finalmente,
8.1
Notares
que, 10 la por
2como
nno =hay
continuidad del test de la suma de rangos de Wilcoxon (con o sin empates) se presenta en la
Tabla
suma>8.2.
empates,8,depuede
rangos y es unestadístico
variable
f = 0 aplicarse
este discreta
la aproximación
se reduce que alsecitado
normal aproxima mediante
a laanteriormente.
suma de rangosunaUdistribución
= 96,5 en
Finalmente, los la
como
normal
suma decontinua,
Ejemplo
casos 8.5 eses
de infarto.
rangos Como
unfrecuente
Bajo
variable aplicar
lalamuestra
hipótesis
discreta lacasos
denula corrección
que deseyuna por continuidad
misma
controles
aproxima distribución
de la Tabla
mediante a8.1
una estos
deles nestadísticos.
1 = n2 = 10 > 8,
β-caroteno
distribución
puede aplicarse la aproximación normal a la suma de rangos U = 96,5 en los casos de
La en
versión
infarto.
normal con
Bajo
continua,
casos corrección
la el por
es hipótesis
frecuente
y controles, continuidad
10nula
aplicar
valor dela+una
esperado
⋅ 10 (10 +del
corrección
10 de )(test
misma
1esta 0de
1 −suma por lacontinuidad
,00075 suma
de ) dedel
distribución
rangos rangos de estadísticos.
ab-caroteno
seríaestos Wilcoxon
en casos y
var(U) =
controles, el valor esperado de esta suma = 174,87,
12de rangos sería
(con
La o sin empates)
versión se presenta
con corrección en la Tabladel
por continuidad 8.2.test de la suma de rangos de Wilcoxon
10(10 + 10 + 1)
E(U) = = 105
(condonde
o sin empates) se presenta en la Tabla 2
8.2.
10 ⋅ 10(10 + 10 + 1)(1 − 0,00075)
y su varianza var(U) = [Tabla 8.2 aproximadamente aquí] = 174,87,
12
y su varianza ⋅ 102(10 (2 ++ 110
)(2+−1)( 1)1 − 0,00075)
f = = 10
var(U) [Tabla 8.2 aproximadamente aquí] = 0,00075
(10 + 10)(10 + 10 +12 1)(10 + 10 − 1) = 174,87, 10
donde
Ejemplo 8.5 Como la muestra de casos y controles de la Tabla 8.1 es n1 = n2 = 10
donde
es el
donde
> 8,factor
puededeaplicarse
corrección de
lamuestrala 2varianza
aproximación (2de+ casos debido
−y1)controles
1)(2normal aa la
la presencia
suma de t1 =U2 = 96,5 en los
deTabla
rangos
Ejemplo 8.5 Comof= la = 0,00075 8.1 es n1 = n2 = 10
de la
(10 + 10)(10 + 10 + 1)(10 + 10 − 1)
observaciones
casos
> 8, puede
empatadas
de infarto. para 2el(2valor
Bajolalaaproximación
aplicarse hipótesis )(20,13
+ 1nula −de1)μuna
normal
g/g.misma
Por tanto, el estadístico
a la sumadistribución
de rangos Udel βde
= 96,5
la
-caroteno
en los
f =
es el factor de corrección de la varianza debido a la presencia de t1 = 2 observaciones = 0,00075
suma de rangos de (10 + 10)(con 10 +corrección
10 + 1)(10 por + 10continuidad
− 1)
empatadas
es casos
el factor
en casos para
de
y el Wilcoxon
valorel0,13
corrección
controles, de la
valor mg/g.
varianza Pordebido
esperado tanto,
de esta elsuma
a la estadístico
presencia esde tsería
de
dedistribución
rangos 1la=suma de rangos de
2 β-caroteno
de infarto. Bajo la hipótesis nula una misma del
Wilcoxon con corrección por continuidad es
observaciones
es el
enfactor
casos de empatadas
corrección
y controles, para
elde el valor
la| varianza
96 ,5 −10 0,13
105 | −+1μesta
debido /g/g. laPor
2a+suma tanto, elde
presencia estadístico
t1 = 2 de la
zvalor
=E(U esperado
) = 174,87
(10de 10 =1)0,60,de rangos sería
= 105
suma de rangosempatadas
observaciones de Wilcoxon paracon corrección
el valor 0,13 μ 2por
g/g.continuidad
Por tanto, elesestadístico de la
que corresponde a un valor PE(=U2P(Z 10(10 + 10 + 1)
) = ≥ 0,60) = 2{1=–105 F(0,60)} = 0,549 a partir de la
suma sudevarianza
distribución rangos
quey corresponde de
normal Wilcoxon
a un valor P con
estandarizada =| 962Pcorrección
de
( Z la
≥ Tabla
0,60) 2por
=3 2{1continuidad
del Apéndice.
- Φ (0,60)} esEste
= 0,549valor aproximado
a partir de de
,5 − 105 | −1 / 2
z = = 0,60,
P es muy similar al valor exacto calculado en el Ejemplo 8.2, no habiendo así suficiente
evidencia para rechazar la hipótesis 174 ,87 10
la distribución
y su varianza normal estandarizada | 96,5 de −de igualdad
105 −1 / 2de
la| Tabla distribuciones
3 del Apéndice. Este del nivel
valorde b-caroteno
en los casos de infarto de miocardio z= y los sujetos =libres 0,60,de la enfermedad.
aproximado de P aesunmuy similar 174 ,87 10
que corresponde valor P = 2al P(valor
Z ≥ 0,60)exacto = 2{1calculado en el=Ejemplo
- Φ(0,60)} 0,549 a 8.2,
partirnode
habiendo
que así suficiente
la distribución
corresponde normal evidencia
a un valor P = 2Ppara
estandarizada ≥rechazar
(Z de la Tabla
0,60) la3 hipótesis
= 2{1 del de igualdad
- ΦApéndice.
(0,60)} ade
Este valor
= 0,549 partir de
Pastor-Barriuso R. 127
distribuciones
aproximado
la dedel
distribución nivel
P es
normalmuy β-caroteno
desimilar deenlalos
al valor
estandarizada casos
exacto
Tabla de infarto
calculado
3 del en de miocardio
el Ejemplo
Apéndice. y los
8.2,
Este valor no
sujetos
habiendolibres
aproximado dePlaesenfermedad.
asíde
suficiente
muyevidencia
similar alpara rechazar
valor exacto la hipótesisendeeligualdad
calculado Ejemplode
8.2, no
128
Pastor-Barriuso R.
Métodos no paramétricos
Tabla 8.2
Tabla
Tabla
Tabla Estadísticos
8.28.2
8.2 Estadísticos
Estadísticos
Estadísticos para
para
para
para el
el test test
de
eleltest
test de
la la
suma
dedela suma
sumasuma
la de de
rangos
deyrangos
de rangosde
rangos los
yy de de
rangos
de los
los los
y rangos rangos
concon
rangos signo
signo
con de
decon
signo Wilcoxon
signo con
de Wilcoxon
Wilcoxon Wilcoxon
decon
corrección
con con
corrección
por
corrección corrección
por continuidad.
continuidad.
por continuidad.por continuidad.
Tabla
Tabla 8.28.2 Estadísticos
Estadísticos para
para el test
el test de de la suma
la suma de de rangos
rangos y de
y de loslos rangos
rangos concon signo
signo de de Wilcoxon
Wilcoxon concon corrección
corrección porpor continuidad.
continuidad.
SinSin
Sin empates
empates
empates Con
Con Con empates
empates
empates
Con empates
SinSin empates
empates Con
Con empates
empates
n1 nn11 n1 nn11
n1 (n11(+n1n1 +2 +n212)+ 1) 1 1 1
n (n11(+n1n1 +2 +n212)+ 1) 1 1
n1 n1 n1 n1
i i
+ n +−1) − 1 + n +−1) − 1
ii 1
r−rrn−−(nn ((+nnn+ 1 1 2
+n 1)+ 1) 1− 12 ii 1
r−rrn−−(nn ((+nnn+ 1 1 2
+n 1)+ 1) 1− 1 2
r −r − 2 22
i =1 ii=i=11 i − 2− 22 r −r − 2 22
i =1 ii=i=11 i − 2− 22
deTest
TestTest
Test de
ladesuma
la la
desuma rangos
de de
ladesuma
suma rangos
de rangos
rangos =
z =zz = i =1 i =1 2 2 2 2 =
z =zz = i =1 i =1 2 2 2 2
Test
Test de de la suma
la suma de de rangos
rangos z =z = 1
n nn2n(11nn212(+
(nn1n+2++nn21)++11)) 1 2 11 212
z =z =n nnn(nn (+
(nn1n+2++nn21)(
++111)(
−)(11f−−) ff ))
1
n nn2 1(n21 (+n11n+2 +n221)+ 1) 1 2 1 21
n nn(n (+n11n+2 +n221)( +11)(−1f−) f )
12 12 12 12 12 12
12 12 12 12
T TT
T T
t i iii
(ttt (+(tt1)( ii i ii
++t11)()(−tt1)−−11))
ii i i
t (tt (+t 1)(
i =1 ii=i=11
i+ t1)(−t 1)− 1)
concon
con
f =ff == i =1 i =1
conconf =f(n=1((+nn n++)( 2 n
11 2 221
nnn)()(+nn11n++ +n221)(
++n11)(
1)(+ 2 n
nn11n++ −n21)−−11))
(n1(+ n n+ )(
n n)(+ 1 2 21
n1n+2 n+21)( 1 +
+ n1)( n1n+2 n−221)− 1)
m mm m mm
m m
n(nnn+((n1n)++11))1 11 m
n(nn+(n1)+ 11))1 11
i
r −−(nn+(n1)+−1) 1−− 1 r m−r − n( n +−
i −rriin riin−(nn+(n1)+ 1) 1−− 1
=1
i ir
=i=11−ri − 4 4
i 4 − 2− 22 =1 iri=i=11−ri − 4 4 4 − 2− 22
Test
Test de de
Test los
de los
los rangos
rangos concon
rangos con signo
signo
signo i =1 i =1
z =zz == 4 4 2 2 i =1 i =1
z =zz ==i 4 4 2 2
TestTestlos
deTest de
derangos
losloscon
rangossigno
rangos
concon signo
signo z =z = n(nnn+((n1n)( ++211)(
n)(2+2n1n)++11)) z =z =n(nnn+((nn1)( ++211)(
n)(2+2nn1)++−11))f−− ff
n(nn+(n1)( + 21)(
n 2+n1)+ 1) n(nn+(n1)( + 21)(
n 2+n1)+−1)f− f
24 24 24 24 24 24
24 24 24 24
T TT
T T
t i (tttiii(+(tti1i )(
++t11i)()(−tti1i )−−11))
=1
i t
ii=i=11(ttii (+t i1)(+ t1i)(−t i1)− 1)
concon
con
f =ff ==1 i =1
i=
conconf =f = 2 22
2 2
28 28
28
28 28
Test de los rangos con signo de Wilcoxon
0,01 μg/g hasta la mayor diferencia absoluta 1,00 μg/g. A las dos parejas con
otras dos parejas con diferencia absoluta 0,38 μg/g se les asigna su rango medio
(12 + 13)/2 = 12,5. Finalmente, se otorga un signo positivo a los rangos
(12 + 13)/2 = 12,5. Finalmente, se otorga un signo positivo a los rangos
correspondientes
Métodos no paramétricos a diferencias positivas y un signo negativo a los rangos
correspondientes
correspondientes aa diferencias
diferenciasnegativas.
positivas La
y un signo
suma de negativo a los rangos
rangos positivos resulta
correspondientes a diferencias
a diferencias positivas y un
9
negativas.
signo La asuma
negativo de rangos
los rangos positivos resulta
correspondientes a diferencias
negativas. La suma de rangos positivos resulta
ri = 17 + 12,5 + ... + 3 = 91
i =91
r i =1
i = 17 + 12,5 + ... + 3 = 91
y la suma de rangos negativos
y la suma de rangos negativos
y la suma de rangos negativos
10
r
j =1
j = (− 4) + (− 14) + ... + (− 9,5) = − 99.
10
SumaSuma
de rangos positivos rrii ==9191
positivos
de rangos
ii ==11
10
10
SumaSuma
de rangos negativos rrjj= =
negativos
de rangos -99
– 99
jj =
=1
1
130 Pastor-Barriuso R.
de 0, se esperaría la misma suma de rangos
[Tabla 8.3 positivos que negativos
aquí] y, por consiguiente,
2 aproximadamente
2 4
la suma esperada de rangos positivos sería 1 n(nla+ mitad
1) n(de n +la1suma
) Testtotal de rangos absolutos
Bajon la
donde indica el número
hipótesis nula de E(W)
deque las =diferencias
diferencias no nulas.se= Al igual ,que
distribuyen endeel
losapartado
simétricamente anterior,
rangos con signo de Wilcoxon
alrededor
2 2 4
1 n(n + 1) n(n + 1)
el
devalor
0, se exacto
esperaría P misma
de la para el suma
contraste bilateral
E(W)de=rangos vendrá
= que
positivos dadonegativos
,por la probabilidad bajo H0
y, por consiguiente,
donde n indica el número de diferencias2 no 2nulas. Al 4
igual que en el apartado
Bajo la hipótesis nula de que las diferencias se distribuyen simétricamente alrededor de 0, se anterior,
de obtener
la suma
esperaría una suma
laesperada
misma suma de
de rangos
de rangos positivos
positivos
rangos tanto
sería o másdedistante
la negativos
que mitad la
y, suma E(W)
detotal deque
por consiguiente, susuma
rangos
la valor
absolutos
esperada
el valor
de rangos exacto
donde npositivos de P
indica elseríapara el
la mitad
número contraste bilateral
de la sumanototal
de diferencias vendrá
de Al
nulas. dado
rangos por la
igualabsolutos probabilidad bajo
que en el apartado anterior, H0
observado w; esto es, si w > E(W),
1 n(n + 1) n(n + 1)
devalor
el obtener una de
exacto suma de rangos
P para positivos
E(W) tanto vendrá
= bilateral
el contraste dado, pordelaE(W)
o=más distante que su valor
probabilidad bajo H0
2 2 4
P = 2P(W ≥ w | H0)
de
donde n indicaw;
observado
obtener elesto
una suma es,de
número w diferencias
> E(W),
siderangos positivos tanto oAlmás
no nulas. que endeelE(W)
distante
igual apartadoque anterior,
su valor el valor
donde n
exacto de P para el contraste bilateral vendrá dado por la probabilidad bajo H0 deanterior,
indica el número de diferencias no nulas. Al igual que en el apartado obtener una
y,
suma sidew rangos
observado ≤ E(W),
w; esto es, si w
positivos > E(W),
tanto o más distante de E(W) que su valor observado w; esto es,
P = 2P(W ≥ w | H0)
el valor exacto
preestablecido,
si w > E(W), de P para el contraste bilateral vendrá dado por la probabilidad
la hipótesis nula se rechazará si la suma de rangos positivos es inferior bajo H0
PP == 2P(W
2P(W ≤≥ ww || H H00).)
de
al w ≤ E(W),
y, percentil
si
obtener una
α/2 suma de rangos
o superior positivos
al percentil α/2. o más distante de E(W) que su valor
1 - tanto
y, si w ≤ E(W),
Bajo dicha
observado
y, si w hipótesis
w;
≤ E(W), esto es,nula,
si w cualquier
> E(W), combinación de un número arbitrario de rangos
P = 2P(W ≤ w | H0).
Ejemplo 8.7 Como ilustración, supongamos que la suma de rangos positivos es w
Bajopositivos r1, ..., rm nula,
dicha hipótesis es igualmente
cualquierprobable
combinación y su probabilidad
de un númeroviene determinada
arbitrario porpositivos
de rangos
Bajo dicha hipótesis nula, cualquierP= 2P(W ≤≥ w | de
combinación
)
H00).
un número arbitrario de rangos
r1, ..., rm =
es25
igualmente
a partir deprobable y su probabilidad
n = 12 parejas viene determinada
de datos dependientes por
con diferencias no nulas. La
1
positivos
y,
Bajosi wdicha , ..., rm bajo
r1hipótesis
≤ E(W),
distribución es nula,
igualmente
H0 de probable
cualquier
la suma y nsu, probabilidad
combinación
de rangos viene
de un número
positivos determinada
arbitrario
es simétrica por
de rangos
alrededor de
2
preestablecido, la hipótesis nula se rechazará si la suma de rangos positivos es inferior
donde 2nE(W)
positivos es el
r1,=número
n(nrm+es1)/4
..., deigualmente
subconjuntos
= 12(12 +probable de=cualquier
1)/4 y1su
39, lo tamaño
deprobabilidad que
cual se deduce pueden
viene obtenersepor
determinada
que a partir de
npercentil
lasaldonde
parejasn
2 es α/2
con el odiferencias
superiordealsubconjuntos
número percentil
no P = 2P(W
- αde
nulas. 1Haciendo ≤ w
/2.cualquier
uso | H
, de tamaño 0 ).
este resultado,
que pueden la Tabla 9 del Apéndice
obtenerse a
n
2
facilita los percentiles de la distribución de la suma de rangos positivos bajo la hipótesis nula de
w0,05 = n(n + 1)/21 - w0,95 = 78 – 60 = 18,
quepartir
las diferencias
Bajo dicha n parejas
de lashipótesisse distribuyen simétricamente
con diferencias
nula, cualquier no nulas.
combinación alrededor de unde
, Haciendo 0, cuando
uso
número esteelresultado,
de arbitrarionúmero deladiferencias
de rangos Tabla
Ejemplo
n
dondees2 nes
no nulas ≤ 16.8.7 Como
Para unde
el número ilustración,
nivel supongamos
de significación
subconjuntos 2 n
que la suma
α preestablecido,
de cualquier tamaño quede rangos
la pueden positivos
hipótesis es w
nula se rechazará
obtenerse a
9positivos
si la del
suma donde
Apéndice w
derrangos
, ...,
0,95r = 60
facilita se
los
positivos
es obtiene
igualmentees de
percentiles
inferior la
probable Tabla
de
al la 9
percentil
y su del
distribución Apéndice
α/2
probabilidad o de la
superiorpara
suma
viene aln =
de 12. Como
rangos
percentil
determinada 1 la suma
positivos
– α/2.
por
= 25n a1partir mde n = 12 parejas de datos dependientes con diferencias no nulas. La
partir de
donde 2 las
es eln parejas
númerocon diferencias nodenulas.
de subconjuntos cualquierHaciendo tamaño usoque de pueden
este resultado,
obtenerse la Tabla
a
bajoEjemplo
laobservada
hipótesis w
8.7 bajonula
=
Como25de > w
que las=
ilustración,diferencias
18, se sigue se que P(W
distribuyen ≤ 25 | H
simétricamente
) > 0,05. alrededor
Así, el es de
w = 25
distribución H0 de la suma desupongamos
0,05
rangos1 positivos que la es suma
simétricade rangos
0
alrededor positivos
de
9 del
partir Apéndice
a partir =facilita
de lasdennparejas losdiferencias
con
12 parejas percentiles de nulas.
no la distribución
de datos dependientes n
, Haciendo
con de la
uso
diferencias suma
de este
node rangos
resultado,
nulas. Lapositivos
la Tabla
distribución
0, cuando P >de20,10. ncual
≤ 16. Para unque niveldedeE(W)significación α =
bajo
E(W) H0el
contraste
=de número
n(n 1)/4de=de
labilateral
+suma diferencias
arroja
rangos
12(12 +un1)/4 no
valor nulas
positivos
= 39, es
eslo simétrica se deducealrededor = n(n + 1)/4
9bajo
del laApéndice
12(12 hipótesis =nula
+ 1)/4 facilita39, dedelosque
lo las se
diferencias
percentiles
cual de laque
deduce se distribuyen
distribución desimétricamente
la suma de rangos alrededor
positivosde
n
donde 2 es el número de subconjuntos de cualquier tamaño que pueden obtenerse a
Enlaaquellas muestras w0,05 = el
donde n(n + 1)/2 –dewdiferencias
número 0,95 = 78 – 60 no=simétricamente
18, sea superior a 16,
nulas
0, cuando
bajo el número
hipótesis nulade dediferencias no nulasse
que las diferencias es n ≤ 16. Para
distribuyen un nivel de significación
alrededor de α
partir
donde w0,95n =parejas
de las con diferencias
60 se obtiene de la Tabla no9nulas. Haciendo
del Apéndice para uson =de12. este
Comoresultado,
la sumalaobservada
Tabla
puede =utilizarse
w donde
0, cuando >w0,95
25 el número
w =la=60
siguiente
se
de
18, obtiene aproximación
diferencias
se sigue deque
la no
Tabla
P(Wnulas
≤9normal.
del
25es | H ≤ Dado
Apéndice
n )16.
> Para
0,05.queAsí,
paraun los=elrangos
n nivel
12. Como
de conlasigno
suma α
significación
contraste bilateral arroja
0,05 0 14
9 del
un Apéndice
valor P > facilita
0,10. los percentiles de la distribución de la suma de rangos positivos
constituyen
observada unawrepresentación
= 25 > w0,05 = 18, estandarizada
se sigue quede P(W las≤diferencias
25 | H0) > 0,05. observadas
Así, el en cada
bajo la hipótesis nula de que las diferencias se distribuyen simétricamente alrededor de14
pareja contraste
de datos
En aquellas bilateral
muestras arroja
dondeunpodría
dependientes, elvalor
númeroP > 0,10.
construirse un estadístico
de diferencias no nulas sustituyendo
sea superior las a 16, puede
utilizarse
0, cuando la siguiente
el númeroaproximación
de diferenciasnormal. no nulas Dado
es n que ≤ 16.los Pararangos
un nivel con de signo constituyen
significación α una
diferencias no
representación nulas di porde
estandarizada loslasrangos con signo
diferencias ri en el en
observadas testcada
de la t de Student
pareja de datospara 14
dependientes,
En aquellas muestras donde el número de diferencias no nulas sea superior a 16,
podría construirse un estadístico sustituyendo las diferencias no nulas di por los rangos con
muestras
signo r en eldependientes (Apartado
test de la t de Student para6.4). Así, eldependientes
muestras estadístico resulta (Apartado 6.4). Así, el estadístico
puedei utilizarse la siguiente aproximación normal. Dado que los rangos con signo
resulta
constituyen una representación estandarizada de rlas diferencias observadas en cada 14
z= ,
sr
pareja de datos dependientes, podría construirse unnestadístico sustituyendo las
diferencias no nulas di por los rangos con signo ri en el test de la t de Student para
donde la media de los m rangos positivos y n - m rangos negativos es
muestras dependientes (Apartado 6.4). Así, el estadístico resulta
Pastor-Barriuso R. 131
r
z= ,
sr
Métodos no paramétricos
1 n 1 m n−m
r = 1 n ri =
1 i =1m ri + n−m r j
r =n i =1 ri = n ri +
j =1 r j
n i =1 y n – im
donde la media de los m rangos positivos =1 rangos j =1 negativos
es
1 n m mm nn(−nm + 1)
= 11
m ri +1 m ri −
n(n + 1)
r== n i =1riri=+ i =1 riri −+ 2r j
n
nn i =i1=1
i =i1=1 j =12
2 m n(n + 1)
= 21 m ri −
(mn4+ 1) n(n + 1)
+ n
m
= n i =1 rii − ri −
n ii==11 i =14 2
y, en el caso de que no haya empates,
2 m la varianza H0 de los rangos con signo se
n(n + 1)bajo
= rla i −
y, en el caso de que no haya empates,
n i =1 4 H0 de los rangos con signo se
varianza bajo
estima mediante
estima
y, Para
en mediante
elconcretar
caso el problema,
de que supongamos
no haya empates, la varianza bajo H0deden los
que se dispone pares de observaciones
rangos con signo se estima
y, en el caso de que no haya empates,
mediante la varianza bajo H 0 de los rangos con signo se
1 n 2 1 n 2 (n + 1)(2n + 1)
sr = 1
de una variable aleatoria continua.
2
Enn rcada
1
i = pareja n i de
= (datos dependientes, una
n + 1)(62n + 1) .
estima mediante 2 n
s r = ri = i =
i =1 2 n i =1 2
.
n i =1 muestra
observación x1 corresponde a la primera n i =1 y la otra observación
6 x2 a la segunda
Aplicando ambas resultados, se
1 tienen el 1estadístico
n
(n + 1)(2n + 1)
Aplicando ambas resultados, se
Aplicando ambos resultados,
2 se tiene el 2 estadístico
muestra. El objetivo se centra s r en= comparar r = las
tiene el estadístico
i i 2 = poblacionales. μ1 y μ2 a partir de
medias
n i =1 n i =1 6
estas dos muestras dependientes. m ri − n(n + 1)
m
n(n4+ 1) W − E (W )
Aplicando ambas resultados, z= se i =tiene
1 ri −el estadístico
= W − E (W ) ,
Los procedimientos desarrolladosin=1(en el Apartado
n + 1)(2n + 1) = SE4 6.3 no(pueden
W ) , aplicarse a esta
z=
nm (n + 124 )(2n + 1) SE (W )
situación, ya que las medias de ambas rmuestras n(n +no 1) son independientes por provenir de
que representa la diferencia entrey,elen
i =valor
i − 24
observado4 yW − E (W )de la suma de rangos positivos,
esperado
distribución asimétrica z= 1 consecuencia,
=la utilización, de la prueba de la t de
dividida por sucorrelacionadas.
que representa
observaciones error estándar bajo
la diferencia SinHembargo,
entre n0.(elnSivalor
+el1)(número
2observado
la 1)de parejas
n +comparación (Wcon
y esperado
SE se diferencias
de la suma
) simplifica node
nulas es n > 16,
rangos
notablemente
que representa
este estadístico
Studentsigue la diferencia
para aproximadamente entre
muestras dependientes el valor observado
una distribución y esperado de la suma de rangos
normal estandarizada bajo la hipótesis
24 resulta cuestionable. Sin embargo, a pesar de
sepositivos,
sinula de simetría
calculan dividida
las de las por
diferencias su derror
diferencias estándar
= x1alrededor
- x2 en cada bajo
de 0. H0.de
una Si las el número de parejasemparejadas.
n observaciones con diferencias
positivos, dividida por su error estándar
contar únicamente con 20 parejas, la distribución bajo H 0 . Si el número de parejas
de la suma de rangos con positivos
diferencias
Pornoque representa
unnulas
lado,
Ejemplo es
como > la
n8.8 16,
lasA diferencia
este
distintas entre
partirestadístico
delparejas
estudio elsigue
no valor
están
EURAMIC, observado
aproximadamente
relacionadas y esperado
se seleccionan deestas
una1000
entre la suma
distribución
sí, de rangos de 20
normal
diferencias
muestras aleatorias
no parejas
nulas es
presenta n > 16, este
un aspecto
de casos estadístico
y controlesmucho sigue
más normal,
agrupados aproximadamente
según permitiendo
quinquenios de una distribución
asíedad.
el usoLadeFigura normal
la aproximación
8.2 presenta la
positivos,
estandarizada dividida
bajo
distribución muestral
son independientes. por
la
Por otro su error
hipótesis
delado, estándar
nula
la diferencia
la mediamedia de bajo
simetría H .
de
de lasdediferencias
0 Si lasel número
diferencias
b-caroteno d entre de parejas
alrededor
casoscon
coincide con
la diferencias
de 0. así como
y controles,
estandarizada bajo
normal al test
la distribución la hipótesis
de los de
muestral rangos nula
la suma conde de simetría
signo
rangos de
de Wilcoxon. las diferencias alrededor
positivos W (esto es, la suma de rangos de 0. en las
no nulas
diferencia es n
de medias
parejas > 16,
donde el este estadístico
muestrales, sigue aproximadamente
caso presenta un nivel superior de b-caroteno que el control). Debido al una distribución normal
Ejemplo
reducido 8.8 Adepartir
número parejas, dellaestudio
media de EURAMIC,
las diferencias se seleccionan
de b-caroteno1000 muestras
presenta una distribución
Ejemplo
estandarizada 8.8
bajo Ala partir
hipótesis del estudio
nula de EURAMIC,
simetría de se
las seleccionan
diferencias 1000
alrededormuestras
de 0. muestras
asimétrica y, en consecuencia,n la utilización de la prueba de la t de Student para
aleatorias de 20 parejas1[Figura de casos8.2 y1 controles
n
aproximadamente agrupadosaquí] según quinquenios de
d = d i Sin
casos ny
dependientes resulta cuestionable. = embargo, ( x i1 −axpesari2 ) de contar únicamente con 20 parejas,
aleatorias de 20 parejas de controles agrupados según quinquenios de
la distribución de la suman de i =1 rangos ipositivos
=1 presenta un aspecto mucho más normal,
Ejemplo
edad. 8.8 A partir
La Figura del estudio
8.2depresenta EURAMIC,muestral
la distribución se seleccionan 1000 muestras
de la diferencia media de β-
permitiendo así el uso la aproximación n normal al test de los rangos con signo de Wilcoxon.
En edad.
el caso de existir
La Figura 8.2 presenta 1
diferencias n
con 1el mismo valor absoluto,
de la diferencia medialade β-
ha de utilizarse
= xla i1 −
distribución
xi 2 = xmuestral
1 − x2
aleatoriasddeentre
caroteno 20 parejas
casosnydei controles,
=1
casos yn controles i =así
agrupados según quinquenios de
1 como la distribución muestral de la suma
siguiente versión
En el caroteno
caso de existir corregida
d entre diferenciasdel estadístico
casos y controles, con el mismo del
así comotest
valorlalos
de rangos ha
absoluto,
distribución conde signo
utilizarse
muestral de lalasuma
siguiente
de rangos positivos W (esto es, la suma de rangos en las parejas donde el caso β-
edad.
versión corregida La Figura
del 8.2
estadístico presenta
del la
test distribución
de los rangos muestral
con signo de la diferencia media de
y, en consecuencia, d es un estimador
de rangos positivos W (esto es,insesgado lamsuma nde derangos
la diferencia de medias
(n + 1) en las parejas donde el caso
caroteno un
presenta d nivel
entre superior
casos y controles,de β-caroteno riasí − comoque 4 ellacontrol).
distribución
Debidomuestral de la suma
al reducido
poblacionales μ - μ . Así, el problema z = de ila
=1 comparación
presenta un nivel superior de β-caroteno que el control). Debido al reducido
1 2 de ,medias en dos muestras
nla
(nsuma+ 1)(2de n +rangos
1) − f en las parejas donde el caso
de rangos
número parejas, laWmedia
depositivos (esto es, de las diferencias de β-caroteno presenta una
dependientes númeroqueda dereducido
parejas, la a una
media simple de lasinferencia 24 sobre
diferencias de βla-caroteno
media depresenta
una única una
presenta un nivel superior de β-caroteno que el control). Debido al reducido 16
muestra de n diferencias independientes. 16
cuya varianza incluye el término de corrección por empates
número de parejas, la media de las diferencias de β-caroteno presenta una
Los métodos
132 Pastor-Barriuso R. del Apartado 6.2.1 para la media de una muestra pueden entonces
T
16
utilizarse para calcular un intervalo de confianza t i (t i +al1)(100(1 t i − 1)- α)% para μ - μ como
1 2
f = i =1 ,
distribución asimétrica y, en consecuencia, la utilización de la prueba de la t de
En el0caso de existir
situación, ya quediferencias
las medias decon el muestras
ambas mismo valor
0 son absoluto,
no ha de
independientes porutilizarse
provenir dela
observaciones
siguiente versión
-0,6 correlacionadas.
corregida
-0,3 0 Sin embargo,
del estadístico la comparación
del test
0,3 de los 30se simplifica
0 rangos con 90notablemente
60 signo 120 150 180
d
si se calculan las diferencias W emparejadas.
d = x1 - x2 en cada una de las n observaciones
m
n(n + 1)
(a)distintas parejasrino−están relacionadas entre sí, estas
Por un lado, como las
i =1 4
(b)diferencias
z= ,
Figura 8.2 Distribución muestralPor
son independientes. deotro
la diferencia
lado, + media
n(lan media n de
1)(2de las1β-caroteno
+ )diferencias
− f d entre casos
coincide cony la
controles (a) y de la
suma de rangos positivos W (b) en 1000 muestras aleatorias de n = 20 parejas de casos y controles agrupados
según quinquenios de edad
diferencia a partir
de medias muestrales, 24
del estudio EURAMIC. Las líneas verticales en trazo discontinuo
Figura 8.2
corresponden a los parámetros subyacentes μ1 – μ2 = – 0,09 μg/g y E(W) = 80,3.
signo de Wilcoxon
Aplicando resultapor
la corrección entonces
continuidad, el test estadístico de los rangos con signo de
Wilcoxon resulta entonces
| 91 − 95 | −1 / 2
z= = 0,14,
617,25
con un valor P = 2P(Z ≥ 0,14) = 2{1 – F(0,14)} = 0,889. Notar que el resultado del test
sería
con unidéntico
valor Pde= utilizar
2P(Z ≥ la suma
0,14) de rangos
= 2{1 negativos
- Φ(0,14)} W =Notar
= 0,889. – 99, que
ya que su valor esperado
el resultado
es E(W) = – 95 y su varianza coincide con var(W) = 617,25. Así, una vez controladas las
diferencias
del test seríadeidéntico
edad, las
dediferencias de b-caroteno
utilizar la suma de rangosanegativos
favor de W
los=casos deque
-99, ya infarto
su no son
significativamente distintas de las diferencias a favor de los sujetos libres de la enfermedad.
valor esperado es E(W) = -95 y su varianza coincide con var(W) = 617,25. Así,
La comparación no paramétrica de una variable continua en más de dos muestras dependientes
puedeuna vez controladas
realizarse mediante las diferencias
el test de edad,Bajo
de Friedman. las diferencias
la asunción β-caroteno
dede a favorsigue la
que la variable
misma distribución continua excepto posibles diferencias de localización (traslaciones), esta
prueba permite contrastar la hipótesis nula de una misma localización de la variable en cada una
de las poblaciones. Este procedimiento también se fundamenta en la definición de rangos y
puede consultarse en los libros específicos de métodos no paramétricos.
18
En el Apartado 7.4 se presentó el test χ2 de Pearson como un procedimiento general para evaluar
la asociación estadística entre las variables de una tabla 2×2. Esta prueba se basa en la asunción
de que el tamaño muestral es suficientemente grande para justificar la aproximación chi-
cuadrado a la distribución nula del estadístico χ2 de Pearson. En concreto, si los marginales de
la tabla son pequeños, de tal forma que la frecuencia esperada en alguna de las celdas sea
inferior a 5, esta aproximación puede resultar imprecisa. En tales circunstancias, es preferible
utilizar métodos alternativos basados en la distribución exacta de las frecuencias de las celdas
de una tabla 2×2. En este apartado se describe el más conocido de estos procedimientos, el test
exacto de Fisher.
Ejemplo 8.10 La Tabla 8.4 presenta el número de sujetos con niveles de b-caroteno
Ejemplo
superiores8.1. Bajo la hipótesis
e inferiores de independencia
a 0,30 mg/g entre los 10 entre
casoseldenivel de β-caroteno
infarto y el
y los 10 controles del
estudio EURAMIC seleccionados de forma independiente en el Ejemplo 8.1. Bajo la
riesgo de de
hipótesis infarto de miocardio,
independencia entrelaelfrecuencia esperada en
nivel de b-caroteno y elcada celda
riesgo sería de miocardio,
de infarto
la frecuencia esperada en cada celda sería
5⋅10
E11 = E12 = = 2,5,
20
15 ⋅ 10
E21 = E22 = = 7,5.
20
Como los valores esperados en dos de las cuatro celdas son inferiores a 5, la prueba χ2 de
Pearsonlosnovalores
Como será aplicable a esta
esperados tablade2×2
en dos lasycuatro
la asociación ha de
celdas son contrastarse
inferiores mediante otro
a 5, la
procedimiento.
prueba χ 2 de Pearson no será aplicable a esta tabla 2×2 y la asociación ha de
134 Pastor-Barriuso R.
[Tabla 8.4 aproximadamente aquí]
Test exacto de Fisher
El test exacto de Fisher se basa en determinar la probabilidad exacta de observar una tabla
cualquiera con frecuencias a, b, c y d, bajo la hipótesis nula de independencia y asumiendo que
todos los marginales n1, n2, m1 y m2 son fijos (Tabla 7.1). La condición de marginales fijos se
impone por conveniencia matemática, ya que los cálculos se simplifican notablemente y los
marginales contienen poca información sobre la asociación a estudio. Bajo H0, la probabilidad
de enfermar π es común en los sujetos expuestos y los no expuestos. Así, el número de enfermos
entre los expuestos sigue una distribución n1 binomial de parámetros n1 y π, mientras que entre los
a n1 − a n 2
P(a, b, c, d | H ) =
no expuestos sigue una distribución binomial
0 a π (1 − π )
de parámetros π c
c n2 y− π.
(1 π )Como
n2 − c
las muestras de
expuestos y no expuestos son independientes,
la probabilidad de obtener una tabla con
frecuencias a, b, c y d es el producto de las probabilidades binomiales de observar a sujetos
enfermos entre los expuestos y c entre losn1 n 2 m1
= no expuestos, π (1 − π ) m2 .
na1 m1 − a n2
P(a, b, c, d | H0) = π a (1 − π ) n1 − a π c (1 − π ) n2 − c
a c
Para marginales n1, n2, m1 y m2 fijos, el rango de valores posibles k para el número de
n1 n 2 m1
=
casos expuestos varía entre k1 = max(0, m - n ) y π k = − π ) m,2 m
(1min(n . ). Por tanto, la
a
m
1 1 −
2 a 2 1 1
Para
probabilidad n1,obtener
marginales de n2, m1 yuna
m2tabla
fijos,con
el rango de valores
frecuencias a, b, cposibles k para ela unos
y d condiciona número de casos
expuestos varía entre k = max(0, m
Para marginales n1, n1 2, m1 y m2 fijos,
1 – n ) y k = min(n
el2 rango2 de valores , m ).
1 posibles
1 Por tanto, la probabilidad
k para el número de de
obtener una tabla
marginales n1, con 1 y m2 fijosa,viene
frecuencias
n2, m b, c ydada
d condicionada
por a unos marginales n1, n2, m1 y m2 fijos
viene dada por
casos expuestos varía entre k = max(0, m - n ) y k = min(n , m ). Por tanto, la
1 1 2 2 1 1
n1 n 2 m1
probabilidad de obtener una tabla con frecuencias a, b, c y dπ condiciona
(1 − π ) m2 a unos
a
1 m − a
P(a, b, c, d | n1, n2, m1, m2; H0) = k
marginales n1, n2, m1 y m2 fijos viene dada por n1 n 2 π m1 (1 − π ) m2
2
k = k1 k m1 − k
nn1 nn2 m1 n m2 n
1 2 π (1 −1 π )
2
aa m 1 − a
P(a, b, c, d | n1, n2, m1, m2; H0) == m1 − a a m1 − a
k2 n
k2
n1 nn2 =m1 n + mn2 ,
k= k1
1
2
k m − k
π (1
− 1π ) 2
1
k = k1 k m1 − k
m1
n1 de
donde el denominador de la última igualdad se obtiene n1 nde
n 2 las propiedades coeficientes
2 los
binomiales. Esta distribución
donde el denominador de ladeúltima
probabilidades entre
igualdad se a todas
obtiene m1 −delas posibles
alas a tablas
propiedades m1 −deacon
loslos mismos
=
marginales se conoce como distribución hipergeométrica y =
determina la ,
distribución bajo H0
k2
n1 n 2 n1 + n 2
coeficientes binomiales. Esta distribución de
probabilidades entre todas
lasposibles
k = k1 k m1 − k m1
tablas con los mismos marginales se conoce como distribución hipergeométrica y
Pastor-Barriuso R. 135
del número de casos expuestos y no expuestos en una muestra de m1 casos obtenidos a partir de
un total de n1 sujetos expuestos y n2 sujetos m no expuestos. Notar que esta probabilidad depende
1 m 2 n1 n 2
únicamente del número a de casos expuestos, dado
que una vez conocido a las frecuencias de
las restantes celdas quedan determinadas a los
por nmarginales
1 − a a la
de mtabla.
1 − a
Cabe destacar también
P(a | n1, n2, m1, m2; H0) = =
que aunque los cálculos se han derivado de mun m2
1 + estudio n1 + n 2 se obtendría el mismo
prospectivo,
resultado a partir de un estudio retrospectivoen términos del número de sujetos expuestos entre
n1 m1
casos y controles,
n1 !nm2 !1 m
1 ! mm2 2! n1 n 2
= ,
n! aa! b! c!nd1!− a a m1 − a
P(a | n1, n2, m1, m2; H0) = =
m1 + m 2 n1 + n 2
lo cual confirma que la probabilidad condicional n1 a una determinada
asociada m1 tabla no
exacto de Fisher
de Fisher corresponde
consiste entonces
en enumerar todasa las
la suma de probabilidades
posibles para todas
tablas con los mismos aquellas que
marginales
probabilidades de las tablas tanto o menos compatibles con la hipótesis nula que la tabla
Tabla 8.5 Todas las posibles tablas con los mismos
observada). marginales que la Tabla 8.4, junto con sus probabilidades
tablas con probabilidad inferior
asociadas o igual
bajo a la de nula
la hipótesis la tabla observada (esto es, la suma de
de independencia.
P = P(0) + Pmenores
tienen asociadas probabilidades (1) + P(4)o +iguales
P(5) que la probabilidad P(1) =
= 0,016 + 0,136 + 0,136 + 0,016 = 0,304.
0,136 de la tabla observada, el valor P bilateral del test exacto de Fisher es
Notar que se obtendría el mismo valor P si se sumaran las probabilidades asociadas a
todas
Notaraquellas tablas con
que se obtendría un oddsvalor
ratio Ptanto osumaran
más alejado del valor nulo 1 que el OR =
P = Pel(0)
mismo
+ P(1) + P(4)si+seP(5) las probabilidades
1∙6/(4∙9) = 0,17 de la tabla observada; es decir, las probabilidades de las tablas con OR ≤ 0,17
OR ≥ 1/0,17
oasociadas = 6. aquellas
a todas Así,= a0,016
partir+de0,136
tablas esta muestra
con un odds tan
+ 0,136 reducida,
ratio
+ tanto
0,016 no puede
o más
= 0,304. concluirse
alejado que exista
del valor
una asociación significativa entre el nivel de b-caroteno y el riesgo de infarto de miocardio.
nulo 1 que el OR = 1⋅6/(4⋅9) = 0,17 de la tabla observada; es decir, las
Cuando elque
Notar se obtendría
tamaño muestral el es
mismomuy valor P si el
pequeño, se número
sumarande lasposibles
probabilidades
tablas con los mismos
marginales muy reducido, de tal forma que el valor P
probabilidades de las tablas con OR ≤ 0,17 ó OR ≥ 1/0,17 = 6. Así,dea partir
será del test exacto Fisherde
podrá
esta tomar
asociadas a todas aquellas tablas con un odds ratio tanto o más alejado del
muy pocos valores, siendo así particularmente difícil obtener resultados significativos. Para un valor
nivel de significación
muestra α preestablecido,
tan reducida, el test exacto
no puede concluirse de Fisher
que exista tenderá a ser
una asociación conservador con
significativa
nulo 1 que el OR = 1 ⋅ 6/(4 ⋅ 9) = 0,17 de la tabla observada; es decir,
una verdadera probabilidad de error de Tipo I menor que el valor nominal α. Un contraste las
alternativo
entremenos
el nivelconservador
de β-carotenoconsiste en calcular
y el riesgo el valor
de infarto mid-P bilateral, que se define como
de miocardio.
probabilidades de las tablas con OR ≤ 0,17 ó OR ≥ 1/0,17
la probabilidad de la tabla observada más la probabilidad de las tablas = 6.menos
Así, a verosímiles
partir de esta
bajo H0.
Este valor mid-P será siempre inferior o igual al valor exacto de P, obteniéndose resultados 23
muestra tan
muy similares si elreducida, no puedeesconcluirse
tamaño muestral grande. que exista una asociación significativa
23
Métodos no paramétricos
Ejemplo 8.13 De todas las posibles tablas enumeradas en la Tabla 8.5, sólo las tablas
con a = 0 y 5 tienen probabilidades bajo H0 menores que la probabilidad P(1) = 0,136 de
la tabla observada, así que el valor mid-P bilateral se calcula como
mid-P = P(0) + P(1) + P(5) = 0,016 + 0,136 + 0,016 = 0,168,
que es considerablemente menor que el valor exacto de P = 0,304 calculado en el ejemplo
anterior. No obstante, ambos valores de P arrojan resultados no significativos para el
nivel de significación estándar α = 0,05.
El test exacto de Fisher puede generalizarse para evaluar la asociación estadística entre las
variables categóricas de una tabla r×c, cuando algunas frecuencias esperadas sean muy bajas y
no pueda aplicarse el test χ2 de Pearson. Aunque el valor P del test exacto de Fisher para tablas
mayores de 2×2 se define igualmente como la suma de probabilidades para aquellas tablas tanto
o menos probables que la tabla observada, su cálculo requiere de algoritmos de computación
dado el elevado número de posibles tablas con los mismos marginales.
8.5 REFERENCIAS
1. Agresti A. Categorical Data Analysis, Second Edition. New York: John Wiley & Sons, 2002.
2. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
Englewood Cliffs, NJ: Prentice Hall, 1977.
3. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of
Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980.
4. Colton T. Estadística en Medicina. Barcelona: Salvat, 1979.
5. Conover WJ. Practical Nonparametric Statistics, Third Edition. New York: John Wiley
& Sons, 1998.
6. Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley &
Sons, 1986.
7. Fleiss JL, Levin B, Paik MC. Statistical Methods for Rates and Proportions, Third Edition.
New York: John Wiley & Sons, 2003.
8. Hollander M, Wolfe DA. Nonparametric Statistical Methods, Second Edition. New York:
John Wiley & Sons, 1999.
9. Lehmann EL. Nonparametrics: Statistical Methods Based on Ranks. San Francisco:
Holden and Day, 1975.
10. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press,
1999.
11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State
University Press, 1989.
138 Pastor-Barriuso R.
TEMA 9
9.1 INTRODUCCIÓN
Desde un punto de vista puramente teórico, basta con aumentar el tamaño muestral para
obtener estimaciones arbitrariamente precisas o para detectar como estadísticamente significativo
cualquier efecto por pequeño que sea. Aun cuando esto sea posible en la práctica, la utilización
de muestras excesivamente grandes es ineficiente, ya que la posible detección de efectos
trivialmente pequeños y de escasa utilidad práctica no justificaría los recursos empleados. En
último término, el objetivo de la determinación a priori del tamaño muestral consiste en estimar
la muestra mínima necesaria para asegurar estimaciones razonablemente precisas o para tener
una potencia suficiente en la detección de efectos clínicamente relevantes.
Con cierta frecuencia, el número de sujetos disponibles para un estudio viene dictado de
antemano por las limitaciones económicas o temporales. En tales circunstancias, es importante
determinar qué magnitudes de efecto tendrían una probabilidad razonable de ser detectadas con
la muestra disponible, para contar así con una idea aproximada de las posibilidades que ofrecería
la realización de dicho estudio.
Como se verá a continuación, el cálculo del tamaño muestral requiere de información previa
a la realización del estudio. Estos datos suelen proceder de investigaciones previas relacionadas
y, en la medida de lo posible, han de ajustarse a unas hipótesis de trabajo verosímiles. En
cualquier caso, las asunciones realizadas en el cálculo del tamaño muestral pueden diferir de los
resultados posteriores del estudio y, en consecuencia, estas determinaciones deben servir como
guía orientativa más que como norma rígida para la estimación del tamaño muestral. Conviene
apuntar también que la muestra resultante se refiere al número de sujetos necesarios para el
Pastor-Barriuso R. 139
ación de tamaño esencialmente infinito. La corrección de las fórmulas del tamaño
Ejemplopara
tamaño 9.1 En unel nivel
estimar pequeño estudio
medio piloto
de2presión
2
realizado
arterial en personas
sistólica adultas de una
con una precisión
determinada población, la media 1,96 20
n = y la2 desviación típica de la presión arterial sistólica
= 384,16;
resultaron ser 130 y 20 mm Hg, 2
respectivamente. Utilizando
de ±2 mm Hg. Asumiendo un nivel de confianza del 95% y una estadesviación
información preliminar,
típica
se planea obtener una muestra aleatoria simple de mayor tamaño para estimar el nivel
medio
similar de presión
a la
es decir, se del arterial
estudio
requerirían sistólica
piloto, con una385
se tiene
aproximadamente precisión
sujetosde ±2 estimar
para mm Hg.laAsumiendo
presión un nivel
de confianza del 95% y una desviación típica similar a la del estudio piloto, se tiene
• La nivel
El de confianza
proporción poblacional tanto,
100(1 π- .α)%, que se establece de los siguientes
habitualmente en elelementos:
95%.
Pastor-Barriuso R. 141
• El nivel de confianza 100(1 - α)%, que se est
• La proporción
precisión deseada δ o el πerror
poblacional . absoluto que se considere aceptable.
La precisión
El •conocimiento deseada
previo δ o elaproximado
del valor error absoluto que
de la proporción
• La objeto
se considere
proporción aceptable.poblacional
de estudio es π.
Determinación del tamaño muestral
0,30 y δ = 0,03,
prevalencia se necesitaría una
estamuestra mínima deerror absoluto del ±3%
Ejemplo 9.2 de En
hipertensión
el estudioenpiloto población
del ejemplo conanterior,
un la proporción de hipertensos
(presión arterial sistólica ≥ 140 mm Hg) fue del 30%. En base a esta información, se
(error relativo
pretende delun
realizar ±10%).
estudio1,Asumiendo
0,30(1 −el
96transversal
2 nivel
0,para
30 de confianza
) estimar estándar del
la prevalencia de 95%, π=
hipertensión en
n =
esta población con un error absoluto = 896,37 ≈ 897.
0,03 2 del ±3% (error relativo del ±10%). Asumiendo el
0,30 ydeδ =confianza
nivel 0,03, se necesitaría
estándar del una95%,muestra
π = mínima
0,30 y δde= 0,03, se necesitaría una muestra
mínima de
Si, por el contrario, el estudio 2se diseñara para estimar la prevalencia de diabetes,
1,96 0,30(1 − 0,30)
n= = 896,37 ≈ 897.
que se asume próxima al 5%, con0,un 03 2error absoluto del ±1% (error relativo del
Si, por el contrario, el estudio se diseñara para estimar la prevalencia de diabetes, que se
±20%),
asume elsecontrario,
requeriría
Si, por próxima elunestudio
al 5%, tamaño
con un semuestral
error considerablemente
absoluto
diseñara del ±1%
para estimar mayor
(error relativo
la prevalencia del ±20%), se
de diabetes,
requeriría un tamaño muestral considerablemente mayor
que se asume próxima al1,96 5%,2 con un error absoluto del ±1% (error relativo del
0,05(1 − 0,05)
n= = 1.824,76 ≈ 1.825.
0,012
±20%), se requeriría un tamaño muestral considerablemente mayor
Como se desprende de este ejemplo, para estimar fiablemente una proporción extrema
(muy
Comopequeña
se desprendeo muy de grande) se necesitará
este ejemplo, una fiablemente
para estimar muestra mayor que para estimar una
una proporción
1,96 2 0,05(1 − 0,05)
proporción cercana nal=50%. = 1.824,76 ≈ 1.825.
extrema (muy pequeña o muy grande) 0,012 se necesitará una muestra mayor que para
La fórmula del tamaño muestral presentada en este apartado se basa en la aproximación
normal a laseuna
estimar
Como distribución demuestral
proporción
desprende cercana
este alde50%.
ejemplo, una
para proporción. Aunqueunaesta
estimar fiablemente aproximación es
proporción
razonable en la mayoría de las circunstancias, existen fórmulas alternativas, tales como
las basadas en (muy
extrema la aproximación
pequeña o muy normal con corrección
grande) poruna
se necesitará continuidad o en la
muestra mayor aproximación
que para
La fórmula del tamaño muestral presentada en este apartado se
de Poisson, que pueden ser útiles cuando se prevé trabajar con muestras de reducido basa en la
tamaño o conuna
estimar proporciones
proporciónmuy extremas.
cercana al 50%.Una descripción y comparación más detallada
de los distintos métodos de cálculo delmuestral
aproximación normal a la distribución de una proporción.
tamaño muestral Aunque esta
puede encontrarse en la bibliografía
de este tema.
aproximación
La fórmula es delrazonable en la mayoría
tamaño muestral presentadade lasencircunstancias,
este apartado existen
se basa fórmulas
en la
alternativas,
9.3 TAMAÑO
aproximación tales como lasdistribución
MUESTRAL
normal a la basadas
PARAen muestral
la
LAaproximación
COMPARACIÓN normal DE
conMEDIAS
de una proporción. corrección
Aunque estapor
Muchos diseños
continuidad
aproximación esepidemiológicos,
o en la aproximación
razonable bien
de sean
deobservacionales
Poisson,
en la mayoría que
las pueden ser(estudios
útiles
circunstancias, defórmulas
cuando
existen cohortes o de casos y
se prevé
controles) o experimentales (ensayos clínicos), se realizan con un afán comparativo, donde el
objetivo
trabajar no es
con
alternativas, tanto
muestras
tales estimar
comodelas la magnitud
reducido
basadas tamaño de un determinado
o con proporciones
en la aproximación parámetro
normalmuy
conextremas.poblacional,
corrección por sino más
Una
bien comparar parámetros entre distintas poblaciones. En tales diseños, el problema radica en
determinar
continuidadelyotamaño
descripción muestral
comparación másmínimo
en la aproximación detalladanecesario
de los
de Poisson, en cada métodos
distintos
que pueden grupo dedecomparación,
ser útiles cálculosedel
cuando de tal forma
tamaño
prevé
que el contraste de hipótesis que se pretende realizar tenga una potencia suficiente para detectar
posibles
muestral diferencias
puede
trabajar con clínica
encontrarse
muestras o epidemiológicamente
en la bibliografía
de reducido tamaño o con esterelevantes.
de proporciones
tema. muy En extremas.
este apartado
Una se presentan
descripción y comparación más detallada de los distintos métodos de cálculo del tamaño
142 Pastor-Barriuso R.
muestral puede encontrarse en la bibliografía de este tema.
7
determinada
minada variable
variable
o, dicho
o, dicho
de forma
de forma
equivalente,
equivalente,
estosestos
estimadores
estimadores
indican
indican
orqué
de valor
qué valor independientes
se agrupan
se agrupan
los datos
los datos
observados.
observados.
Las medidas
Las medidas
de tendencia
de tendencia
Tamaño muestral para la comparación de medias
de
muestra
la muestra
sirven Supongamos
sirven
tantotanto
para para quelos
resumir se resultados
resumir pretende contrastar
los resultados la hipótesis
observados
observados
comocomo paraH0: μ1 = μ2 de igualdad de
paranula
rencias
inferencias
acerca
acerca
de medias
laslos
de frente
fórmulas del apoblacionales
parámetros la hipótesis
tamaño
los parámetros alternativa
muestral
poblacionales para contrastar
correspondientes.
correspondientes. μ1 ≠ μ2 enendos
bilateralAHdiferencias
1: A losdistribuciones
niveles mediosconde una
variable cuantitativa a partir de dos muestras dependientes o independientes.
2
nación
se describen
se describen
los principales
los principales
igual varianza σestimadores
1 = σ 2de
estimadores
2 2
σde
= la tendencia
la tendencia
. Según central
los central
de una
resultados de
deluna
Apartado 6.3, la distribución
mitación
l limitación
es que
es está
que está
muymuy
influenciada
influenciada
por los los x1 extremos
por+valores x 2 ≥extremos
P( valores z1 α y, + 1 / n 2 | H1 ).
n1 este
1este
/2 σeny,/en
1 - β = P( x1 - x 2 ≤ -z1- α /2 σ 1 / n1 + 1 / n 2 | H1 )
no
edeser
noun
serfiel
un reflejo
fiel reflejo
de lade
tendencia
la tendencia
central
central
de lade
distribución.
la distribución.
Asumiendo sin pérdida de generalidad que μ1 < μ2 (Figura 9.1), la segunda probabilidad
+ P( x1 - x 2 ≥ z1- α /2 σ 1 / n1 + 1 / n 2 | H1 ).
H1: μ1 ≠ μ2 H0: μ1 = μ2
lo
emplo
1.4 En
1.4este y ende
En este lasucesivos
ylos
en expresión
los sucesivosanterior,
ejemplos
~ejemplos
que representa
sobre sobre
estimadores el evento
estimadores de que
muestrales,
muestrales,~se
x1 se
sea apreciablemente mayor
x1 − x2 → N ( μ1 − μ 2 , σ 2 (1 / n1 + 1 / n2 )) x1 − x2 → N (0, σ 2 (1 / n1 + 1 / n2 ))
Asumiendo sin pérdida de generalidad que μ1 < μ2 (Figura 9.1), la segunda probabilidad
rán
ilizarán
los valores
los valores
delque
colesterol
del xcolesterol
HDL
2 , será HDL
obtenidos
virtualmenteobtenidos en los
cero. en
La10 losprimeros
10 primeros
potencia sesujetos
reduce sujetos
del del a
entonces
de la expresión anterior, que representa el evento de que x1 sea apreciablemente mayor
otudio
“European
“EuropeanStudyStudy
on Antioxidants,
on Antioxidants, Myocardial
Myocardial Infarction
Infarctionand Cancer
and Cancer of of
1 - β = P( x1 - x 2 ≤ -z1- α /2 σ 1 / n1 + 1 / n 2 | H1 )
que x 2 , será virtualmente cero. La potencia se reduce entonces a
east“
e Breast“
(EURAMIC),
(EURAMIC), un estudio
un estudio
multicéntrico
multicéntrico de casos
de casos y controles
y controles
realizado
realizado
x − x 2 − ( μ 1 − μ 2 ) − z1−α / 2 σ 1 / n1 + 1 / n 2 − ( μ 1 − μ 2 )
tre
9911991
y 1992
y 1992
en ocho
en ocho
paísespaíses P x1e1 -Israel
P(
- β =Europeos
1 Europeos x1e2- βIsrael
≤ para
-z1- α para
evaluar
/2 / nel
≤
σ 1evaluar + 1 / n
efecto
el |
efecto
de H los
1 )
de los H
σ 1/ n + 1/ n 1 2
σ 1 / n1 + 1 / n 2
1
1 2
x − x 2 − ( μ 1 − μ 2 ) − z1−α / 2 σ 1 / n1 +5 1 / n52 − ( μ 1 − μ 2 )
= P 1 | μ − ≤ |
μ H1
= Φ − σz1−α1/ 2/ n+1 + 1 / n12 α/2 2 , σ 1 / n1 + 1 / n 2
α/2
σ 1 / n1 + 1 / n 2
μ1 - μ2 0
− z | μ 1 − μ 2 |
= Φ
donde la última igualdad + ,
de la distribución normal de x1 - x 2 bajo la hipótesis
1−α / 2se deriva
σ − 1z / n1σ+ 11//nn+2 1/ n
1−α / 2 1 2 z1−α / 2σ 1 / n1 + 1 / n2
alternativa.
Figura Notar que sedealcanzaría
9.1 Representación la potenciaeldel
mismo resultado
contraste si μde1 >medias
bilateral μ2. Esta expresión
a partir de dos muestras
Figura 9.1
donde la última igualdad se deriva de la distribución normal de x1 - x 2 bajo la hipótesis
independientes.
permite determinar a posteriori la potencia de un contraste para detectar una diferencia
alternativa. Notar que se alcanzaría el mismo resultado si μ1 > μ2. Esta expresión
Pastor-Barriuso R. 143
de medias subyacente μ1 - μ2 a partir de dos muestras independientes de tamaños n1 y
permite determinar a posteriori la potencia de un contraste para detectar una diferencia
n2.
continuación sexdescriben
+ P( 1 - x 2 ≥ z1- α /2 σ 1 / n1 + 1 / n 2 | H1 ).
los principalescontinuación
estimadores se describen
de la tendencia
los principales
central deestimadores
una
son igualmente
resultados eficaces
del estudio nooaportan
si, por el contrario,
suficiente el estudio
evidencia carece
para de potencia
afirmar que el
1 2
Por tanto, no
detectarían es sorprendente
como que elsignificativa
estadísticamente estudio anterior arrojara unreal
una diferencia resultado
de 5 mmnoHg.
asumiendo un nivel
significativo, de significación
aunsorprendente
cuando exista α =diferencia
0,05 y una desviacióndetípica σmagnitud
= 20 mm
Por tanto, no es queuna
el estudio subyacente
anterior arrojara
Tamaño
dicha
un
muestral resultado
para no de medias
la comparación
Hgentre
en ambos
ambosgrupos, la potencia para detectar dicha diferencia en un estudio con
tratamientos.
significativo, aun cuando exista una diferencia subyacente de dicha magnitud
n1 = ny2una
0,05 = 50desviación
sería típica σ = 20 mm Hg en ambos grupos, la potencia para detectar
entre ambos tratamientos.
dicha diferencia en un estudio
Como ilustra el ejemplo anterior, n2 = 50de
conenn1el= diseño sería
un estudio es importante determinar
5
a priori
Comoqué tamaño
ilustra = Φ −anterior,
1el− ejemplo
βmuestral 96 +necesario
1,será de un
en cada
en el diseño Φ(−de
=estudio
grupo 0,71)
es =importante
0,239. para
comparación evitar la
determinar
20 1 / 50 + 1 / 50
aobtención
priori quédetamaño
Es decir, resultados
únicamente no 23,9%
muestral
un concluyentes poren
será necesario falta
cada
de los estudios degrupo
con potencia. Supongamos,
de comparación
este tamaño en el
para casocomo
evitar
muestral detectarían la
estadísticamente significativa
Es decir, únicamente un 23,9% unadediferencia realcon
los estudios de 5este
mmtamaño
Hg. Pormuestral
tanto, no es sorprendente
másque el estudio anterior arrojara un resultado no significativo, aunncuando
general,
obtención de que se pretende
resultados no asignar
concluyentesdistinto
por tamaño
falta de a ambas
potencia. muestras
Supongamos,2 = kn
en1,eldonde
caso una
exista
diferencia
detectaríansubyacente de dicha magnitud
como estadísticamente entre ambos
significativa tratamientos.
una diferencia real de 5 mm Hg.
k es un
más número
general, quepositivo prefijado.
se pretende A partir
asignar detamaño
distinto la fórmula de la muestras
a ambas 2 =n
potencia ncon 1, kn
2=
kn 1, y
donde
Como Porilustra
tanto, el
noejemplo anterior, que
es sorprendente en eleldiseño
estudio deanterior
un estudio es importante
arrojara determinar
un resultado no a priori
recordando
k es un que
número Φ(z
positivo ) = 1 - β ,
prefijado. se sigue
A partirque de la fórmula
qué tamaño muestral será necesario en cada grupo de comparación para evitar la2 obtención
1-β de la potencia con n = kn 1 y
, de
resultados no concluyentes
significativo, aun cuandopor falta
existadeuna potencia.
diferencia Supongamos,
subyacenteendeeldicha caso magnitud
más general, que se
recordando
pretende asignarque
distinto β) = 1 - aβambas
Φ(z1-tamaño , se sigue que n2|=μkn−1, μdonde
muestras k es un número positivo prefijado.
2 |
A partir de laambos
entre fórmula de la potencia
tratamientos. z1− β con
= − zn12−α=/ 2kn+1, y recordando
1
, que Φ(z1–β) = 1 – β, se sigue que
1 1
σ | μ −+μ |
z1− β = − z1−α / 2 + n1 1 kn 2
1 ,
Como ilustra el ejemplo anterior, en el diseñoσde un 1 estudio 1 es importante determinar
+
n1 kn1
de donde
a priori puede despejarse
qué tamaño muestral serán1 para obteneren cada grupo
necesario de comparación para evitar la
de donde puede despejarse n1 para obtener
de dondedepuede
obtención despejarse
resultados n1 para obtener
no concluyentes
que corresponde al tamaño necesario 1por
(k + en z1falta
)( la −primera
de potencia.
α / 2 + z 1−muestra
β ) σ
2 2 Supongamos, en el caso
y n2 = kn1 al de la segunda
n1 = 2
,
másmuestra.
general,En que k ( μtamaño
1 − μ 2 )a ambas 2 muestras n2 = kn1, donde
el se pretende
caso asignar
particular de que distinto
(k + 1)( z1−α / 2 + z1− β ) 2 σ tamaño
se desee un mismo muestral en ambos
que corresponde al tamaño necesario n 1 = en la primera muestra ,
y n = kn1 al de la segunda muestra.
k esgrupos kde( μla μ 2 ) 2 de la 2potencia
1 −fórmula 2 = kn1k
con ngrupos
En eluncaso
número
= 1,positivo
kparticular prefijado.
de que
éste vendrá se desee A partir
determinado un mismo
por tamaño muestral en ambos , y= 1, éste
vendrá determinado por 11
recordando que Φ(z1-β) = 1 - β, se sigue que
2( z1−α / 2 + z1− β ) 2 σ 2 11
n1 = n 2 = 2
.
( μ| μ1 −−μμ2 ) |
z1− β = − z1−α / 2 + 1 2
,
La asignación de igual tamaño a ambas muestras 1 es,1 en general, más eficiente ya que da
lugar aLaunasignación
menor tamaño totaltamaño
de igual del estudio.
a ambas Noσ obstante,
muestras
n1 kn
+ es, hayensituaciones
general, más prácticas en ya
eficiente lasque
que es
1
preferible seleccionar muestras de distinto tamaño, aun cuando ello conlleve un aumento de la
muestra totalapara
da lugar alcanzar
un menor la misma
tamaño totalpotencia;
del estudio. tal esNo el caso
obstante,de loshay estudios donde la
situaciones disponibilidad
prácticas en
de sujetos
de donde puede despejarse
o los costes difierenn1 entre
para obtener
los grupos, o cuando se requieren estimaciones más precisas
en uno de los
las que grupos. Además
es preferible de estas
seleccionar consideraciones,
muestras de distinto en el cálculo
tamaño, del tamaño
aun cuando ellomuestral
conlleve para
la comparación de medias es necesario determinar previamente los siguientes elementos:
(k + 1)( z1−α / 2 + z1− β ) 2 σ 2
un aumento de la muestra
yy El nivel de significación total para alcanzar
n1 =α del contraste bilateral, la misma potencia;
,
que tal es ellacaso
representa de los
probabilidad de
k (μ − μ ) 2
rechazar erróneamente la hipótesis nula1 y se2establece usualmente en α = 0,05.
estudios donde la disponibilidad de sujetos o los costes difieren entre los grupos, o
yy La potencia 1 – β del contraste, que determina la probabilidad de detectar hipótesis
alternativas
cuando ciertasestimaciones
se requieren y se fija habitualmente
más precisas en en 1 –uno β =de 0,80 losógrupos.
0,90. Además de estas 11
yy La varianza poblacional σ . En la determinación del tamaño muestral suele asumirse que
2
consideraciones, en el cálculo
la varianza es común para ambosdel tamaño
grupos, muestral
ya que para la comparación
generalmente de medias
se carece es
de información
previa suficiente para determinar una varianza específica en cada uno de los grupos.
necesario determinar previamente los siguientes elementos:
yy La diferencia mínima detectable |μ1 – μ2|. El tamaño muestral será tanto mayor cuanto
menor sea la diferencia que se pretende detectar. La magnitud de esta diferencia debe ser
• El nivel de significación α del contraste bilateral, que representa la probabilidad
dellaApartado
En
una práctica,
misma 3.4
pareja,por
resulta difícil determinar
la varianza directamente
de las diferencias vieneladeterminada
varianza de según
las diferencias σd2 ya que
los resultados
En la
los datos depráctica,
una mismaresulta difícil
pareja determinar
están directamente
correlacionados. la varianza
Asumiendo igualdevarianza
las diferencias
σ en ambas
2
poblaciones
del Apartadoy un3.4
coeficiente
por deσ correlación
2 2 ρ entre los valores de una misma pareja, la varianza
2 2 2 14
d = σ + σ - 2σ ρ = 2σ (1 - ρ ).
de las
σ d2 diferencias viene de
ya que los datos determinada
una mismasegúnparejalos resultados
están del Apartado
correlacionados. 3.4 por igual
Asumiendo
2 2 2 2 2
σ d = σ + σ − 2σ ρ = 2σ (1 − ρ ).
Así, el número
2 de parejas necesarias también puede
varianza σ en ambas poblaciones y un coeficiente de correlación expresarse como
ρ entre los valores de
Así, el número de parejas necesarias también puede expresarse como
Así, misma
una el número de parejas
pareja, necesarias
la varianza de 2las también
( z1diferencias puede
viene
2 2expresarse
determinada como
según los resultados
−α / 2 + z1− β ) σ (1 − ρ )
n=
(μ 1 − μ 2 ) 2
del Apartado 3.4 por
2( z1−α / 2 + z1− β ) 2 σ 2 (1 − ρ )
que, además de los parámetros n=
descritos en de la correlación
ensayo
que, ademásclínico
de emparejado
los parámetros donde, enel μapartado
(lugar − de ) 2anterior,
μ 2 asignar depende
distintos pacientes a ambos entre
σ 2 =descritos
σ 2 + σno
cada pareja de datos. Si el emparejamiento d
2 en1 el 2apartado
- es
2σefectivo,
ρ = 2σ de 2 anterior, depende de la
(1tal
- ρforma
). que ρ está próximo a 0, el
número de parejas
grupos, cada necesarias
paciente espara un estudio
sometido a laSiemparejado
monoterapiaserá aproximadamente
estándar durante igual al número
un primer
correlación
que, además
de sujetos entre
de
por grupo cada
lospara unpareja
parámetros
estudio de datos.
descritos
con enelelemparejamiento
muestras apartado anterior,
independientes no es efectivo,
depende
(notar =de0,tal
que sideρ la la fórmula
Así,
anterior el número
se reduce de parejas necesarias también puede expresarse como
periodo de 4a semanas
la obtenida y alentratamiento
el caso de muestras
combinado independientes
con el nuevodel mismodurante
fármaco tamaño). Si, por
forma queelρ entre
correlación
el contrario, está próximo
cada pareja
emparejamiento a 0,es elefectivo,
de número
datos. Sideel parejas
los necesarias
emparejamiento
datos de cada parejanopara un estudio
es efectivo,
estarán de tal
correlacionados
positivamente
un segundo y, enperiodo
consecuencia,
de igualelduración.
2número
( z1−α / 2 de
+Sezparejas
asume será
(1 −substancialmente
que laρ )desviación típica inferior
de la al número
1− β ) σ de
2 2
emparejado
de forma
sujetos que ρ será
requeridos aproximadamente
en cadaagrupo
está próximo 0,n el deigual
= número al número
un estudio
de sujetos bajo
independiente
parejas necesarias por
para grupo
las
un para un
mismas
estudio estudio
condiciones.
(μ1 − μ 2 ) 2
presión arterial sistólica bajo ambos tratamientos es 20 mm Hg, y que el
conEjemplo
muestrasserá
emparejado independientes
9.5 Con objeto (notar
aproximadamente que sialρla
igual
de asegurar =comparabilidad
0, la de
número fórmula
sujetos anterior
por sepacientes
grupo
de los reduce
para un a hipertensos
la
estudio
que,bajo monoterapia
coeficiente
además dedelos y tratamiento
correlación
parámetros entre combinado, en el se
las determinaciones
descritos decide diseñar
apartado tomadas
anterior, undepende
ensayo
en clínico
un mismo emparejado
de lasujeto
obtenida
condonde, en
muestras el caso
en lugar de muestras
de asignar (notar
independientes independientes
distintos del
si ρ = 0, alaambos
quepacientes mimo
fórmula tamaño).
grupos,
anterior Si,
cada por el
se paciente contrario,
reduce aes la sometido
a la monoterapia
con un intervalo
correlación entre cada estándar
de 4pareja
semanas durante un primer
es aproximadamente
de datos. periodo
Si el emparejamiento de
0,50. Para 4 semanas
no esdetectar y al
unade tal
efectivo, tratamiento
el emparejamiento
combinado
obtenida casoeles
en el con efectivo,
denuevo
muestrasfármacolos datos
durante
independientesde cada pareja
un segundo
del mimo estarán
periodo
tamaño). correlacionados
de igual
Si, porduración.
el contrario,Se asume
que
forma la desviación
diferencia subyacente
que ρ está típica
próximode de la
5 mm
a 0, presión
Hg en de
el número arterial
la presiónsistólica
parejas arterial bajo
necesarias ambos
sistólica
para un tratamientos
media al final de20 mm
estudio es
positivamente y, en
Hg, y que el coeficiente
el emparejamiento consecuencia,
es efectivo, el
de correlación número
los datos deentre de
cada lasparejas será substancialmente
determinaciones
pareja tomadas en
estarán correlacionados inferior
un mismo
sujeto con un
ambos tratamientos
emparejado intervalo de 4
con una potencia
será aproximadamente semanas
igual de es aproximadamente
0,80 y undenivel
al número sujetos 0,50.
de significación
por grupo paraPara
deun detectar
estudiouna
0,05,
al número de sujetos
diferencia subyacente
positivamente requeridos
de 5 mm Hg
y, en consecuencia, en cada grupo
en la presión
el número de un
de parejas estudio
arterial independiente
serásistólica bajo
media al final
substancialmente las
de ambos
inferior
con tratamientos
elmuestras
número de con una potencia
sujetos necesarios
independientes (notarende 0,80
que este y un nivel
si ρestudio de
= 0, laemparejadosignificación
fórmula anterior de 0,05,
sería se reduce a lael número de
mismas
al número condiciones.
parejas necesarias sería
de sujetos requeridos en cada grupo de un estudio independiente bajo las
obtenida en el caso de muestras
2(1,96 + independientes
0,84) 2 20 2 (1 − 0del
,50)mimo tamaño). Si, por el contrario,
mismas condiciones. n = = 125,44de≈ los
126;pacientes
Ejemplo 9.5 Con objeto de asegurar 52 la comparabilidad
el emparejamiento es efectivo, los datos de cada pareja estarán correlacionados
es decir, la mitad
hipertensos
Ejemplo 9.5bajo
Condemonoterapia
los sujetos
objeto que serían
y tratamiento
de asegurar necesarios en de
combinado,
la comparabilidad cada
selosuno
decidedediseñar
los grupos
pacientes un de un
es decir,nolaemparejado
positivamente
diseño mitad de los(Ejemplo
sujetos el
y, en consecuencia, que serían de
número
9.4). necesarios en cada
parejas será uno de los grupos
substancialmente de
inferior
hipertensos bajo monoterapia y tratamiento combinado, se decide diseñar un
al un diseño
Lanúmero de no
determinación emparejado
sujetos tamaño (Ejemplo
del requeridos
muestral 9.4).
en cada grupo
para de un estudio
la comparación de independiente
medias en más bajo lasmuestras
de dos 15
dependientes o independientes sigue argumentos similares a los descritos en este apartado. No
mismas condiciones.
La determinación del tamaño muestral para la comparación de medias en más de dos 15 Pastor-Barriuso R. 147
muestrasEjemplo
dependientes o independientes
9.5 Con siguelaargumentos
objeto de asegurar similares
comparabilidad a los
de los descritos en
pacientes
aproximación
en el Apartadonormal
9.2.2, alas
la fórmulas
distribución muestral
descritas de una proporción
a continuación y, en consecuencia,
se fundamentan en la
serán válidas
aproximación
Determinación siempre
del tamaño muestralque
normal π(1 - π) ≥ 5 muestral
a landistribución en ambosdegrupos de comparación.
una proporción En las
y, en consecuencia,
referencias de siempre
serán válidas este temaque
pueden
nπ(1 -consultarse otros métodos
π) ≥ 5 en ambos alternativos
grupos de de cálculo
comparación. En las del
obstante, para preservar la incertidumbre global del proceso de inferencia, es necesario utilizar
tamaño muestral
referencias particularmente
de este tema pueden útiles para laotros
consultarse comparación
métodos de proporciones muy del
técnicas de corrección por las múltiples comparaciones que se alternativos de cálculo
pretendan realizar en el análisis
(por ejemplo, un ensayo clínico en el que se comparan varios tratamientos frente a placebo). Estos
extremas
tamaño en muestras
muestral reducidas. útiles para la comparación de proporciones muy
particularmente
métodos pueden consultarse en los libros de tamaño muestral referenciados al final del tema.
extremas
9.4.1 en muestras
Tamaño muestral reducidas.
para la comparación de proporciones en dos muestras
9.4 TAMAÑO MUESTRAL PARA LA COMPARACIÓN DE PROPORCIONES
independientes
9.4.1 Tamaño muestral para la comparación de proporciones en dos muestras
En esta sección se aborda el problema de la determinación del tamaño muestral en estudios
observacionales
El o ensayos
propósito se
independientes centra enclínicos donde
contrastar se pretende
la hipótesis nulacontrastar diferencias
de igualdad entre proporciones
de proporciones
a partir de dos muestras dependientes o independientes. Al igual que en el Apartado 9.2.2, las
fórmulas descritas
poblacionales
El propósito Ha0centra
se : continuación
π1 = en
π2 frentesea fundamentan
contrastarla la
hipótesis
hipótesis en la aproximación
alternativa
nula Hnormal
bilateral de
de igualdad : π1 ≠ πa2laa partir
1proporciones distribución
de
muestral de una proporción y, en consecuencia, serán válidas siempre que nπ(1 – π) ≥ 5 en
ambos
dos grupos deindependientes
muestras
poblacionales comparación. En
delas
H0: π1 = π2 frente a referencias
tamaños n1 y nde
la hipótesis este tema bilateral
pueden
2. Del Apartado
alternativa 7.3consultarse
π1 ≠ π2otros
se1:desprende
H quemétodos
lade
a partir
alternativos de cálculo del tamaño muestral particularmente útiles para la comparación de
proporciones
diferencia muy
de
dos muestras extremas enmuestrales
proporciones
independientes muestras
de tamaños reducidas.
p1 -np12yseguirá
n2. Delaproximadamente una distribución
Apartado 7.3 se desprende que la
normal N(0,deπmuestral
diferencia
9.4.1 Tamaño (1 - π)(1/npara
proporciones 1 + 1/n
la2)) bajo H
muestrales
comparación p10 -ypN( π1 -proporciones
π2, aproximadamente
2 seguirá
de π1(1 - π1)/n en1 + π2(1
dos - πdistribución
una 2)/n2) bajo
muestras
independientes
Hnormal
1, donde π =π(n
N(0, (11-π1π)(1/n
+ n2π12+ 1/n
)/(n 1+ 2) es H
2))nbajo y N(π1 - π2,combinada
la0proporción π1(1 - π1)/nque π2(1
1 + se - π2)/n
asume 2) bajo
común a
El propósito se centra en contrastar la hipótesis nula de igualdad de proporciones poblacionales
Hπ11, =
H0:ambos π =bajo
πgrupos
donde
2 frente (na1πla
H1+ nEl2πcontraste+ n2resultará
2)/(n1 alternativa
0.hipótesis ) es la proporción Hcombinada
significativo
bilateral 1: πpara
1 ≠ π un que
2 anivelseαasume
partir cuando
de doscomún a
lamuestras
independientes de tamaños n1 y n2. Del Apartado 7.3 se desprende que la diferencia de
proporciones
diferencia
ambos grupos de bajo Hp0.1 El
muestrales
proporciones – pcontraste
2 seguirá aproximadamente
muestrales resultará significativo una distribución
para un nivelnormal N(0,laπ(1 – π)
α cuando
(1/n1 + 1/n2)) bajo H0 y N(π1 – π2, π1(1 – π1)/n1 + π2(1 – π2)/n2) bajo H1, donde π = (n1π1 + n2π2)/
n2) es la proporción
(n1 +diferencia de proporcionescombinada que se asume común a ambos grupos bajo H0. El contraste
muestrales
p - p
resultará significativo para un nivel α cuando
1 2 ≤ -z 1-α /2 π (la π )(1 / n1 +de
1 −diferencia n2 )
1 /proporciones muestrales
p1 − p2 ≤ − z1− α /2 π (1 − π )(1 / n1 + 1 / n 2 )
o
o
o
p1 − p2 ≥ z1−α /2 π (1 − π )(1 / n1 + 1 / n 2 ) .
Así, asumiendo
diferencia1de = sin
P( ppérdida
− βproporciones de generalidad
subyacente π1 - πque π1 < πdeterminada
2 vendrá 2, la potenciapor
para detectar una
1 − p2 ≤ − z1 − α /2 π (1 − π )(1 / n1 + 1 / n 2 ) | H1 )
diferencia de proporciones psubyacente
1 − p 2 − (π π
1 1−-ππ22 )vendrá determinada por
= P
π (1 − π ) / n + π (1 − π ) / n
1 1 1 2 2 2
17
− z1−α / 2 π (1 − π )(1 / n1 + 1 / n 2 ) − (π 1 − π 2 )
≤ H1
α / 2
π 1 (1 − π 1 ) / n1 + π 2 (1 − π 2 ) / n 2 17
| π − π 2 | − z1−α / 2 π (1 − π )(1 / n1 + 1 / n 2 )
= Φ 1 .
π 1 (1 − π 1 ) / n1 + π 2 (1 − π 2 ) / n 2
Ejemplo 9.6 Se planea realizar un estudio de cohortes para evaluar la asociación entre
el =
uso de anticonceptivos
0,00750. Aplicando laorales
regla ydeellariesgo de cáncer
probabilidad de (véase
total mama Apartado
en mujeres2.4),
entre la 40 y 49
años. Para ello, se dispone de una cohorte de 6.000 mujeres en este rango de edad sin
evidencia
relaciónbasal
entrede cáncer
esta de mama,combinada
probabilidad que serán seguidas
de cáncerdurante
de mamaun en
periodo decohorte
toda la 5 años para
determinar casos incidentes de la enfermedad. Se estima que un 40% de estas mujeres han
utilizado regularmente específicas
y las probabilidades anticonceptivos oralesdeyexposición
por grupo que la tasavendrá
de incidencia
dada porde cáncer de
mama en este grupo de edad es de I = 150 casos por 100.000 personas-año. Para un nivel
de significación α = 0,05, ¿cuál sería la potenciacde este estudioc
para detectar un hipotético
π = P(D) = P(E)P(D|E) + P(E )P(D|E )
aumento del riesgo de cáncer de mama del 50% entre las usuarias de anticonceptivos
orales?
= 0,40π 1 + 0,60π 2 = 0,40⋅1,50π 2 + 0,60π 2 = 1,20π 2 ,
Asumiendo una tasa delaincidencia
= 0,00750. Aplicando regla de laconstante
probabilidaden los 5 años
total (véasedeApartado
seguimiento,
2.4),lalaincidencia
acumulada o probabilidad de desarrollar un cáncer de mama en esta cohorte durante los
ya queentre
próximos
relación se
5 estima
años que aproximadamente
estasería un 40% de
probabilidad las mujeres
combinada π de son
= IA usuarias
5 = 0,00150∙5
cáncer de mama de anticonceptivos
=
en0,00750. Aplicando la
toda la cohorte
regla de la probabilidad total (véase Apartado 2.4), la relación entre esta probabilidad
orales
combinada
y las y que
de cáncer
probabilidades de mamaπ1por
la probabilidad
específicas endetoda
padecer
grupo ladeun cáncer
cohorte y las
exposición devendrá
mama dada
entrepor
probabilidadeslasespecíficas
usuarias es por
grupo de exposición vendrá dada por
un 50% superior a la probabilidad π2 entre clas no usuarias.c
Así, la probabilidad de
π = P(D) = P(E)P(D|E) + P(E )P(D|E )
desarrollar un cáncer
= 0,40πde mama en los 5 años de seguimiento sería π2 = π/1,20 =
1 + 0,60π 2 = 0,40⋅1,50π 2 + 0,60π 2 = 1,20π 2 ,
ya0,00750/1,20
que se estima=que un 40%
0,00625 de las mujeres
entre sonyusuarias
no usuarias deπanticonceptivos
π1 = 1,50 2 = 1,50⋅0,00625orales
= y que
la que se estimaπ1que
yaprobabilidad de padecer
un 40% un de cáncer de mama
las mujeres entre lasde
son usuarias usuarias es un 50% superior a
anticonceptivos
la 0,00938
probabilidad π
entre las
2 entre
usuarias de anticonceptivos orales. Como se espera que un
las no usuarias. Así, la probabilidad de desarrollar n1 =cáncer de
mama
orales en los la
y que 5 años de seguimiento
probabilidad sería πun
π1 de padecer π/1,20 de
2 = cáncer = 0,00750/1,20
mama entre las = 0,00625
usuariasentre
es las
usuarias y =π12.400
no0,40⋅6.000 = 1,50π = 1,50∙0,00625
mujeres
2 = 0,00938 entre las usuarias de anticonceptivos
de la muestra sean usuarias de estos anticonceptivos y
orales. Como se espera que n1 = 0,40∙6.000 = 2.400 mujeres de la muestra sean usuarias
un 50% superior a la probabilidad π2 entre las no usuarias. Así, la probabilidad de
delas
estos anticonceptivos
restantes y las restantes
n2 = 0,60⋅6.000 = 3.600 non2 usuarias,
= 0,60∙6.000 = 3.600denoeste
la potencia usuarias,
estudiolasería
potencia
de este estudio sería
desarrollar un cáncer de mama en los 5 años de seguimiento sería π2 = π/1,20 =
| 0,00938 − 0,00625 | −1,96 0,00750(1 − 0,00750)(1 / 2.400 + 1 / 3.600)
1 − β = Φ= 0,00625 entre las no usuarias y π1 = 1,50π2 = 1,50⋅0,00625 =
0,00750/1,20
0,00938 (1 − 0, 00938 ) / 2 .400 + 0, 00625(1 − 0, 00625) / 3. 600
0,00938 entre las usuarias de anticonceptivos orales. Como se espera que n1 =
0,00313 − 1,96 ⋅ 0,00227
= Φ = Φ(− 0,56) = 0,287;
0,00237
0,40⋅6.000 = 2.400 mujeres de la muestra sean usuarias de estos anticonceptivos y
es decir, la probabilidad de detectar un hipotético incremento del riesgo de cáncer de
las restantes n = 0,60⋅6.000 = 3.600 no usuarias, la potencia de este estudio sería
mama del 50%2 entre las usuarias y no usuarias de anticonceptivos orales sería únicamente
es decir, la probabilidad de detectar un hipotético incremento del riesgo de cáncer
del 28,7% a partir de una cohorte de 6.000 mujeres seguidas durante 5 años.
| 0,00938 − 0,00625 | −1,96 0,00750(1 − 0,00750)(1 / 2.400 + 1 / 3.600)
1de- βmama
= Φdel 50% entre las usuarias y no usuarias de anticonceptivos orales sería
La expresión anterior de,00938
0 la potencia
(1 − 0, permite
00938 ) / asimismo
2 .400 + 0, determinar
00625 (1 − 0, a priori) /la3.muestra
00625 600
mínima
que seráúnicamente
necesaria endelcada uno de
28,7% los grupos
a partir de unapara alcanzar
cohorte una potencia
de 6.000 mujeres preestablecida
seguidas durante 1 –5β en
la detección de una diferencia subyacente de proporciones π1 – π2. En general, si se prevé asignar
0,00313 − 1,96 ⋅ 0,00227 sigue a partir de la fórmula de la potencia que
distinto años.
tamaño= Φaambas muestras n2 = kn1, se = Φ(-0,56) = 0,287;
0,00237
n1 = 2 2
k (π 1kn−1π 2 ) 2
de tal forma que el tamaño muestral requerido será
de en
tal la
forma que muestra
el tamaño y nmuestral requerido será
primera 2 = kn1 en la segunda muestra, donde la proporción combinada
de tal forma que el tamaño muestral requerido será
( z1−α / 2 (k + 1)π (1 − π ) + z1− β kπ 1 (1 − π 1 ) + π 2 (1 − π 2 ) ) 2
en ambas muestrasn1 = viene dada por π = (n1π1 + n2π2)/(n + n2) = (π1 + kπ2)/(1 + k). En el
k (π 1 − π 2 ) 2 1
( z1−α / 2 (k + 1)π (1 − π ) + z1− β kπ 1 (1 − π 1 ) + π 2 (1 − π 2 ) ) 2
en caso de asignar
la primera n1 =
igualytamaño
muestra n2 = kna1 ambos grupos de
en la segunda comparación k = 1, el tamaño muestral
k (π 1 muestra,
− π 2 ) 2 donde la proporción combinada en
ambas muestras viene dada por
en la primera muestra y n2 = kn1 en la π = (n π + n
1 1segunda π )/(n
2 2 muestra,1 + n2) donde= (π1 +lakπ 2)/(1 + k). combinada
proporción En el caso de
en cada
asignar una
igual de las amuestras
tamaño ambos grupos se reduce a
de comparación k = 1, el tamaño muestral en cada una de
las en
muestras
enambas se
la primera reduce
muestra
muestras a
viene 2 = kn
y ndada 1 en
por π la
= segunda
(n1π1 + nmuestra,
2π2)/(n1 +donde n2) = la(π1proporción
+ kπ2)/(1 +combinada
k). En el
( z1−α / 2 2π (1 − π ) + z1− β π 1 (1 − π 1 ) + π 2 (1 − π 2 ) ) 2
en ambas
caso muestras
de asignar n 2 viene
n1 =igual =tamaño dada por π =grupos
a ambos (n1π1 +den2comparación
π2)/(n1 + n2) =k =(π1, π2)/(1
1 +elktamaño k). En el
, + muestral
(π 1 − π 2 ) 2
caso
en cadade una
asignar
de lasigual tamañoseareduce
muestras ambosagrupos de comparación k = 1, el tamaño muestral
donde la proporción combinada es π = (π1 + π2)/2. Como se comentó anteriormente, la asignación
de donde
igual tamaño a las dos
la proporción muestras
combinada es es
π =más
(π + eficiente
π2)/2. Como al requerir un menor
se comentó tamaño total
anteriormente, la del
en cada una de las muestras se reduce a 1
estudio para alcanzar una (misma z1−α / 2 potencia.
2π (1 − π )Sin
+ zembargo,
1− β π 1 (1 en
− πel1 )diseño
+ π 2 (1de
− πdeterminados
2) )
2 estudios
(verasignación
ejemplos de n1igual
= n 2 tamaño
= la aselección
posteriores), de muestras
las dos muestras es más de2 eficiente
distinto altamaño
requerir un, menor
puede resultar más
factible en términos de coste 1 −π 2)
(π pacientes.
( z1o−αdisponibilidad de En cualquier caso, 2la determinación
/ 2 2π (1 − π ) + z1− β π 1 (1 − π 1 ) + π 2 (1 − π 2 ) )
deltamaño
tamañototal n1 =estudio
muestral
del npara
2 = lapara
comparación
alcanzar unade proporciones
misma potencia. en muestras
Sin embargo, en ,el diseñoprecisa
independientes
(π 1 − π 2 ) 2
de los
dondesiguientes elementos:
la proporción combinada es π = (π1 + π2)/2. Como se comentó anteriormente, la
de determinados estudios
yy El nivel de significación (ver ejemplos
α del posteriores),
contraste bilateral, que la selección de muestras
suele establecerse pordeconvenio en
donde
asignaciónla proporción
α = 0,05. combinada
de igual tamaño dosπ muestras
a las es = (π1 + πes 2)/2.
más Como se comentó
eficiente anteriormente,
al requerir un menor la
distinto tamaño puede resultar más factible en términos de coste o disponibilidad de
yy La potencia 1 – β para detectar hipótesis alternativas ciertas. La mayoría de los estudios
asignación
tamaño totalde
deligual tamaño
estudio paraaalcanzar
las dos muestras
una misma es potencia.
más eficiente al requerirenunelmenor
Sin embargo, diseño
se diseñan con una potencia 1 – β = 0,80 ó 0,90.
ydey Las
tamaño proporciones poblacionales
total del estudios
determinados estudio para π1 una
(ver alcanzar
ejemplos π2misma
yposteriores),
. A diferencia de Sin
potencia. la comparación
la selección embargo, en de
de muestras medias, no
eldediseño
es suficiente con determinar la diferencia de proporciones que se pretende detectar, sino
deque
distinto estamaño
necesario
determinados especificar
estudios
puede (verla
resultar magnitud
ejemplos
más aproximada
posteriores),
factible lade
en términos esta
costeproporción
selección
de o de en cada
muestras
disponibilidad grupo
de de 20 de
comparación, para contar así con un valor aproximado de las varianzas poblacionales
π1) y π2(1
π1(1 – tamaño
distinto – π2).resultar más factible en términos de coste o disponibilidad de
puede
Ejemplo 9.7 Como se vio en el ejemplo anterior, una cohorte de 6.000 mujeres carece
de potencia suficiente para detectar un hipotético incremento del 50% en la incidencia
20
acumulada de cáncer de mama en 5 años entre las mujeres usuarias y no usuarias de
anticonceptivos orales. Según los cálculos del ejemplo anterior, la incidencia acumulada
20
en este periodo en una cohorte de mujeres entre 40 y 49 años será aproximadamente
π = 0,00750, siendo π1 = 0,00938 y π2 = 0,00625 las respectivas incidencias acumuladas
150 Pastor-Barriuso R.
años será aproximadamente π = 0,00750, siendo π1 = 0,00938 y π2 = 0,00625 las
mujeres usuarias de estos anticonceptivos y n2 = 1,5⋅10.202,55 = 15.303,82 ≈
respectivas incidencias acumuladas en usuarias y no usuarias. Como se prevé que
Tamaño muestral para la comparación de proporciones
15.304 no usuarias. Así, para detectar un aumento subyacente del riesgo de cáncer
la cohorte esté compuesta de un 40% de mujeres usuarias de anticonceptivos
de mama del 50% entre las usuarias de anticonceptivos orales con una potencia de
en usuarias
orales y no de
y un 60% usuarias. Comosesetiene
no usuarias, prevé que
que n2 la cohorte
= 1,5n esté compuesta
1. Asumiendo de de
un nivel un 40% de
0,80, se precisaría de una cohorte inicial de 25.507 mujeres seguidas durante untiene que
mujeres usuarias de anticonceptivos orales y un 60% de no usuarias, se
nsignificación
2 = 1,5n1. Asumiendo
α = 0,05 un nivel
y una de significación
potencia α =se0,05
1 - β = 0,80, y una potencia 1 – β = 0,80, se
necesitarían
necesitarían
periodo de 5 años.
(1,96 2,5 ⋅ 0,00744 + 0,84 1,5 ⋅ 0,00929 + 0,00621 ) 2
n1 =
El tamaño necesario de la cohorte se reduciría si el seguimiento del estudio se
1,5(0,00938 − 0,00625) 2
extendiera, por ejemplo, hasta
= 10.202,55 los 10 años, ya que el número esperado de eventos
≈ 10.203
mujeres usuarias de estos anticonceptivos y n2 = 1,5∙10.202,55 = 15.303,82 ≈ 15.304 no
aumentaría considerablemente.
usuarias. Así, Siguiendo
para detectar un aumento argumentos
subyacente similares
del riesgo a los del
de cáncer deejemplo
mama del 50%
entre las usuarias de anticonceptivos orales con una potencia de 0,80, se precisaría21de una
anterior, la incidencia
cohorte inicial acumulada
de 25.507 mujeresen toda ladurante
seguidas cohorteun
durante 10 de
periodo años sería π =
5 años.
El tamañoy necesario
0,01500, de la cohorte
las incidencias se reduciría
acumuladas si elentre
específicas seguimiento del estudio
las usuarias se extendiera,
y no usuarias
por ejemplo, hasta los 10 años, ya que el número esperado de eventos aumentaría
considerablemente.
de Siguiendo
anticonceptivos orales argumentos
serían similares
π1 = 0,01875 y π2 =a 0,01250,
los del ejemplo anterior, la incidencia
respectivamente. La
acumulada en toda la cohorte durante 10 años sería π = 0,01500, y las incidencias
acumuladas
cohorte específicas
necesaria entreentonces
consistiría las usuarias
en y no usuarias de anticonceptivos orales serían
π1 = 0,01875 y π2 = 0,01250, respectivamente. La cohorte necesaria consistiría entonces en
= 5.061,27 ≈ 5.062
usuarias de anticonceptivos orales y n2 = 1,5∙5.061,27 = 7.591,90 ≈ 7.592 no usuarias; es
decir, 12.654 mujeres seguidas a lo largo de 10 años.
usuarias de anticonceptivos orales y n2 = 1,5⋅5.061,27 = 7.591,90 ≈ 7.592 no
de la población de referencia, la proporción de utilización de anticonceptivos
Ejemplo es
usuarias; 9.8 decir,
Dado que la
12.654 realización
mujeres seguidasde una loestudio
largo de prospectivo
10 años. requeriría de una gran
cantidad de personas-año de seguimiento para obtener un númeroπ2suficiente
orales entre las mujeres del grupo control será aproximadamente = 0,40. Ade casos de
de la población
cáncer de mama,deresultará
referencia,
máslaviable
proporción
llevar adecaboutilización
un estudio de anticonceptivos
de casos y controles. En tal
partir de la expresión del odds ratio en estudios de casos
caso, el propósito se centrará en seleccionar un número suficiente de y controles (véase
casos y controles
Ejemplo
para 9.8 las
oralesdetectar
entre Dado queratio
unmujeres
odds ladel
realización
grupo
de de
deun
control
cáncer estudio
será
mama ω =prospectivo
aproximadamente
1,50 entre las requeriría
πusuarias
2 = deyAuna
0,40. no usuarias
Apartado 7.6.2), se tiene que
de anticonceptivos orales con una potencia 1 – β = 0,80. Si los controles seleccionados
gran
partircantidad
constituyen de personas-año
una muestra
de la expresión de seguimiento
representativa
del odds ratio para
de la población
en estudios obtener
de casos un número
ydecontroles
referencia, suficiente
la proporción de
(véase
utilización de anticonceptivos P( E | Dorales
) P( E c | entre
D c ) las π 1 (1mujeres
− π 2 ) del grupo control será
de casos de cáncer
aproximadamente πde =mama,
ω
Apartado 7.6.2), se 2tiene que =
0,40. resultará
A partir demás
la viable=
expresión llevar
del aodds , ratio
cabo un estudio de de casos y
en estudios
P( E | D c ) P( E c | D) π 2 (1 − π 1 )
controles (véase Apartado 7.6.2), se tiene que
casos y controles. En tal caso, el propósito se centrará en seleccionar un número
P( E | D) P( E c | D c ) π 1 (1 − π 2 ) ,
de donde puede despejarse ω = la proporción =
π1 de mujeres que han usado
suficiente de casos y controles | D c detectar
P( Epara ) P( E c | Dun) odds 1 − π 1de
π 2 (ratio ) cáncer de mama ω =
anticonceptivos
de donde puede orales entre la
despejarse losproporción
casos de cáncer
π1 de de mamaque
mujeres comohan usado anticonceptivos
1,50 entre las usuarias y no usuarias de anticonceptivos orales con una potencia 1
orales entre
de donde los casos
puede de cáncer
despejarse de mama πcomo
la proporción 1 de mujeres que han usado
mismo
Determinación del número de casos
tamaño muestral que controles, de tal forma que la proporción combinada
mediante sin pérdida de generalidad que πb < πc, la probabilidad del segundo evento será
Asumiendo
despreciable bajo la hipótesis alternativa y la potencia podrá entonces aproximarse mediante
1 − β = P( pb − pc ≤ − z1−α / 2 (π b + π c ) / n | H1)
p b − p c − (π b − π c ) − z1−α / 2 (π b + π c ) / n − (π b − π c )
= P ≤ H1
{(π + π ) − (π − π ) 2 } / n {(π b + π c ) − (π b − π c ) 2 } / n
b c b c
| π b − π c | − z1−α / 2 (π b + π c ) / n
= Φ .
{(π + π ) − (π − π ) 2 } / n
b c b c
A partir de esta expresión, se sigue que el número total de parejas necesarias para alcanzar una
potencia 1 – β es
A partir de esta expresión, se sigue que el número total de parejas necesarias para
( z1−α / 2 π b + π c + z1− β (π b + π c ) − (π b − π c ) 2 ) 2
n =
alcanzar una potencia 1 - β es ,
(π − π ) 2
b c
para cuyo cálculo se precisa de una idea aproximada de las probabilidades de obtener ambos
paradecuyo
tipos cálculo
parejas se precisa de
discordantes πb una
y πcidea aproximada
. Aunque losprobabilidades
de las
son pocos de obtener
diseños emparejados donde se
cuenta con información a priori de estas probabilidades, las siguientes consideraciones generales
pueden
ambos resultar útiles
tipos de parejas práctica. Si elπbemparejamiento
en ladiscordantes y πc. Aunque sonnopocos fueralos
efectivo,
diseñospongamos por
ejemplo un estudio de casos y controles donde las variables de emparejamiento no estuvieran 25
asociadas
emparejadoscon la exposición
donde se cuenta principal, el nivel ade
con información exposición
priori de estas sería entonces virtualmente
probabilidades, las
independiente entre caso y control, de tal forma que la proporción esperada de parejas con el
caso expuestoconsideraciones
siguientes y el control no expuesto
generalessería
pueden π1(1 – útiles
πb =resultar π2) y con
en laelpráctica.
control expuesto
Si el y el caso
no expuesto πc = π2(1 – π1), para una proporción total de pares discordantes πb + πc = π1(1 – π2)
+ πemparejamiento
2(1 – π1). En tal no caso,
fuera puede
efectivo,probarse
pongamosquepor el ejemplo
número un necesario
estudio de casos
parejasy coincidiría
aproximadamente con el número de sujetos por grupo en un estudio de casos y controles
independientes;
controles donde resultado esperable
las variables siempre que seno
de emparejamiento empareje
estuvieranporasociadas
características
con lairrelevantes.
Por el contrario, si el emparejamiento fuera efectivo, esto es, si los factores pronósticos
empleados
exposición en principal,
el emparejamiento
el nivel deestuvieran
exposiciónasociados con la exposición
sería entonces virtualmentea independiente
estudio, los casos y
controles se asemejarían en su nivel de exposición, induciendo así una correlación positiva en
entre caso ydecontrol,
la exposición de taldeforma
cada pareja caso que la proporción
y control. Las parejasesperada de parejas
discordantes con entonces
serían el caso menos
probables πb + πc < π1(1 – π2) + π2(1 – π1) y, en consecuencia, para obtener un número suficiente
de expuesto
pares discordantes para
y el control noelexpuesto
análisis, sería πb = πtotal
el número π2parejas
1(1 -de ) y con habría de ser
el control superiory al
expuesto el número
de sujetos por grupo en un estudio independiente. En general, la comparación de proporciones
en caso
muestras emparejadas
no expuesto πc = πtiene menor
2(1 - π potencia
1), para que la comparación
una proporción total de pares cruda de proporciones
discordantes πb + πc en
muestras independientes, pero mayor validez interna al controlar los posibles sesgos derivados
de =losπ1factores
(1 - π2) +deπconfusión utilizados en el emparejamiento.
2(1 - π1). En tal caso, puede probarse que el número necesario de parejas
Ejemploaproximadamente
coincidiría 9.9 En el estudiocondeel casos
número y de
controles
sujetos independientes
por grupo en undel ejemplo
estudio anterior,
de casos
cabría esperar que la edad media de los casos sea superior a la de los controles ya que la
incidencia
y controles de cáncer de mama
independientes; aumenta
resultado con la edad.
esperable Además,
siempre como
que se la edadpor
empareje está inversamente
relacionada con el uso de anticonceptivos orales, esta variable podría provocar una
confusión negativa
características en la asociación
irrelevantes. a estudio,
Por el contrario, si elde tal forma que elfuera
emparejamiento oddsefectivo,
ratio obtenido de la
esto es,
comparación cruda de casos y controles independientes tendería a infraestimar el potencial
efecto
si los nocivo
factores del uso deempleados
pronósticos anticonceptivos orales en el riesgo
en el emparejamiento de cáncerasociados
estuvieran de mama.con la
control. Las parejas discordantes serían entonces menos probables πb + πc < π1(1 - π2) +
Determinación del tamaño muestral
Para evitar esta posible confusión, se decide diseñar un estudio de casos y controles
emparejados, donde cada caso de cáncer de mama se empareja aleatoriamente con un
control de su misma edad. Como consecuencia de este emparejamiento por edad, se
induciría un cierto grado de correlación positiva en la utilización de anticonceptivos de
cada pareja. Así, la proporción esperada de pares discordantes sería inferior a π1(1 – π2) +
π2(1 – π1) = 0,50(1 – 0,40) + 0,40(1 – 0,50) = 0,50, donde π1 = 0,50 y π2 = 0,40 son las
proporciones poblacionales de usuarias de anticonceptivos orales entre casos y controles
obtenidas del ejemplo anterior. Asumiendo una correlación moderada, podría establecerse
a priori una proporción aproximada de parejas discordantes πb + πc = 0,40. Para un
hipotético odds ratio de cáncer de mama ω = πb/πc = 1,50, se esperaría entonces una
proporción de parejas
necesarias para condicho
detectar el control
efectousuario depotencia
con una 1 - β = 0,80
anticonceptivos orales y elnivel
y un caso de
no usuario
πc = (πb + πc)/(ω + 1) = 0,40/2,50 = 0,16, y con el caso usuario y el control no usuario
b = ωπc = 1,50∙0,16
πsignificación = 0,24.
α = 0,05 sería Así, el número total de parejas necesarias para detectar dicho
efecto con una potencia 1 – β = 0,80 y un nivel de significación α = 0,05 sería
9.5 REFERENCIAS
entre casos y controles.
1. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The Design and
ElAnalysis
cálculo of
delCohort
tamañoStudies.
muestralLyon: International
puede extenderse Agency for Research
a la comparación on Cancer,
de tres o más 1987.
2. Cochran WG. Sampling Techniques, Third Edition. New York: John Wiley & Sons, 1977.
proporciones
3. Desu MM, enRaghavarao
muestras dependientes o independientes.
D. Sample Size Methodology. Aunque
Boston: las fórmulas
Academic se 1990.
Press,
4. Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley &
derivan siguiendo procedimientos similares a los aquí descritos, suelen emplearse
Sons, 1986.
5. FleissdeJL,
métodos Levin B, del
corrección MC.deStatistical
Paiknivel Methods
significación forpreservar
α para Rates andlaProportions,
probabilidadThird Edition.
global
New York: John Wiley & Sons, 2003.
6. Lemeshow
de obtener S, Hosmer
un resultado DW, Klar J,entre
significativo Lwanga SK. Adequacy
las múltiples of Sampleque
comparaciones Sizese
in Health Studies.
New York: John Wiley & Sons, 1990.
pretendan
7. realizar
Levy PS, (ver referencias
Lemeshow S. Samplingbibliográficas).
of Populations: Methods and Applications, Third Edition.
New York: John Wiley & Sons, 1999.
8. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999.
9.5 REFERENCIAS
9. Silva LC. Diseño Razonado de Muestras y Captación de Datos para la Investigación
Sanitaria. Madrid: Díaz de Santos, 2000.
1. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The
154 Pastor-Barriuso R.
Design and Analysis of Cohort Studies. Lyon: International Agency for Research
on Cancer, 1987.
TEMA 10
CORRELACIÓN Y
REGRESIÓN LINEAL SIMPLE
10.1 INTRODUCCIÓN
En el Tema 6 se discutieron las técnicas estadísticas adecuadas para comparar los niveles medios
de una variable continua en dos grupos de sujetos definidos según la presencia o ausencia de
una determinada característica dicotómica; esto es, la dependencia entre una variable continua
y otra dicotómica. Asimismo, en el Tema 7 se presentaron distintos procedimientos para
determinar la existencia o no de asociación entre dos variables dicotómicas. Queda pendiente,
por tanto, describir los métodos necesarios para evaluar la relación entre dos variables continuas.
En este tema se presentan el coeficiente de correlación y la regresión lineal simple como las
dos técnicas estadísticas más utilizadas para investigar la relación entre dos variables continuas
X e Y. Como veremos más adelante, ambos procedimientos están estrechamente relacionados,
aunque obedecen a estrategias de análisis un tanto diferentes. Por un lado, el coeficiente de
correlación determina el grado de asociación lineal entre X e Y, sin establecer a priori ninguna
direccionalidad en la relación entre ambas variables. Por el contrario, la regresión lineal simple
permite cuantificar el cambio en el nivel medio de la variable Y conforme cambia la variable X,
10.2 COEFICIENTE
asumiendo implícitamenteDE X es la variable explicativa o independiente e Y es la variable
queCORRELACIÓN
respuesta o dependiente.
Como ya se anticipó en el Apartado 3.4, el parámetro más utilizado para medir la
10.2 COEFICIENTE DE CORRELACIÓN
asociación lineal entre dos variables aleatorias X e Y es el coeficiente de correlación
Como ya se anticipó en el Apartado 3.4, el parámetro más utilizado para medir la asociación
poblacional
lineal ρxy, que sealeatorias
entre dos variables define como
X e Y es el coeficiente de correlación poblacional ρxy, que
se define como
cov( X , Y ) E{( X − μ x )(Y − μ y )}
ρ xy = = ,
σx σ y σx σy
x x x
(d) ρxy = -0,70 (e) ρxy = -0,50 (f) ρxy = -0,30
Figura 10.1
Figura 10.1 Diagramas de dispersión entre dos variables aleatorias X e Y con coeficientes de correlación
positivos ρxy = 0,70 (a), 0,50 (b) y 0,30 (c), así como con coeficientes de correlación negativos ρxy = – 0,70 (d),
– 0,50 (e) y – 0,30 (f).
x x
(c) ρxy = -0,70 (d) ρxy = -0,80
Figura 10.2
Figura 10.2 Diagramas de dispersión, coeficientes de correlación y rectas de regresión entre dos variables
aleatorias X e Y con distintas pendientes de la recta de regresión (paneles a y b) y distintas formas de la
relación subyacente (paneles c y d).
Pastor-Barriuso R. 157
Una vez descritas las propiedades e interpretación del coeficiente de correlación
i
n − 1 i =1
( x − x )( y i − y ) ( x i − x )( y i − y )
r= = i =1
,
sx s y n n
aritmética ( xi − x ) 2 ( y i − y ) 2
i =1 i =1
án los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 5
158 Pastor-Barriuso R.
que indica una asociación lineal negativa moderada entre el índice de masa
controles del estudio EURAMIC con valores para ambas variables. A simple
corporal y el colesterol HDL.
vista, se aprecia un cierto grado de dependencia lineal negativa entre ambas
Coeficiente de correlación
variables; esto es, el colesterol HDL tiende a decrecer conforme aumenta el índice
altura en metros al cuadrado,
[Figura y10.3
el colesterol HDL enaquí]
aproximadamente los 533 controles del estudio
de masa corporal.
EURAMIC Esta apreciación
con valores para ambasvisual se confirma
variables. A simple mediante
vista, seelaprecia
cálculoundelcierto grado
de dependencia lineal negativa entre ambas variables; esto es, el colesterol HDL tiende a
coeficiente
decrecer de de
El coeficiente correlación
conforme aumentamuestral
correlación elríndicede
dePearson,
masa
de Pearson corporal.
tiene Esta apreciación
una distribución visual
muestral tantose confirma
más
mediante el cálculo del coeficiente de correlación muestral de Pearson,
1 533 esté la correlación subyacente ρ del valor 0. Cuando ρ
asimétrica cuanto más distante
( xi − x )( y i − y ) − 0,285
532 i =1
está relativamenterpróximo
= a 1 ó -1, las estimaciones
= muestrales del coeficiente de
= − 0,276,
sx s y 3,50 ⋅ 0,295
correlación
que indicatenderán por fuerza
una asociación a desviarse
lineal negativamás moderada entre el ρíndice
del parámetro en la de
cola que corporal
masa no está y el
que indicaHDL.
colesterol una asociación lineal negativa moderada entre el índice de masa
limitada por el rango [-1, 1] de valores posibles de r, resultando en una distribución con
El coeficiente
corporal y eldecolesterol
correlación r de Pearson tiene una distribución muestral tanto más asimétrica
HDL.
un marcado
cuanto sesgoesté
más distante negativo o positivo.
la correlación Por ello, el
subyacente ρ cálculo
del valorde0.unCuando
intervalo de confianza
ρ está relativamente
próximo a 1 ó – 1, las estimaciones muestrales del coeficiente de correlación tenderán por fuerza
y un test más
a desviarse de hipótesis para ρρno
del parámetro ensuele
la cola realizarse
que no está a partir de la por
limitada distribución
el rango muestral r,
[– 1, 1] dedevalores
posibles de r, resultando en[Figura 10.3 aproximadamente
una distribución con un marcado aquí]sesgo negativo o positivo. Por
ello,sino mediante
el cálculo delauntransformación
intervalo de confianzaz de Fishery un test de hipótesis para ρ no suele realizarse a
partir de la distribución muestral de r, sino mediante la transformación z de Fisher
El coeficiente de correlación r de Pearson tiene una distribución muestral tanto más
1 1 + r
z = log ,
asimétrica cuanto
del modelo másydistante
normal el tamaño estémuestral 2no es
la correlación − r pequeño,
1muy
subyacente ρ del n > 50, ρla
valor 0. Cuando
típicamente
cuya distribución muestral presenta una mayor simetría para cualquier valor de ρ. Puede
estátransformación
relativamente
que si laszpróximo
de Fishera 1seódistribuye
-1,poblacionales
las estimaciones muestrales del
X coeficiente de mucho del
probarse
cuya distribución distribuciones
muestral presenta una de forma
mayor de aproximadamente
las
simetría variables e Ynormal
para cualquier no con
de ρmedia
distan
valor . Puede
modelo normal y el tamaño muestral no es muy pequeño, típicamente n > 50, la transformación
zcorrelación
delog{(1 tenderán
ρque
Fisher+se
probarse )/(1
distribuyeporde
ρ)}/2
si- las yfuerza
forma a desviarse
varianza
distribuciones 1/(n - 3),más del
aproximadamente
poblaciones
parámetro
normal
de las conρ media
variables
en la cola que+no
X e Y log{(1
no distan
está– ρ)}/2 y
ρ)/(1
mucho
varianza 1/(n – 3),
limitada por el rango [-1, 1] de valores posibles de r, resultando en una distribución con 6
z→ ~ N 1 log 1 + ρ , 1 .
un marcado sesgo negativo o positivo. Por 2 ello,
1el ρ n − de
− cálculo 3 un intervalo de confianza
Notar quedelahipótesis
y un test de z es
varianza para inversamente
ρ no proporcional
suele realizarse al la
a partir de tamaño muestral
distribución e independiente
muestral de r, de
Notar que lasubyacente
la correlación varianza deρ. z es inversamente proporcional al tamaño muestral e
sino mediante la transformación z de Fisher
independiente
Ejemplo 10.2 de laLas
correlación y (b)ρ.muestran las distribuciones del coeficiente de
subyacente
Figuras 10.4(a)
correlación r de Pearson y de la transformación z de Fisher entre el índice de masa corporal
y el colesterol HDL en 1000 muestras 1 1 + r simples de tamaño 50 obtenidas a partir
z = logaleatorias ,
muestran
de Ejemplo 10.2 del
los controles Lasestudio
FigurasEURAMIC.
10.4(a)
2 y (b) 1 La las distribuciones
− r distribución
muestral de rdel coeficiente
presenta un leve
sesgo positivo ya que el percentil 75 (– 0,18) está ligeramente más alejado de la mediana
de correlación
(– 0,28) r de Pearson
que el percentil y de la
25 (– 0,36). Para corregir esta zleve
transformación de Fisher entrelaeltransformación
asimetría, índice de z
de Fisher aumenta la dispersión de los valores de r más distantes de 0 (colaρ.inferior
cuya distribución muestral presenta una mayor simetría para cualquier valor de Puede de la
masa corporal
distribución) y el colesterol
y mantiene HDL constantes
virtualmente en 1000 muestras aleatorias
los valores simples
próximos de tamaño
a 0 (cola superior),
probarse que si las distribuciones poblaciones de las variables
dando lugar así a una distribución sensiblemente más simétrica. X e Y no distan mucho
50 obtenidas a partir de los controles del estudio EURAMIC. La distribución
En este ejemplo, la distribución muestral del coeficiente de correlación r de Pearson 6
presenta unade
muestral leve asimetríaunyaleve
r presenta quesesgo
la correlación
positivo subyacente – 0,276 en
ya que el percentil 75 todos losestá
(-0,18) controles
del estudio EURAMIC es moderadamente baja. En otras situaciones donde la correlación
subyacente
ligeramenteρ seamásalta, la distribución
alejado de la medianamuestral r será
(-0,28)deque notablemente
el percentil asimétrica
25 (-0,36). Para y, en
consecuencia, el efecto normalizador de la transformación z de Fisher será mucho más
marcado.
corregir esta leve asimetría, la transformación z de Fisher aumenta la dispersión
virtualmente constantes los valores próximos a 0 (cola superior), dando lugar así a
Correlación y regresión lineal simple
20 20
Frecuencia relativa (%)
10 10
En base a la distribución muestral de la transformación z de Fisher, el intervalo de
5 5
confianza al 100(1 - α)% para el parámetro log{(1 + ρ)/(1 - ρ)}/2 viene dado por
0 [Figura 10.4 aproximadamente0 aquí]
1
-0,8 -0,6 -0,4 (z1, z2)0= z ±0,2z1−α / 2 -0,8 , -0,6 -0,4 -0,2
-0,2 0 0,2
n − 3
En base a la distribución muestral de la transformación z de Fisher, 1 elintervalo
1+ r de
(a) r (b ) z = log
2 1− r
confianza
donde z1-α/2ales
100(1 - α)% para
el percentil 1 - αel/2parámetro
de la distribución ρ)/(1 - estandarizada.
log{(1 +normal ρ)}/2 viene dado
Así,por
el
Figura 10.4 Distribución muestral del coeficiente
[Figura de correlación r deaquí]
10.4 aproximadamente Pearson (a) y de la transformación
z deintervalo
Fisher (b)de
entre el índice de masa corporal y el colesterol
confianza al 100(1 - α)% para el coeficiente HDL en 1000 muestraspoblacional
aleatorias simples
ρ de
tamaño 50 obtenidas a partir de los controles del estudio 1 deLas
EURAMIC.
correlación
líneas verticales en trazo discon-
(z1, z2) = z ± z1−α / 2 ,
tinuo representan los parámetros subyacentes ρ = – 0,276 y log{(1
n−3 + ρ)/(1 – ρ)}/2 = – 0,284.
se obtiene
En basedea aplicar el inverso
la distribución de la transformación
muestral de la transformación z dea Fisher,
de Fisher ambos ellímites del Figura
intervalo de 10.4
intervalo,
confianza
donde
En base z1-aα/2al 100(1
laes - α)%muestral
el percentil
distribución para
1 - αel/2parámetro
de
de la log{(1 +normal
la distribución
transformación ρ)/(1 ρ)}/2 viene
z de- estandarizada.
Fisher, dado
Así,por
el intervalo el confianza
de
al 100(1 – α)% para el parámetro log{(1 + ρ)/(1 – ρ)}/2 viene dado por
intervalo de confianza al 100(1 exp(- α)%
2 z1para
) − 1 elexp( 2 z )1− 1 de correlación poblacional ρ
coeficiente
(z1 , z2 ) = z ± ,z1−α / 2 2 , .
exp( 2 z ) +
se obtiene de aplicar el inverso de la transformación de Fisher
1 1 exp( 2 z 2 n) −+ 3
1 a ambos límites del
donde z1–α/2 es el percentil 1 – α/2 de la distribución normal estandarizada. Así, el intervalo de
intervalo,
confianza
donde
Este zal
1-α100(1
intervalo/2 es para α)%
el–percentil
ρ espara 1el- más
tanto αcoeficiente
/2 de de correlación
la distribución
asimétrico alrededor normaldepoblacional ρ sepuntual
laestandarizada.
estimación obtiene
Así, elr de aplicar
el inverso de la transformación de Fisher a ambos límites del intervalo,
intervalo
cuanto de confianza
mayor al 100(1
sea r en valor absoluto- α)%
exp( 2 zy1para− 1 elexp(
)menor coeficiente
sea2el ) − 1 de correlación
z 2 tamaño poblacional
muestral. Asimismo, el ρ
, .
se obtienededelaaplicar
contraste el inverso
hipótesis nula H de la2 ztransformación
exp( 1 ) + 1 exp( 2 z 2 ) de+ Fisher
1 a ambos límites del
0: ρ = ρ0 frente a la hipótesis alternativa bilateral H1: ρ ≠
Este intervalo para ρ es tanto más asimétrico alrededor de la estimación puntual r cuanto mayor
seaρ intervalo,
r0 en
Este valor absoluto
se intervalo
realiza para ρyesmenor
mediante eltanto sea
máselasimétrico
estadístico tamaño muestral.alrededor Asimismo, el contraste
de la estimación de la
puntual r hipótesis
nula H0: ρ = ρ0 frente a la hipótesis alternativa bilateral H1: ρ ≠ ρ0 se realiza mediante el estadístico
cuanto mayor sea r en valor absoluto exp(2 zy1 )menor sea el tamaño muestral. Asimismo, el
1 + ρ20z 2 ) − 1 .
1 − 1 ,exp(
exp(z2−z1 2) +log1 exp(
1 − ρ2 z 2 ) + 1
contraste de la hipótesis nula H0: ρ = ρ0 frente a la0hipótesis
alternativa bilateral H1: ρ ≠
,
1
ρEste
0 se intervalo para ρ eseltanto
realiza mediante estadístico
más asimétrico n − alrededor
3 de la estimación puntual r
que bajo H0 sigue aproximadamente una distribución normal estandarizada. El valor P del
cuanto mayor sea r en valor absoluto y menor sea el tamaño muestral. Asimismo, el
contraste
que bajo se Hcalcula,
0 sigue por tanto, como el una
aproximadamente área 1 +laρcurva
bajo
1 distribución 0 normalnormal estandarizadaElpara
estandarizada. valoraquellos
P
z − log
valores tanto o más distantes de 0 que el valor observado del estadístico.
ρ 0hipótesis
contraste de la hipótesis nula H0: ρ = ρ20 frente 1 −a la alternativa bilateral H : ρ ≠
del contraste se calcula, por tanto, como el área bajo la , curva normal estandarizada1 para
1
Ejemplo 10.3 A partir de 533 controles del estudio EURAMIC, la estimación puntual del
ρ0 se realiza
aquellos valores
mediante el estadístico
tanto o másentre
distantes nque
de 0de −masa
3 el corporal
valor observado del estadístico.
coeficiente de correlación el índice y el colesterol HDL fue r = – 0,276.
La transformación z de Fisher de esta correlación es z = log{(1 – 0,276)/(1 + 0,276)}/2 = – 0,284.
quePara
bajoobtener
H0 sigueuna estimación por una
aproximadamente intervalo 1 +deρla
1 distribución correlación subyacente ρ entre ambas
0 normal estandarizada. El valor P
Ejemplo 10.3 A partir de 533zcontroles − log del estudio EURAMIC, la estimación
2 1 − ρ0
del contraste se calcula, por tanto, como el área bajo la , curva normal estandarizada para
160 puntual
Pastor-Barriuso R. del coeficiente de correlación1entre el índice de masa corporal y el
aquellos valores tanto o más distantes de 0nque − 3 el valor observado del estadístico.
8
referencia del estudio EURAMIC, se calcula en primer lugar el IC al 95% para el
1
− 0,284 ± z 0,975 = -0,284 ± 1,96⋅0,043 = (-0,369; -0,199)
intervalo de la correlación533
subyacente
− 3 ρ entre ambas variables en la población de
parámetro log{(1 + ρ)/(1 - ρ)}/2 como Coeficiente de correlación
(r
i =1
i − r )( s i − s )
rs = ,
n n
(r
i =1
i − r)2 (s
i =1
i − s)2
Pastor-Barriuso R. 161
10
monótona creciente
yi < yj; es que
verifican decir,
xi <losxde perfecta.
j,valores
De igual forma,
observados si rs de
de valores = -1,
las variables Xlose rangos verifican
Y presentan que si =orden
una relación
Y preservan n+
cálculo
álculo del coeficientedel
decoeficiente
correlación desus correspondientes
correlación
Spearman desimplifica
se Spearman la variable
se simplifica
notablemente notablemente
ya que la yadicho
que la
- ri,j;yde
1ymonótona
i<y
donde se
creciente deduce que
perfecta. losigual
De valores
dede
laslas
forma, si variables eXYrangos
rs = -1, Xlos Y presentan
e presentan unauna
verifican relación
que si = n +
Correlación
varianza de losvarianza
rangos de es
es losdecir,
regresión loses
lineal
rangos valores
simple observados variables relación
monótona
1 - ri, de donde
monótona decreciente
creciente se deduce perfecta.
perfecta. queDe losCuando
valores
igual rsde
forma, = 0, silos
las rangos X
rvariables
s = -1, los
estáne Y incorrelacionados
rangos presentan
verificanunaque si y=no
relación n+
1 21 1 21
n n n n
donde (ri − r monótona
losrelación
rangos = (son
)medios r 2
− (rs)i =−=sentre)= (n si − s )Elde
+ (valores
1)/2. 2
coeficiente de correlación de Spearman
1existe
monótona
- r−i,1de
n decreciente
donde se
n − deduce
1 n − 1
i alguna
perfecta.
que los Cuando
valores
n − 1 los rsde = 0, laslos rangos
variables ambas evariables.
están
X incorrelacionados
Y presentan una relación y no
siempre toma valores entre – 1 y 1. Si rs = 1, los rangos son necesariamente idénticos si = ri, de
i =1 i =1 i =1 i =1
2 n 2
tal existe
forma
En el que
caso si dedos que observaciones
1perfecta.
no haya
n
valores +cualesquiera
nentre 1 idénticos (n0,+n1los
nvalores +de
) 1de
(empates)la ambasvariable
n(ennestán 1) Xincorrelacionados
+variables.
ninguna verifican
de las que xi < xel
variables, , sus
monótona relación
correspondientes valores
monótona
decreciente =
n −de
alguna
1 i =la1
i −
variable
Cuando
=
los
= r s
2n −1Yi =preservan
=
i −
1 12 2
rangos
=
dicho orden 12 yi < yj; es decir, los valores
y noj
observados
cálculo
En el
existe de
del
caso
relación las variables
coeficienteque nodehaya
demonótona X e Y
alguna presentan
correlación
valores de una
losSpearman
entreidénticos relación
valores monótona
deseambas
(empates) simplifica
envariables.
ninguna creciente
notablemente
de lasperfecta.ya que
variables, De el
igual
la
forma, si rs = – 1, los rangos verifican que si = n + 1 – ri, de donde se deduce que los valores de
y su
y su covarianza es covarianza deXes Yrangos
las variables
varianza
cálculo
En eldel caso ede
los presentan
que noes
coeficiente dehaya unavalores
correlación relación demonótona
idénticosSpearman (empates) decreciente
se simplificaen ninguna perfecta. Cuando
notablemente
de las yarque
variables, s = 0,
la los
el
rangos están incorrelacionados y no existe relación monótona alguna entre los valores de ambas
1 nvariables.varianza
cálculo 1 del den coeficiente
los rangos 1 1es den correlación 1 2 de n
Spearman se simplifica notablemente ya que la
i i i ( ri − r ) = ( s1{(
n n
( r − r )( s − s )( r
= − r )( s − s ){(= r − r ) + i − ri s−)(2rs)−2−(+rsi )(− 2s is−
2 2
i ) s}) − (ri − s i ) 2 }
i
n − 1 i =1 En elncaso − 1 i =de1 que 2(non −nhaya
1−) 1i =1valores 2(n −
i
2
1) i =n1 − 1 (empates) en ninguna de las variables, el cálculo
idénticos i
=
n(n + 1)
Aplicando
Aplicando ambos resultados, ambos resultados, el
el coeficiente decoeficiente
correlaciónde nde −correlación
1Spearman
i =1 2sedereduce
Spearman a se reduce a
12
y su covarianza es 1 n n +1
2
n(n + 1)
= i − 2 = 12
n − 1n i =1
y su covarianza 6 n
6
rs1= 1n−es 2 rs = 1 −(ri − 2s i )12 , n(ri − s i ) 2 ,2
y su covarianza es ni(n − 1)i i =1 s )n=(n − 1) i =
( r − r )( s − {( ri − r ) + ( s i − s ) 2 − (ri − s i ) 2 }
n − 1 i =1 2(n − 1) 1i =1
y su covarianzanes
1 1 n
=
5,06
= 0,552,
11
1 10 1 10 3,03 ⋅ 3,03
9 i =1
( ri − r ) 2
9 i =1
(si − s ) 2 11
o de forma equivalente mediante la fórmula simplificada en ausencia de empates
o de forma equivalente mediante la fórmula simplificada en ausencia de empates
o de forma equivalente 6 mediante la fórmula simplificada en6 ausencia ⋅ 74 de empates
2 2
rs = 1 − {( 7 − 3 ) + ... + ( 6 − 6 ) } = 1 − = 0,552,
10(10 2 − 1) 10(10 2 − 1)
6 6 ⋅ 74
que refleja rs = 1una − fuerte {(7 − 3) 2 + ... + (6 − 6) 2 } = 1 −
2 relación monótonamente creciente entre2 los niveles de a-tocoferol
= 0,552,
10(10 − 1) 10(10 − 1)
yque refleja unaCabe
b-caroteno. fuerte destacar
relación quemonótonamente
esta estimacióncreciente no esta influenciada entre los niveles por elde valor
α- extremo
1,46 mg/g de b-caroteno ya que el rango de esta observación continuaría siendo 10 para
cualquier
que reflejayvalor
tocoferol una arbitrariamente
fuerte relación
β-caroteno. Cabe destacar mayor que
monótonamente que esta los demás.creciente entre
estimación no esta niveles de α-por
los influenciada
162 tocoferol
el valor
Pastor-Barriuso y β-caroteno.
R. extremo Cabe
1,46 μg/g dedestacar queya
β-caroteno esta
queestimación noesta
el rango de estaobservación
influenciada por
el valor extremo
continuaría siendo 10 μg/g
1,46 de β-caroteno
para cualquier valorya que el rango de
arbitrariamente esta observación
mayor que los demás.
Coeficiente de correlación
de Al
0 queigual que otros
el valor procedimientos
observado del estadístico no t.
paramétricos,
Aparte del mínimo el coeficiente de correlación
requerimiento muestral,de los
rangos de Spearman permite contrastar la hipótesis nula de ausencia de asociación monótona
entre dos variables.
este contraste tiene Bajo esta hipótesis
la ventaja adicionalnula, se ha aplicarse
de poder comprobado que el coeficiente
a cualquier distribución de correlación
rs de Spearman tiende a distribuirse de forma normal o, más concretamente, que el estadístico
subyacente de las variables X e Y, a diferencia del rs contraste paramétrico basado en el
t=
1 − rs2
coeficiente de correlación de Pearson que requiere de distribuciones poblacionales
n−2
sigue aproximadamente
aproximadamente una distribución t de Student con n – 2 grados de libertad, siempre que
normales.
el tamaño muestral
sigue aproximadamentesea n > 10.
unaAsí, el valor P bilateral
distribución t de Studentdel contraste
con n - 2 puede
gradosaproximarse
de libertad, mediante
el área bajo la distribución tn–2 para valores tanto o más alejados de 0 que el valor observado del
estadístico t.que
Ejemplo
siempre Aparte
10.5 del
Como
el tamaño mínimo requerimiento
las distribuciones
muestral sea n > 10. muestral,
subyacentes
Así, el valor este
delPcontraste
bilateraltiene
α-tocoferol la
el ventaja
β-
delycontraste adicional
puede
de poder aplicarse a cualquier distribución subyacente de las variables X e Y, a diferencia del
contraste paramétrico
caroteno
aproximarse (Figura
mediante basado
4.3) áreaen
el son el coeficiente
marcadamente
bajo de tcorrelación
asimétricas
la distribución de Pearson
en los controles delque requiere de
estudio
n-2 para valores tanto o más alejados
distribuciones poblacionales aproximadamente normales.
de EURAMIC,
0 que el valorelobservado
contraste bilateral de la hipótesis
del estadístico t. Apartede delnomínimo
asociación entre ambas
requerimiento muestral,
Ejemplo 10.5 Como las distribuciones subyacentes del a-tocoferol y el b-caroteno
variables
este(Figura a tiene
4.3)
contraste partir deventaja
son la los 10 controles
marcadamente de
de la
asimétricas
adicional Tabla
poder 10.1
enaplicarse
los haade
controles realizarse mediante
del estudio
cualquier el
EURAMIC,
distribución el
contraste bilateral de la hipótesis de no asociación entre ambas variables a partir de los 10
estadístico
controles
subyacente debasado
de la Tabla
las en10.1
la correlación
variables Xhae de de losmediante
Y, realizarse
a diferencia rangos deelSpearman
del contraste estadístico basado
paramétrico en la correlación
basado en el
de los rangos de Spearman
coeficiente de correlación de Pearson rs que requiere0,552 de distribuciones poblacionales
t= = = 1,87,
2 2
aproximadamente normales. 1 − rs 1 − 0 ,552
n−2 8
que bajo la distribución t de Student con 8 grados de libertad corresponde a un valor
Ejemplo 10.5
aproximado de PComo= 2P(tlas ≥distribuciones
1,87) = 0,098. subyacentes
Así, aunque el α-tocoferol
del coeficiente β-
ydeelcorrelación de
que bajo la distribución t8de Student con 8 grados de libertad corresponde a un
Spearman rs = 0,55 estima una fuerte relación monótonamente creciente entre los valores
caroteno de
observados (Figura 4.3) sony marcadamente
a-tocoferol b-caroteno, estaasimétricas
asociaciónennolosllega
controles del estudio
a ser estadísticamente
valor aproximado de P = 2P(t 8 ≥ 1,87) = 0,098. Así, aunque el coeficiente de
significativa, probablemente debido a la escasa potencia del test para detectar cualquier
EURAMIC, el contraste
asociación bilateral de la hipótesis de no asociación entre ambas
correlaciónsubyacente
de Spearman conr tan
s
reducido
= 0,55 estimatamaño muestral.
una fuerte relación monótonamente
variables a partir de los 10inferior
controles de laaTabla
10, la10.1 ha de realizarse mediante el
Cuando el tamaño
creciente muestral
entre los valoresesobservados o de
igual
α-tocoferol y β-caroteno,t de
distribución estaStudent no es una
buena aproximación a la distribución muestral del estadístico t y, en consecuencia, el contraste
estadístico basado en la correlación de los rangos de Spearman
asociación no llega a ser estadísticamente significativa, probablemente debido a la
Pastor-Barriuso R. 163
rs 0,552
t= = = 1,87,
1 − rs2 1 − 0,552 2
dada por 1/n!. Haciendo uso de este resultado, es posible derivar la distribución bajo la
hipótesisynula
Correlación dellineal
regresión coeficiente
de correlación de Spearman, cuyos percentiles en
simple
10.3 REGRESIÓN LINEAL SIMPLE
muestras de tamaño n ≤ 10 se presentan en la Tabla 10 del Apéndice. Para un contraste
Lasbasarse
debe técnicasendelaregresión evalúan
distribución la relación
exacta entre dosde
del coeficiente variables siguiendo
correlación una
de Spearman bajo la
bilateral con
hipótesis nula.unSinivel de significación
no existe α preestablecido,
ninguna relación la hipótesis
monótona entre de no asociación
las variables, y los rangos seri de la
estrategia
X se de análisis distinta a cualquier
la correlación. Mientrass ,que el coeficiente de correlación
variable asumen constantes, permutación 1 ..., sn de los rangos de la variable Y
rechazará
es si elprobable
igualmente coeficiente
y su correlación rviene
deprobabilidad s de Spearman
dada por es inferior
1/n!. uso de α
al percentil
Haciendo /2 oresultado,
este
determina el grado de asociación lineal entre X e Y tratando ambas variables
es posible derivar la distribución bajo la hipótesis nula del coeficiente de correlación de forma de
Spearman, 1 - α/2 deendicha
cuyos percentiles
superior al percentil tabla. de tamaño n ≤ 10 se presentan en la Tabla 10 del
muestras
Apéndice. Para un contraste bilateral conlaun
simétrica,
10.3 la
REGRESIÓN regresión lineal
LINEAL estudia
SIMPLE variación
nivel deen el nivel medio
significación de la variablela hipótesis
α preestablecido,
de no asociación se rechazará si el coeficiente de correlación rs de Spearman es inferior al
percentil α/2 Yo asuperior
respuesta
LasEjemplo
técnicas
medida
10.6 alque
El valor
de regresión
cambia
percentil
evalúan
la– variable
laPα/2
exacto 1de para
de el
relación
explicativa
contraste
dicha tabla.
entre
X, estableciendo
bilateral
dos variables de así una
la hipótesis
siguiendo una de no
direccionalidad en laelrelación entreydichas
α-tocoferol variables. Aunque en ocasiones la elección
asociación
estrategia
Ejemplo entre
de10.6
análisis
Eldistinta deβ-caroteno
el
a la correlación.
valor exacto el viene
P paraMientras dadoel
que
contraste por
coeficiente
bilateral de ladehipótesis
correlación
de no
asociación entre el a-tocoferol y el b-caroteno viene dado por
entre la variable respuesta y explicativa es un tanto arbitraria (por ejemplo, en la
determina el grado de asociación
P = P(r ≥ 0,552|H )lineal
+ P(rentre X e Y tratando
≤ − 0,552|H ) = 2P(rambas variables
≥ 0,552|H ), de forma
s 0 s 0 s 0
asociación
ya que laentre
simétrica, el α-tocoferol
distribución
regresión H
bajoestudia
lineal β-caroteno),
y eldel variaciónlaen
lacoeficiente direccionalidad
de nivel mediodesuele
elcorrelación establecerse
deSpearman
la variable de
es simétrica
0
ya que la distribución
alrededor de 0. Utilizando bajo laH0Tabla
del coeficiente
10 del Apéndicede correlación
para n = de10,Spearman
se tiene quees el percentil
forma natural
rs;0,95 = Y0,552,por el propio
de loque diseño
cualcambia
se deduce del estudio o la naturaleza
que P =explicativa
2P(rs ≥ 0,552|H de las variables (porEste valor
respuesta a medida la variable 0) ≥ 2⋅0,05 así
X, estableciendo = 0,10.
una
simétrica
exacto de alrededor
P es similar de 0.al Utilizando la Tabla mediante
valor aproximado 10 del Apéndice para n =t 10,
la distribución de se tiene en el
Student
ejemplo, los cambios
ejemplo anterior.
direccionalidad medios en el colesterol HDL conforme aumenta
en la relación entre dichas variables. Aunque en ocasiones la elección el índice de masa
que el percentil rs;0,95 = 0,552, de lo cual se deduce que P = 2P(rs ≥ 0,552|H0) ≥
corporal).
entre la variable respuesta y explicativa es un tanto arbitraria (por ejemplo, en la
10.3 2⋅0,05
REGRESIÓN = 0,10. Este LINEAL SIMPLE
valor exacto de P es similar al valor aproximado mediante la
El modelo
asociación entrede regresión linealy asume
el α-tocoferol que la media
el β-caroteno), de la variable suele
la direccionalidad respuesta Y cambiade
establecerse
Las técnicas de regresión
distribución evalúan
t de Student en ellaejemplo
relaciónanterior.
entre dos variables siguiendo una estrategia de
linealmente
análisis con lacorrelación.
variable explicativa X; esto es, para un de valor fijo x de la variable el grado
forma natural por el propio diseño del estudio coeficiente
distinta a la Mientras que el o la naturaleza correlación determina
de las variables (por
de asociación lineal entre X e Y tratando ambas variables de forma simétrica, la regresión lineal
explicativa,
estudia el valor
la variación en elesperado de la variable
nivel medio respuesta es Y a medida que cambia la variable
ejemplo, los cambios medios en elde la variable
colesterol HDLrespuesta
conforme aumenta el índice de masa
explicativa X, estableciendo así una direccionalidad en la relación entre dichas variables.
Aunque en ocasiones la elección entreE(Y|x)
corporal). la variable
= β0 +respuesta
β1x, y explicativa es un tanto arbitraria
14
(por ejemplo, en la asociación entre el a-tocoferol y el b-caroteno), la direccionalidad suele
establecerse
El modelo de forma natural lineal
de regresión por elasume
propioque diseño del estudio
la media o la naturaleza
de la variable respuestadeYlas variables
cambia
donde β
(por ejemplo, 0 y β
los son la constante y la pendiente de la recta de regresión
1 cambios medios en el colesterol HDL conforme aumenta el índice de masa , respectivamente.
corporal).
linealmente con la variable explicativa X; esto es, para un valor fijo x de la variable
La constante β0 determina la media de Y cuando X = 0, E(Y|0) = β0 + β10 = β0, y la
El modelo de regresión lineal asume que la media de la variable respuesta Y cambia
explicativa,
linealmente conellavalor esperado
variable de la variable
explicativa X; esto es,respuesta
para un es valor fijo x de la variable explicativa,
pendiente β corresponde al cambio
el valor esperado de la variable respuesta es
1 en el valor medio de Y por cada aumento de una
donde el término de error aleatorio ε, que representa la desviación de cada respuesta individual
modelo se completa asumiendo que los valores individuales de la variable respuesta se
Y respecto de la recta de regresión β0 + β1x, se distribuye de forma normal con media150 y
distribuyen de forma normal alrededor del valor esperado definido por la recta de
164 Pastor-Barriuso R.
regresión. Así, la estructura general del modelo de regresión lineal es
Y = β + β x + ε,
individual Y respecto de la recta de regresión β0 + β1x, se distribuye de forma normal
con media 0 y varianza σ 2. Por tanto, la regresión lineal establece que para Regresión
un valor fijosimple
lineal
Y|x ~ N(β 0 + β 1 x, σ 2 ),
de donde se derivan las siguientes asunciones:
de donde se derivan las siguientes asunciones:
yy Linealidad: El valor esperado de la variable respuesta Y es una función lineal de la variable
explicativa X, de tal forma que cambios de magnitud constante a distintos niveles de X se
• Linealidad: El valor esperado de la variable respuesta Y es una función lineal de
asocian con un mismo cambio en el valor medio de Y.
yy Homogeneidad de la varianza:
la variable explicativa Laforma
X, de tal varianza
que de la variable
cambios respuesta
de magnitud Y es la misma
constante a para
cualquier valor de la variable explicativa X; es decir, a diferencia de la media, la varianza
de Ydistintos
no está relacionada
niveles de Xcon X.
se asocian con un mismo cambio en el valor medio de Y.
yy Normalidad: Para un valor fijo de la variable explicativa X, la variable respuesta Y sigue
• Homogeneidad
una de la varianza: La varianza de la variable respuesta Y es la
distribución normal.
Las asunciones subyacentes
misma para cualquieralvalor
modelo
de ladevariable
regresión lineal se X;
explicativa representan
es decir, agráficamente
diferencia de en
la la
Figura 10.5. Estas asunciones facilitan el proceso de inferencia sobre la recta de regresión y su
idoneidadmedia,
debe ser evaluadade
la varianza utilizando
Y no estátécnicas diagnósticas,
relacionada con X. algunas de las cuales se presentan
al final de este tema.
Normalidad
En •regresión lineal: simple
Para unsevalor fijo la
estudia dedistribución condicionalX,de
la variable explicativa la una
variable respuesta
variable respuesta
continua en función de una única variable explicativa. Esta variable explicativa puede ser tanto
continua Ycomo
siguecategórica
una distribución
ya que normal.
el modelo de regresión lineal no establece ninguna asunción
respecto a su distribución. La extensión de estos modelos al análisis de regresión lineal múltiple,
Lasse
donde asunciones
consideransubyacentes al modelo
simultáneamente dos odemás
regresión lineal
variables se representan
explicativas, gráficamente
se tratará en el Tema 11.
explicativa puede ser tanto continua como categórica ya que el modelo de regresión
16
x1 x2 x3 x4
X
Figura 10.5
Figura 10.5 Asunciones estadísticas subyacentes al modelo de regresión lineal simple.
Pastor-Barriuso R. 165
mutuamente independientes. Intuitivamente, se trataría de identificar la línea recta que
más se
Correlación aproxime
y regresión linealal conjunto
simple de todos los puntos del diagrama de dispersión entre
ambas variables. Para formalizar esta idea, es preciso calcular la distancia de cada punto
10.3.1 Estimación de la recta de regresión
observado (xi, yi) respecto al punto correspondiente (xi, ŷ i ) = (xi, b0 + b1xi) sobre la
El primer objetivo de la regresión lineal es obtener estimaciones puntuales b0 y b1 de la constante
β0 yrecta
la pendiente β1 deestimada
de regresión la recta de
enregresión que mejor
xi. Esta distancia, se se
que ajuste a los valores
representa 10.6, (xi, yi)
observados
en la Figura
de las variables explicativa y respuesta en una muestra de n sujetos mutuamente independientes.
Intuitivamente,
viene dada por se trataría
el errordedeidentificar
estimaciónlaen línea recta que
la variable más se aproxime
respuesta ei = yi - ŷali =conjunto
yi - b0 - de
b1xtodos
i.
los puntos del diagrama de dispersión entre ambas variables. Para formalizar esta idea, es
preciso
Así, calcular
la recta dela distancia
regresiónde cada determinada
vendrá punto observado (xi, yi) respecto
por aquellos valoresalb0punto
y b1 que correspondiente
hagan
(xi, ŷ i) = (xi, b0 + b1xi) sobre la recta de regresión estimada en xi. Esta distancia, que se representa
en laeste
Figura
error10.6, viene
lo más dada por
pequeño el error
posible de estimación
para en la variable o,
todas las observaciones respuesta ei = yi – ŷ i =que
equivalentemente, yi – b0
– b1xi. Así, la recta de regresión vendrá determinada por aquellos valores b0 y b1 que hagan este
error lo más pequeño
minimicen la sumaposible para todas
de cuadrados laserror
del observaciones o, equivalentemente, que minimicen
la suma de cuadrados del error
n n n
SSE = e
i =1
2
i = ( y i − yˆ i ) 2 = ( y i − b0 − b1 x i ) 2,
i =1 i =1
también llamada suma de cuadrados residual. Notar que los errores se elevan al cuadrado
paratambién
evitar llamada
que se compensen los errores
suma de cuadrados positivos
residual. Notaryque
negativos. Este
los errores procedimiento
se elevan al para
estimar los parámetros de la recta de regresión se conoce como el método de mínimos
cuadrados.
cuadrado para evitar que se compensen los errores positivos y negativos. Este
ei = yi − yˆ i
17
y ( xi , yˆ i ) = ( xi , b0 + b1 xi )
Figura 10.6 Error o desviación del valor observado de la variable respuesta respecto a su valor estimado
Figura 10.6
por la recta de regresión.
166 Pastor-Barriuso R.
Para obtener los valores
1
b0 yi =b11 que minimizan
i =1
la suma de cuadrados del error, se
calculan
cuya las derivadas parciales de SSE respecto a b y b1 y se igualan a cero,
solución resultando
Para obtenereslos valores b0 y b1 que minimizan la0suma de cuadrados delRegresión
error, selineal simple
directamente entre
a partir1991de y 1992
su media en ocho en mmol/l países como Europeos 1,223 e ⋅Israel
38,8 =para 47,45 evaluar
mg/dl.el efecto de los
Ejemplo 10.7 En el estudio de la relación entre el índice de masa corporal y6el 5
central de la muestra sirven tanto para resumir los resultados observados como para
1 10 0,89 + 1,58 + ...A +partir
1,53 de estos datos, las estimaciones de la pendiente y
x =
variables
realizar inferencias =de r =de-0,276.
x iacerca
10 yi =regresión
Correlación 1
los parámetros
lineal simple10
= 1,223 mmol/l.
poblacionales correspondientes. A
continuaciónlaseconstante
describen delos
la recta de regresión
principales por elde
estimadores método de mínimos
la tendencia cuadrados
central de una son
La media aritmética presenta las siguientes propiedades:
variable. el nivel medio del colesterol HDL s y conforme 0aumenta
,295 el índice de masa corporal utilizando
un modelo de regresiónblineal
1 = r simple.
= −0,276 = -0,023
En este caso, tanto la variable respuesta como la
sx
Cambio de origen (traslación). Si se suma una constante a cada3uno
,50 de los datos
variable explicativa son continuas.
1.2.1 MediaEjemplo 10.1 se obtuvo
aritmética un coeficiente de correlación de Pearson entre ambas
En
de una muestra, la ymedia n =de
Ejemplo 533lacontroles
10.1muestra
se obtuvo del un estudio
resultante esEURAMIC,
coeficiente igual de la media
a lacorrelación
media inicial y laPearson
de desviación
más la entretípica ambas del índice de
variables
masa
La media aritmética, de r =fueron
corporal
denotada -0,276.
por xA,=se partir
26,0
define de
y sestos
como = datos,
3,50la kg/m
suma lasde 2estimaciones de la pendiente y
, y
cada los correspondientes
uno de los valores del
x
si yi = xi de
constante utilizada;colesterol
variables cr, entonces
+HDL fueron
= -0,276. b0 =deAy y= xb1+xde
-1,09
partir s1,09
cy=. estos
Un y =cambio
0,295
datos,
+método
0,023 mmol/l.
de
las origen =Además,
que deenlaelpendiente
estimaciones
⋅26,0 1,69. Ejemplo y10.1 se
la constante
obtuvo
valores muestrales de la
un coeficiente
dividida porrecta regresión
de correlación
el número por
de observaciones de elPearson de mínimos
entre
realizadas. ambas cuadrados
Si variables
denotamos desonr = – 0,276. A
partir
se realiza con frecuencia de
es estos
la constante dedatos,
el centradola recta las
de de estimaciones
la variable,
regresiónque de consiste
por la
elpendiente
método ende y mínimos
la constante
restar a de la recta
cuadrados sonde regresión
La
por n el tamaño el métodoby0de
porconstante
muestral = mínimos
por 1,69
xi elmmol/l
valor es
cuadrados una
observado
sy estimación
son para el
0,295 del
sujeto valor esperado
i-ésimo, i = 1, de...,colesterol
n,
cada valor de la muestra su media. La media b1 de= runa variable= −0,276centrada=será, -0,023 por
s xy 3 ,50
0,295 igual a 0 kg/m2, extrapolación
HDL dada
la media vendría para porun sujeto con bun=índice r de
= −0,276masa corporal = − 0,023
1
tanto, igual a 0. sx 3,50
y carece de sentido biológico. La pendiente b1 = -0,023 estima que, por cada
que
y 1 n x + x + ... + x n
Cambio de escala (unidades).
y x = x icada
Si se multiplica = 1 uno 2de los datos . de una
incremento de 1 kg/mbn20 ien =1 y
= el−índice
b1 x =de1,09 nmasa + 0,023
corporal, ⋅26,0el=nivel1,69.medio de colesterol
muestra por una constante, la media de la b0 muestray - b1resultante
=mmol/l x una = 1,09 +es0,023
igual⋅26,0 a la media
= 1,69.
La constante
HDL disminuye b0 =en1,69 0,023 mmol/l. es En estimación
general, la del valor
pendiente esperado
puede de colesterol
utilizarse para HDL
La mediapara
es la medida
La constante de
b =tendencia
1,69 mmol/lcentral es más
una utilizada
estimación
un sujeto con un índice de masa corporal igual a 0 kg/m , extrapolación que carece
0 y de
del más
valor fácil
esperado
2 de colesterol
inicial por la constante utilizada; si yi = cxi, entonces y = c x .
de sentido
La Corresponde
constante
calcular biológico.
el efectob0 =alasociado
1,69 Lammol/l
pendiente es una
a incrementos b1 =estimación
– 0,023
delos estima
cualquier del valorque,esperado
magnitudpor cada 2 de
c en incremento
variable de 1 kg/
la colesterol
interpretación.
HDL para un sujeto “centro
con un de gravedad”
índice de masa de datos
corporal
m en el índice de masa corporal, el nivel medio de colesterol HDL disminuye en 0,023
2 de
igual la amuestra.
0 kg/m Su
, extrapolación
Cambio simultáneommol/l.
de origen Enuny general,
escala. Silasependiente multiplicapuede cada uno de los datos
utilizarse de
para acalcular 2el efecto asociado a
HDL para
explicativa,
principal limitación es que sujeto
está con influenciada
muy un índice de masa
por los corporal
valores igual
extremos 0 kg/my, en , este
extrapolación
que carece de sentido biológico. La
incrementos de cualquier magnitud c en la variable explicativa, pendiente b 1 = -0,023 estima que, por cada
una muestra por una constante y al resultado se le suma otra constante, la media
queser carece de reflejo
sentidode biológico. La pendiente b = -0,023 estima que, por cada
caso, puede incremento
no un fiel de 1 ŷkg/m (xŷ +=2 c)la−el
en
1,69tendencia
ŷ-índice
(x) = bde
0,023x, 0central
b1 (x de
+masa + c)la1−distribución.
corporal, (b0 + el bnivel
1 x) = medio
cb1 . de colesterol
de la muestra resultante es igual a la media 2 inicial por la primera constante, más la
incremento
Así, de 1 kg/m en el índice de masa corporal, el nivel
c= medio de colesterol
HDLpor ejemplo, enincrementos de una desviación típica 3,50 kg/m enpara
el índice de
2
disminuye 0,023 mmol/l. ŷ En= 1,69 general, la pendiente
- 0,023x, puede utilizarse
2
que se muestra
EjemploAsí,
segunda constante;masa en1.4por
la En ejemplo,
Figura
si yi =corporaleste y10.7.
en incrementos
c1xi + c2,seentonces Esta
los recta
sucesivos
asocian ycon de
= cuna una
regresión
ejemplos desviación
disminución puede
sobre típica c
utilizarse
estimadores = 3,50
para kg/m
muestrales,
media en el colesterol HDL de cb1 = en el
se índice
1x + c2 .
HDL disminuye
3,50(– 0,023) = en 0,023
– 0,081 mmol/l.
mmol/l. Notar Enque, general,
como laconsecuencia
pendiente puede de lac utilizarse
hipótesis para
de linealidad,
calcular el efecto asociado a incrementos de cualquier magnitud en la variable
de
que
estimarutilizarán
o predecir masa
se
losel corporal
muestra
valor
valores en
esperado
del sela asocian
Figura
del
colesterol con
10.7.
colesterol
HDL una
Esta disminución
recta
HDL
obtenidos ende función
en
esta disminución se asume constante a lo largo de todo el rango observado del índice de losmedia
regresión10 del en el
puede
índice
primeros colesterol
utilizarse
de
sujetos HDL
para
del de
calcular el efecto asociado a incrementos de cualquier magnitud c en la variable
masa
Ejemplo 1.5 Para transformar corporal;
explicativa, esto es,del
los valores el colesterol
modelo deHDL regresión
de mmol/l lineal estima
a mg/dl seuna misma reducción de
estudiocb 1 = 3,50(-0,023) = -0,081 mmol/l. Notar que, como consecuencia de masa
laofhipótesis
2
masa corporal. estimar
Por
“European o predecir
ejemplo, para
Study el
onunvalor
índiceesperado
Antioxidants, de masa
0,081 mmol/l en el colesterol HDL entre 25 y 28,5 kg/m del índice del colesterol
corporal
Myocardial de HDL
25
Infarction 2en and
kg/m función
, el Cancerdel
de índice de
corporal que
explicativa,
multiplica por el factor
entrede conversión
28,5 y 32 kg/m ŷde(x38,8.
2
+. c) Así, utilizando
- ŷpara
(x) b0de + bla propiedad
+dec) del b1x) =⋅de cbtodo
modelotheestimade
masa
un
Breast“linealidad,
corporal.
nivel medio
(EURAMIC), esta
Por disminución
ejemplo,
colesterol
un estudio se=un
HDL asume
multicéntrico índice (x
ŷ1constante
de
(25) masa - (b
=casos
1,69 -+
acorporal
0lo largo
y0,023
controles 25 25. kg/m
=1realizado
2
el rango
, el
La recta de regresión estimada del colesterol HDL sobre el índice de masa corporal es
cambio de escala, la media del colesterol ŷ (x + HDL c) - ŷen (x)mg/dl= b0 +sebcalcularía
1(x + c) - (b0 + b1x) = cb1.
entre observado
modelo
1991 y 1992 del
estima en índice
un
ocho nivelde masa
medio
países corporal;
de
Europeos colesterol
e esto
Israel es,
HDL
para el modelo
de ŷ (25)
evaluar de=efecto
regresión
1,69 de-de0,023lineal
⋅25índice
=
1,11 mmol/l. Así,
Por supuesto,
por ejemplo, los valores
incrementos observados
deŷ una = 1,69 del colesterol
desviación
− 0,023x, HDL
típica =el3,50
c difieren kg/m 2 los
en el
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl. 2
Así,
estima
que por
se unaejemplo,
misma
muestra en incrementos
reducción dede una
0,081 desviación
mmol/l típica
enregresión
el c =puede
colesterol 3,50 kg/m
HDL en25
entre el yíndice
1,11
los valores medios
de masammol/l.
predichos Por
corporal selala
por Figura
supuesto,
recta los
asocian 10.7.
de Esta
valores
conregresión.
una recta
La de
observados
disminución varianzadel
media colesterol
residual utilizarse
delHDL
en el colesterol HDL para
difieren
5
estimar o
de
de
que se muestra en la Figura 10.7. Esta recta
predecir el2 valor esperado del colesterol HDL en función del índice de regresión puede utilizarse para
de masa corporal. Por
2
de
28,5masa
ejemplo,kg/m
los1respecto
valores corporal
del
para un
medios se
índice asocian
índice de masa
de con
masa una
corporal disminución
corporal que deentre
25 media
28,5
kg/m 2 y 32
, elen el
kg/m
modelocolesterol
6 . estima HDL
undel de medio
nivel
colesterol HDL cb a la recta
= 3,50(-0,023) =predichos
de regresión
-0,081 por laesrecta
mmol/l. Notardeque, regresión. La varianza residual
como consecuencia de la hipótesis
estimar o predecir
de colesterol HDLeldevalor ŷ(25)esperado
= 1,69 –del colesterol
0,023⋅25 HDLmmol/l.
= 1,11 en función
Por del índice los
supuesto, de valores
cb
La =
recta3,50(-0,023)
observados de regresión
del533 = -0,081
estimada
colesterol aHDLmmol/l.
del Notar
colesterol
difieren de que,
HDLcomo sobre
los valores consecuencia
es a lo medios el índice dede la
masa hipótesis
colesterol
de 1
linealidad, HDL estarespecto
disminución la rectase de regresión
asume constante largo depredichos
todo el rango por la recta de
SSE
masa 1
corporal. Por ejemplo, para un índice 42,63
de masa corporal de 25 kg/m 2
, el
s2 regresión. = La varianza { y i − (residual
1,69 − 0,del 023colesterol
x i )} = HDL=respecto 0,080. a la recta de regresión es
es531
2
=
de 531
linealidad,
corporal esta disminución se asume constante
531 a lo largo de todo el rango
observado del índicei =1
SSE de medio 1masa533 corporal; esto es, el modelo de regresión lineal
42,63
modelo estima 2ŷ (25) - 0,023⋅25 =
s2 = un nivel = {dey i colesterol
− (1,69 − 0HDL ,023xdei )} =
= 1,69
= 0,080.
observado del índice 531 de masa
531 i =1 corporal; esto es, el modelo de regresión
531 HDL entre lineal
estimaque
Notar, por último, unadebido
misma a reducción
la hipótesisdede0,081 mmol/l en de
homogeneidad el colesterol
la varianza, la 25 y 20
1,11 mmol/l. Por supuesto, los valores observados del colesterol HDL difieren de
Notar,
estima poruna2último,
misma que debido de
reducción a la0,081
hipótesis
mmol/l de homogeneidad
en el colesteroldeHDL la2 varianza,
entre 25lay desviación
28,5
Notar, kg/m
por del
último,índiceque de masa
debido acorporal
la hipótesisque entre
de 28,5
homogeneidad y 32 kg/m .
típica
desviación típica residualdel
residual delcolesterol
colesterolHDL HDLss== 0,080 ==0,283 mmol/lseseasumevarianza,
0,283mmol/l de la constantelaalrededor
los valores2 medios predichos por la recta de regresión. La varianza 2 residual del
de
28,5cualquier
kg/m del punto
índice de de
la recta
masade regresión.
corporal que entre 28,5 y 32 kg/m .
La recta de típica
regresión estimada del colesterol HDL= sobre
0,080el=índice0,283de masa se
asume constantedesviación
alrededor
colesterol HDL
residual
derespecto
cualquiera la del
puntocolesterol
rectadedelaregresión
HDL
recta desregresión.
es
mmol/l
La recta de regresión estimada del colesterol HDL sobre el índice de masa
corporal es
asume constante alrededor de cualquier punto de la recta de regresión.
corporal ess2 = SSE = 1 42,63
168 Pastor-Barriuso R. 533
[Figura 531
10.7 aproximadamente
531 i =1
{ y i − (1,69 − 0,023x i )}2 =
aquí] 531
= 0,080.
20
Regresión lineal simple
2,25
1,5
0,5
0,25
20 24 28 32 36
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en
Indice de masa corporal (kg/m²)
i =1si yi =
inicial por la constante utilizada; cxiuna
, entonces y =lac media
x . i =1 de la muestrai =resultante
=1 =1
muestra por constante,
i =1 1 es igual a la media
Pastor-Barriuso R. 169
Cambio simultáneo de origen inicial porSilaseconstante
y escala. multiplica
n utilizada;
cada unosi yi =los
n de cxdatos de y = c x .
i, entonces
ya que ambas componentes están = incorrelacionadas
( yˆ i − y ) 2 + ( y i − yˆ i ) 2 = SSR + SSE,
i =1 i =1
una muestra por una constante y al resultado
• Cambio se le de
simultáneo suma otrayconstante,
origen escala. Si la
semedia
multiplica cada uno de los datos de
n n
= ( yˆ i − y ) 2 + ( y i − yˆ i ) 2 = SSR + SSE,
i =1 i =1
Correlación y regresión lineal simple
ya que ambas
es en el riesgo de desarrollar componentes
un primer infarto están
agudoincorrelacionadas
antioxidantesde miocardio 1.2 en
en el riesgo MEDIDAS DE TENDENCIA
de desarrollar un primer infarto CENTRAL
agudo de miocardio e
ya que ambas componentes están incorrelacionadas
ultos. Los valores obtenidos fueron n 0,89, 1,58, hombres
0,79, 1,29,adultos.
n 1,42, Los0,84,
Las valores
medidas n obtenidos fueron
de tendencian 0,89, 1,58,
central 0,79,acerca
informan 1,29, 1,42, 0,84
de cuál es
( ˆ
y i − y )( y i − ˆ
y i ) = b 1 ( x i − x ) e i = b 1 i i x e − b1 i
x e = 0
1,96 y 1,53 mmol/l. La media de i =1 los niveles del 1,06,colesterol
0,87,i =1,96
1 HDL y 1,53
en una
de mmol/l.
i =1 La mediai =de
determinada
1 los niveles del colesterol HDL en
variable o, dicho de forma equivalente, e
según las ecuaciones de regresión derivadas del método de mínimos cuadrados. Así, la suma
rticipantes es de cuadrados total SST sededescompone
según las ecuaciones estos 10derivadas
regresión participantes
en dos términos
del es independientes:
método
alrededor de qué
de mínimos sesuma
la
valor cuadrados.
agrupande Así,
cuadrados
la observados. Las
los datos
de la regresión SSR, que representa la variabilidad de la variable respuesta explicada por la
1 10 única 0,89variable
suma +de
1,58 +independiente
cuadrados
... + 1,53 total SST delsemodelo
descomponede regresión,
en dos
1central
10 y 0la,89
términos
de suma1,58de cuadrados
+independientes:
muestra sirven
+ ... delresumir
suma
,53 lapara
+ 1tanto error los resultados
x = x iSSE,= que corresponde a la=variabilidad 1,223 mmol/l. residual de lavariable
x = x i = respuesta que queda=sin 1,223 mmol/l.
explicar.
10 i =1 10 10 i =1 10
Conviene recordar
de cuadrados de que la recta SSR,
la regresión de regresión
que representa estimada
realizar por el procedimiento
la inferencias
variabilidad acerca de los de
de la variable mínimospoblacionales c
parámetros
cuadrados minimiza la suma de cuadrados del error, maximizando entonces la capacidad
predictiva o explicada
explicativa pordel modelo de regresión. La Figurase
continuación 10.8 ilustra
describen gráficamente
los y la esta
principales estimadores de la t
mética presenta lasrespuesta
siguientes propiedades: la única
La mediavariable
aritmética independiente
presenta lasdel modelo
siguientes de regresión,
propiedades:
descomposición.
variable.a la variabilidad
origen (traslación).suma sede cuadrados
LaSidescomposición
suma una constante della
de error
• variabilidad
Cambio
a cada SSE, deque
uno de corresponde
de la
origenlosvariable
datos respuesta
(traslación). Si se suele residual
suma representarse
una de la
constante mediante
a cada uno de los datos
la denominada tabla del análisis de la varianza (Tabla 10.2). En primer lugar, esta tabla
stra, la media de lavariable
presenta lasrespuesta
muestra sumas deque
resultante es queda
deasin
cuadrados
igual una explicar.
junto
la media susConviene
con inicial
muestra, 1.2.1 recordar
Media
lacorrespondientes
media
más la de que la
aritmética
grados
la muestra recta de es
regresión
de libertad.
resultante La suma
igual de
a la media inicial más
cuadrados de la regresión contiene únicamente 1 grado de libertad ya que, una vez conocida la
tilizada; si yi = media muestral y , =losx valores
xi + c, entonces + c. Un estimados
cambio utilizada;
constante depor
origen ymedia
la recta
sique
La i=dexiregresión
+aritmética,ŷi =
c, entonces y += bx1(xpor
denotada +i c–. Un
x ), quedan
cambio
se definede
22 origen
como que
la sum
completamente determinados por su pendiente; mientras que, como se vio en el apartado
on frecuencia esanterior, la suma
el centrado de la de cuadrados
variable, que del error
se realiza
consiste entiene
con nvalores
a– 2 grados
frecuencia
restar de libertad.
esmuestrales
el centrado de la A
dividida continuación,
por el número
variable, los
de observaciones
que consiste en restar a
términos de la varianza se obtienen de dividir las sumas de cuadrados por sus grados de libertad.
de la muestra suFinalmente, la razón
media. La media de de
unavarianzas
cada se
variable define
centrada
valor como
de la
será, el cociente
por
muestra n su
el tamaño
media.entre lamedia
varianza
muestral
La ydeporexplicada
unaxivariable
el valor por la
observado
centrada parapor
será, el s
regresión y la varianza residual, que constituye el estadístico del contraste de regresión.
a 0. tanto, igual a 0. la media vendría dada por
(xi, yi)
a constante utilizada; si yi = cxi, entonces y inicial
= c x . por la constanteLa
utilizada; yi medida
media essi la = cxi, entonces y = ccentral
de tendencia x. más utilizada
pendiente; mientras
Tabla que,
10.2 Tabla
Tabla 10.2 Tabla como se viodel
genérica
genérica
enanálisis
del análisis
el apartado anterior,
de laen
de la varianza varianza laensuma de cuadrados del
regresión
regresión lineal simple.* lineal
varianzasimple.*
var(b1). Así, bajo la hipótesis nula H0: β1 = 0, el cociente SSR/σ 2 es el
error tiene n - 2 grados de libertad.
Suma de A continuación, Gradoslos
de términos de la varianza
Razón dese
Suma de
cuadrados Grados de
libertad Varianza Razón de
varianzas
cuadrado de una distribución normal estandarizada,
cuadrados libertadque corresponde por definición a
varianzas
obtienen de dividir las sumas nde cuadrados por sus gradosVarianza
de libertad. Finalmente, la
SSR
una distribución SSR = con
Regresión chi-cuadrado ( yˆ i −1ygrado
) 1 2
de libertad. F = con
SSRparte, basta
Por otra 2 que se
razón de varianzas se define como
i =1
el cociente entre la varianza explicada porsla
cumplan las asunciones subyacentes
n n
al modelo lineal para que la varianza residual s2
SSE
regresión y la varianza
Error ei = que
SSE =residual,
2
( y i constituye
i =1
− yˆ i ) 2
el
n −estadístico
i =1
2 s =del contraste de regresión.
2
n−2
sea un estimador insesgado de σ 2 y el cociente
n
Total ( y i −10.2
SST =[Tabla
i =1
y) 2 aproximadamenten −1 aquí]
2
varianza var(b1). Así, bajo la hipótesis (n − H
nula 2) s: β = 0, el cociente SSR/σ 2 es el
2 0 1
* Coeficiente de determinación R = SSR/SST.
* Coeficiente de determinación R = SSR/SST. 2
σ 2
Para realizar el contraste de regresión, es preciso conocer la distribución de la razón
cuadrado de una distribución normal estandarizada, que corresponde por definición a
de
siga
Paravarianzas
una
realizar bajo
distribuciónla hipótesis
el contraste de nula
chi-cuadrado H 0: βn1es
con
regresión, -=20. Por unde
grados
preciso lado, selatiene
libertad.
conocer que
Combinando
distribución ambos
de la razón de
una distribución chi-cuadrado con 1 grado de libertad. Por otra parte, basta con que se
varianzas bajo la hipótesis nula H0: β1 = 0. Por un lado, se tiene que
resultados,
varianza sebtiene quen bajolalahipótesis
hipótesis n HH
nula : β1 =0,0ella
0: 0β1 =
razón entre las
σ 2varianzas
cumplan var( 1). Así,1 bajo bal12nula b12cociente 2 SSR/ es el s2
SSR
las asunciones subyacentes modelo lineal 2 para n − 1la
(que ) s varianzab12 residual
2 2
= ( ˆ
y i − y ) 2
= ( x i − x ) = x
= ,
explicada σ 2
y residual σ i =1 σ i =1 σ 2
var( b )
cuadrado de
sea un estimadoruna distribución
insesgado denormal σ 2 y elestandarizada,
cociente que corresponde por definición a 1
se distribuye
F como el cociente
bajo la distribución
explicada y residual F1,n-2.de dos chi-cuadrado independientes divididas por sus respectivos
grados de libertad,
se distribuye comoqueelescociente
una distribución F de Fisher con
de dos chi-cuadrado 1 grado de libertad
independientes enpor
divididas el numerador
sus
y n – 2La
grados de libertad en el denominador. El valor
tabla del análisis de la varianza suele ir 2acompañada P del contraste de regresión
del coeficiente de de la hipótesis
H0: β1 = 0 grados SSR SSR / σ χ 2
nularespectivos frente adelalibertad,
hipótesis
F = que alternativa
es
= una ~ 2 H1F:1βde
bilateral
distribución 1 ≠Fisher
0 se calcula entonces
con 1 grado de como la
probabilidad a la derecha
2 del estadístico
s 2
determinación R , que se define como la proporción Fs bajo
2
/ σ la
2
χ
distribución /( n − F2) .
n − 2de la variabilidad
1,n–2 de la variable
libertad en el numerador y n - 2 grados de libertad en el denominador. El valor P del
La tabla del análisis de la varianza suele ir acompañada del coeficiente de determinación R2,
querespuesta
se defineque
sedistribuye
comose explica
como la el por el modelo
proporción
cociente de dos de regresión,
la variabilidad
chi-cuadrado de la variable respuesta que por
se explica por
contraste de regresión de la hipótesis nula H0: β1 = 0independientes divididas
frente a la hipótesis sus
alternativa
el modelo de regresión,
respectivos grados de libertad,n que es una 2 distribución
n
F de Fisher con 1 grado de
bilateral H1: β1 ≠ 0 se calcula entonces
( yˆ i − y )como b12laprobabilidad
( x i − x ) 2 a la derecha
2
del estadístico
2 SSR i =1 i =1 2 sx 2
R =
libertad en el numerador y =n -n2 grados de =libertad n
= b1 2 = rEl. valor P del
en el denominador.
F bajo la distribuciónSST F1,n-2. sy
( yi − y) 2
( yi − y) 2
172 Pastor-Barriuso R.
y,
donde b1 = cii ==1 y(ixnson
comoloslascoeficientes
observaciones - x independientes
)/{( n - 1) =2 }i =n1dependen
s (véase Apartado= c3.4),
i y i ,de
su varianza
valoreses
la variable explicativa que se asumen constantes.
i x Bajo las2únicamente
asunciones de los
linealidad yde
1.2.1 Media aritmética ( x i −
i =1
x ) 2
( x
i =1
i − x ) i =1
la variable explicativa
homogeneidad que se asumen
de la varianza, eln valor constantes.
esperado 2deBajo n
b1 2eslas asunciones
σ2 de linealidad y
, 2y ) =σ
la
2
La media
dondearitmética,
los coeficientes var(
ci = (x
denotada b
por1 ) =
i – x )/{(n
c
se define var(
–i 1)sx }como
dependen
i suma c =
i de cada uno
únicamente .
de los de valores
los de la variable
i =1 i =1 (n − 1) s x2
explicativa
homogeneidadque se de asumen constantes.
la varianza, el
n
valor Bajo las
esperado asunciones
n
de b 1 es den
linealidad y homogeneidad de la
valores muestrales
varianza, el valor dividida por
esperado
E(bdeel número
b es de observaciones realizadas. Si denotamos
1) = 1 c i E ( y i ) = β 0 c i + β 1 c i x i = β1 26
Es decir, b1 es un estimador insesgado i=n1 de β1 que i=n1 será tanto i=n1 más preciso cuanto menor
por n el tamaño muestral y por E(bx1i)el
= valor ( yi ) = β 0
observado
ci E para β 1 ci-ésimo,
c i el+ sujeto i xi = β 1
i = 1, ..., n,
sea la varianza
y, como de la variable
las observaciones respuesta
i =1
yi son alrededor (véase
independientes
i =1
de la recta i =1
Apartadode regresión
3.4), suyvarianza
mayoreses
la media vendría dada por
y, como las observaciones yi son independientes (véase Apartado 3.4), su varianza es
sean
y, comoel tamaño muestral y la
las observaciones yi dispersión
sonn independientes de la variable (véase explicativa.
Apartado Además,
3.4), si el tamaño
su varianza es
n 2
σ
1 = x=c i 1var( y2 i ) = σ
2x + x + ... +2 x
n 2
muestral n es suficientemente x =b1 )
var(
grande,
i1 puede aplicarse
n ci =
. una(generalización
n − 1 ) s 2
.
del teorema
n i =1 i =
n n i =
n1
σ 2 x
var(b1) = c i var( y i ) = σ c i =
2 2 2
.
decir, bdel
Es central 1 es un
límiteestimador
(ver su insesgado
versión i =1más de β
simple1 queen será
el i tanto
Apartado
=1 (más
n preciso
4.3.3)
− 1 ) s 2
x para cuanto menor
demostrar quesea la
Es
varianzadecir,
de b
la es un estimador
variable respuesta insesgado
alrededor dedeβ
La media es la medida de tendencia central más utilizada y de más fácil
1 1 que
la rectaserá de tanto más
regresión preciso
y mayorescuantoseanmenor
el tamaño
b1 se distribuye
muestral de formadeaproximadamente
y la dispersión la variable explicativa. normal con Además,la media si yelvarianza
tamaño descritas
muestral n es
Es
sea decir,
la
suficientemente
interpretación. b
varianza es un
de estimador
la variable
grande, al
Corresponde
1 puede
“centroinsesgado
respuesta
aplicarse de β
alrededorque
una generalización
de gravedad” 1 será
de la
de los datosdel tanto
recta más
de preciso
regresión
de teorema
la muestra. cuanto
Su delmenor
y
centralmayores límite (ver
su anteriormente,
versión más simple en el Apartado 4.3.3) para demostrar que b1 se distribuye de forma
sea
sean
principal laelvarianza
tamaño
limitación
aproximadamente es de
quelaestá
normalvariable
muestral muy
con respuesta
y laladispersión
influenciada
media y varianza alrededor
de por
la variable
los de laexplicativa.
valores
descritas recta de regresión
extremos
anteriormente, Además, y mayores
y, en estesi el tamaño
variable respuesta,
desviación
distribucióntípica siempre
resultante de bs,1que
residual seráelconlleva
que tamaño un
entonces muestral
error
más sea suficientemente
adicional
dispersa que de muestreo.
la normal, grande.
La
siguiendo
27
A partir deresultante
distribución
aproximadamente la distribución muestral
de b1 será
una distribuciónentonces b1más
t dedeStudent
, el intervalo
dispersa de
- 2confianza
con los nque la normal,
grados 100(1 - α)%
dealsiguiendo
libertad
Pastor-Barriuso R. 173
aproximadamente
para auna distribución
la pendiente subyacente
correspondientes t la
β1 dedela
la estimación de Student
recta con los nviene
de regresión
varianza residual, - 2 grados de libertad
dado por
A partir de la distribución muestral b1 ± t nde b , el intervalo. de confianza al 100(1 - α)%
− 2 ,1−α1 / 2
variable respuesta, siempre que el tamaño muestral s x n sea
− 1 suficientemente grande.
para la pendiente subyacente β1 de la recta de regresión viene dado por
Correlación y regresión lineal simple
DeAigual
partir de la el
forma, distribución muestraldedelabhipótesis
contraste bilateral 1, el intervalo de confianza
de ausencia - α)%
al 100(1 lineal
de asociación
s
para
entrelalaspendiente
variablessubyacente
explicativa b1 ±
de la trecta
βy1 respuesta αde
n − 2 ,1−H regresión
/ 2: β .realiza
viene dado por el estadístico
A partir de la distribución muestral de b1, el intervalo 0 s x n0−se
1 = 1de mediante
confianza al 100(1 – α)% para la
pendiente subyacente β1 de la recta de regresión viene dado por
b s
b1 ± ttde
De igual forma, el contraste bilateral n=− 2la
,1−αhipótesis
/2 1 .
, de ausencia de asociación lineal
ss x n − 1
Deentre
iguallas variables
forma, explicativa
el contraste y respuesta
bilateral sHx 0:nβ−
de la hipótesis11=de
0 se realiza de
ausencia mediante el estadístico
asociación lineal entre las
De igual forma,
variables explicativa
1.2 el contraste bilateral
y respuesta H0: βun de la
1 =primer
hipótesis
0 se realiza de ausencia
mediante estadísticoen lineal
de asociación
el miocardio
antioxidantes en elMEDIDAS
riesgo DE TENDENCIA
de desarrollar CENTRAL
infarto agudo de
s en el riesgo de desarrollar
quePara un primer
se distribuye
completar la infarto
aproximadamente
exposición, agudosedepresentan comomiocardio una b el t deen Studentde
intervalo con n - 2 grados
confianza de libertad
y el test de
entre las variables explicativa y respuesta t = H0: 1β 1 = ,0 se realiza mediante el estadístico
hombres adultos. Los valores obtenidos fueron 0,89, s
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 1,58, 0,79, 1,29, 1,42, 0,84,
ultos. Los valores obtenidos
si laPara
hipótesisfueron nula 0,89, 1,58,de0,79,
esexposición,
cierta. Este 1,29,es
test de1,42, 0,84, aunque
equivalente
hipótesis para
completar la constante
la la recta
se presentan regresión,
s x nel− intervalo1 al contraste deestas de regresión
inferencias
confianza lineal
suelen
y el test de tener
1,06, 0,87, 1,96 y 1,53 mmol/l.
de una determinada variable o, La media de los niveles
b del colesterol HDL en
,96 y 1,53 mmol/l. La
simple
queescasa
se media
distribuye de los
presentado niveles
en
aproximadamenteel del
apartado colesterol
anterior.
como t =dicho
HDL
una De t
1de forma equivalente, estos estimadores indican
en hecho,
de , el estadístico
Student con n –en 2Fla del
grados contraste
de de
libertad si la
importancia porque
hipótesis para la constante de la recta de regresión, la relación en x = 0
s carece aunquede sentido estas inferencias mayoría de las
suelen tener
estos 10
queparticipantes
hipótesis senuladistribuye
es es
cierta. aproximadamente
Este test es como
equivalente una
al t de
contraste Student de con
regresión n - 2 grados
lineal de
simple libertad
presentado
ticipantes es en el Para alrededor
completarde la qué valor se se
exposición, agrupan
presentan s xlosntdatosel− intervalo
1este observados. de confianza Las medidas y el test dede tendencia
regresión
apartado
aplicaciones. es igual
anterior.
El al
estimador cuadrado
De hecho, del
el estadístico
estadístico
mínimo-cuadrático
escasa importancia porque la relación en x = 0 carece de sentido0 en la mayoría F de
del
de contraste
la contraste,
constante de regresión
b = y - bes
1 xigual
es al
una cuadrado
de las
delsi la hipótesis
estadístico t nula
de este es cierta.
contraste, Este test es equivalente al contraste de regresión lineal
Para central
hipótesis para1lade
completar 10 la muestra sirven tanto para resumir los resultados observados como para
constante 0,89de+la
la exposición, 1,58 se+presentan
recta ...de+ 1regresión,
,53 el intervalo aunquedeestas inferencias
confianza y el testsuelen
de tener
1 10 que se
0combinación
aplicaciones. x
,89 + 1,58 + ...10 =
distribuye
lineal 53xde
El+ 1estimador i =dos estimadores
,aproximadamente mínimo-cuadrático
SSR como 2 =
una
independientes
b ( n t
de−
1,223
de 1la
) s 2 mmol/l.
Student
constantey y con
b b n
que =- 2 y grados
tienden- b xa de
es libertad
una
distribuirse
x = x i = simple presentado realizar i =1 en el = 1,223
apartado F =10
mmol/l.
anterior. De
1
=parámetros hecho, x
el=estadístico
2
tsentido
,
1 0 1
F del contraste de A
10 i =1 hipótesis para lainferencias
escasa importancia
10 porque de
constante laacerca
relación
la recta de2los
s en
de x = 0
regresión, scarece
2 poblacionales
aunquede en correspondientes.
estas inferencias la mayoría de las
suelen tener
si laforma
hipótesis
combinación
de normal nulaconforme
lineal es
decierta. Este testelestamaño
dos estimadores
aumenta equivalente
independientes muestral, al contraste
ydey lo b1 cual
que detienden
seregresión
deduce lineal
a distribuirse
que la
de regresión es igual al cuadrado del estadístico t de este contraste,
tal
La mediaescasa
forma
aplicaciones.
aritmética
que
continuación
importancia ambos
El
presenta estimador procedimientos
se describen
porque losfacilitan
mínimo-cuadrático
la relación
las siguientes en x = 0siempre
principales
propiedades: de
careceestimadores
la constantelossentido
de mismos =lavalores
bde0 en b1 xP es
ytendencia
la -mayoría (lacentral
distribución
una
de las de una
F simple
de
de Fisher
tal presentado
con
forma
distribución 1
quegrado
muestral en
ambos deel apartado
libertad
procedimientos
de b0 aumenta en
también seráanterior.
el numerador De
facilitan hecho,
aproximadamente y n –
siempre el
2 estadístico
gradoslos de
mismos F
libertad del contraste
valoresen elP de
denominador
(la
ética presenta las siguientes
de forma normal propiedades: conforme el tamaño muestral, de normal lo cual con se deducemedia que la
• Cambio
es, aplicaciones.
por definición,
combinación variable. El elestimador
lineal
de origen (traslación).
cuadrado de la distribución
mínimo-cuadrático
de dosSiestimadores
se suma SSR b12 (ntde
unaindependientes
constante
de
− 1la )Student
2
saxconstante
cada y 2unoyconb1 bden0 –= 2tienden
que grados
losy datos- b1 xade es libertad).
una
distribuirse
regresión
distribución es igual
F de al
Fishercuadradocon 1 Fdel= estadístico
grado de =libertad t de en esteel = t
contraste,
numerador , y n - 2 grados de
origen (traslación).Para Si secompletar
suma una constante
la de b)0a=también
exposición, cada uno de los el datos
distribución muestral E(sey presentan
) -sserá
E(b1aproximadamente intervalo de normal
confianza conymedia el test de hipótesis
2 2
E(b 0 ) x = sβ 0 + β1 x - β1 x = β0
de para laforma
unacombinación
demuestra, 1.2.1
constante normal Media
de
la media
lineal dearitmética
laconforme
recta lademuestra
dos regresión,
estimadores
aumenta aunque
resultante
el tamaño estas
es
independientes igualinferencias
muestral, a laymedia dey blosuelen inicial
que
1 cual tener
tienden
se más escasa
deduce importancia
aladistribuirse
que la
tra, la media deporque libertad
la muestra en el denominador
resultante es, por definición, el cuadrado de la distribución t de Student
la relación en xes=igual 0 carece a la mediadeSSR sentido inicial b1en
2
(nmás la )la
− 1mayoría
sx 2
de las aplicaciones. El estimador
de tal forma que ambos ) = E(
E(bprocedimientos F =yb ) =- E(b 1) x = β0siempre
=facilitan + β1 = x t-2los ,β1 de = β0 valores P (la
xmismos
mínimo-cuadrático
constante
de utilizada;
ydistribución
varianza
forma Lanormal
media si yde
muestral =laxide + 0bc,0 entonces
constante
iaritmética,
conforme denotada
también
aumenta 0 sserá
2y por
el –= bx1 x +,esse c
aproximadamente
tamaño s 2.una
Un
define
muestral, combinación
cambio como lo la
de normal origen
cualsumalineal de
condeduce
se decada
que
media dosqueestimadores
uno lade los
+ con
ilizada; si yi = xindependientes
c , n -
entonces 2 grados y de x libertad).
c
y b1 que tienden a distribuirse de forma normal conforme aumenta el tamaño
= + . Un cambio de origen que
i
distribución
muestral, de lo F deseFisher
cual deduce conque 1 grado de libertad
la distribución en el numerador
muestral de b0normal también y n -será 2 grados de
aproximadamente
y varianza
se realiza valores
con frecuencia
distribución muestrales
muestral es de b)0 dividida
el centradotambién depor elaproximadamente
la variable,
será número que deconsiste
observaciones en2restar conrealizadas.
amedia Si denotamos
de
normal talconformamedia que ambos E(b = E(
procedimientos
0 y ) - E(b ) x
facilitan
1 = β +
2 0siempre β x
21 1 los - β x x=
1 mismos β
0 valores P (la
n frecuencia es el centrado de la variable, var(b0que ) = es, consiste
var( + en
y )definición,
var(b restar
1) xel a=σ + . 28
libertad en el denominador por cuadrado n de ( n la− 1distribución
) s 2 t de Student
por n el tamaño
cada valor de la muestra su media. La media de muestral y por x el valor
i una variable observado centrada 2será,para elx por i-ésimo, i = 1, ..., n,
sujeto
e la muestra su media. distribución
La media
y varianza
F de unaE(b
de Fisher 0) = 1
con
variable E(grado
y ) − E(b
centrada
0) = var( y ) + var(b1) x = σ
de será, 1) x =
libertad por β 0 + el
2 en x1− β 1 x x= βy 0n - 2 grados de
β21numerador
con n - 2 grados devar(b libertad). + (n − 1) s 2 .
tanto, igual a 0.
y varianza la media vendría dada 2por 2 n x
a 0.
Reemplazando
libertad el parámetroes,
en el denominador σ por pordefinición,
su estimación s , el intervalo
el cuadrado de confianza
de la distribución t deal Student
100(1 -
y varianza
• Cambio de escala (unidades). Si se multiplica cada 1 datos de x una
2
yy de ICs
la pendiente s x n − 1 3,50 532
Los al 95% para la constante y la pendiente de la recta de regresión
y de la pendiente s 0,283
poblacional son
Los ICs al b95% SE(b
entonces 1) = = de la==recta
0,0035.
± t para laSE(b
1
constante
531;0,975 1
yn la
) =s -0,023 x− 1pendiente
3,50 532
± 1,96⋅0,0035 de regresión
(-0,030; -0,016).
s 0,283
poblacional
Los son
ICs al 95% entonces
b0para la constante
± tSE(b 1) = y la pendiente
= de la= recta
0,0035.de regresión poblacional son
531;0,975SE(b0) = 1,69 ± 1,96⋅0,092 = (1,51; 1,87)
Del
Los intervalo
ICs al 95%
entonces para la pendiente
para s xpuede
la constante yn la
− 1pendiente
3,50 532
concluirse con
de la una
rectaconfianza del 95% que
de regresión
ypoblacional
el nivel medio t531;0,975 SE(b
b0 ±colesterol 0 ) = 1,69 ± 1,96⋅0,092 = (1,51; 1,87)
sonde entonces HDL en la población de referencia del estudio
Los ICs al 95% para la constante y la pendiente de la recta de regresión
y significativa ya que el contraste de la hipótesis nula H0: β1 = 0 mediante el
EURAMIC
y disminuye entre)0,016 y 0,030 mmol/l por cada incremento de 1
poblacionalb1son ± bt531;0,975
0entonces SE(b
± t531;0,975 1 = −0)0,023
SE(b = 1,69 ± 1,96⋅0,0035
± 1,96⋅0,092==(−(1,51; 0,030; − 0,016).
1,87)
estadístico
2
kg/mintervalo
Del en el índice para la dependiente
masa corporal. puedeEn general, con
concluirse el intervalo
una confianza de confianza del 95% paraqueelel nivel
Del intervalo b1 ±para t531;0,975
la SE(b1) = puede
pendiente ± 1,96⋅0,0035
-0,023concluirse con = (-0,030;
una confianza -0,016).
del 95% que
y
medio de colesterol b 0 ± t SE(b
HDL en la población
531;0,975 0 ) = 1,69 ± 1,96⋅0,092 = (1,51;
de referencia del estudio EURAMIC disminuye 1,87)
efecto0,016
entre y 0,030cβ
subyacente 1 asociado
mmol/l port =cada bincremento
a cualquier1 −incremento
0,023
de 1=kg/m c en 2 la variable explicativa
en el índice de masa corporal.
el nivel medio de colesterol HDL en la =
población -6,63
Del intervalo
yEn general,b1el±intervalo
para la pendiente
t531;0,975SE(b de confianza puede
SE (bpara concluirse
) el0,0035 efecto subyacente del
de
con referencia
una confianza cβ1 estudio
del 95% que
asociado a cualquier
1) = -0,0231± 1,96⋅0,0035 = (-0,030; -0,016).
incremento c en la variable
se obtiene multiplicando losexplicativa
límites del se obtienepara
intervalo β1 por dicho
multiplicando losincremento,
límites del intervalo
EURAMIC
el nivel
para β1 por medio disminuye
dicho de incremento,
colesterol entre HDL 0,016en y 0,030
la población mmol/lde porreferencia
cada incremento del estudio de 1
resulta
Del intervalo en un
b1 ±para valor
t531;0,975 P bilateral
SE(b1) = puede
la pendiente 2P(t
-0,023531 ≤ -6,63)
± 1,96⋅0,0035
concluirse ≈ 2Φ(-6,63)
con = una (-0,030; <
confianza 0,001.
-0,016). Notar
del 95% que que este
kg/m
EURAMIC
2
en el índice
disminuye cb ±
de1 masa t n − 2,1corporal.
entre −0,016
α /2 SE(cb En )
y 0,030
1 = c{b
general, ±
mmol/l
1 t nel intervalo
por
− 2,1 SE(b )}.
1de confianza
− α /2cada incremento depara
1 el
test arroja
el1.2
nivel medioelde mismo
colesterol valorHDL P queenellacontraste población dede regresión
referencia deldel ejemplo
estudio anterior ya
antioxidantes en elDel Así, por deejemplo,
2MEDIDAS
intervalo
riesgo paraDE
desarrollar con un primer
TENDENCIA
la pendiente
un nivel de puedeconfianza
infarto CENTRAL
concluirse
agudo delde95%,
con los confianza
una
miocardio incrementos
envariable delde 95%unaque desviación
efecto
kg/m
Así, por subyacente
en el índice
ejemplo, c β
de
con asociado
masa corporal.a cualquier
En incremento
general,
2 un nivel de confianza del 95%, los incrementos de una
1 el intervaloc en lade confianza explicativa
para el media
típica c = 3,50yakg/m
significativa que elencontraste
el índice dela
de masa 2 corporal
hipótesis nulaseHasocian 0 : β1 = 0 con una disminución
mediante el
EURAMIC disminuye
≤el-6,63) entre
= P( HDL t0,016
2
531 ≥
yentre
0,030 mmol/l
P(F 1,531 por cada yincremento de 1
hombres adultos. Los el que 2P(t
poblacional
nivel
Lasvalores medio
medidas en
531
de
obtenidos
de colesterolfueronHDL
colesterol
tendencia 0,89,
central de6,63
en
2 1,58,
)= 3,50⋅0,016
la población
informan 0,79, 1,29,
acerca de≥1,42,
43,93).
=de 0,057
referencia
cuál0,84, es 3,50∙0,030
delvalor
el estudiomás= 0,105 mmol/l.
representativo
se obtiene
efecto
desviación
Por multiplicando
subyacente
típica c c β
= 3,50 los
asociado kg/m límites a en del
cualquier
el intervalo
índice incremento
de
supuesto, esta disminución es estadísticamente significativa ya que el contraste de la
estadístico 1 masa para β c por dicho
1 en la variable
corporal se incremento,
asocian explicativa
con una
kg/m2 en el índice de masa corporal. En general, el intervalo de confianza para el
EURAMIC
1,06, 0,87, 1,96 y 1,53hipótesismmol/l. disminuye
nula La H0media 0entre
: β1 =variable los0,016
demediante niveles y 0,030
el estadístico mmol/l
deldecolesterol por
HDL cada en incremento de 1
sedeobtiene
una determinada
disminución multiplicando
media poblacional
cb1 ± tn-2,1- los o,en
límites dicho
el del forma
intervalo
colesterol HDLequivalente,
para deβ por
1entre
estos
dicho estimadores
3,50⋅0,016 = 0,057indican
incremento,
10.3.4 Bandas de confianza y α/2SE(cb
predicción ) = c{b
para ±
la t
recta de SE(b )}.
regresión
2 subyacente cβ1 asociado abcualquier
1 − 0,incremento
023
1 n-2,1- α /2 1
efecto
kg/m c en la variable explicativa
estos 10 participantes es en el de
alrededor índicequé de valor masa setcorporal.
=
agrupan
1
En
los general,
= datos =el−intervalo
observados. 6,63 Lasdemedidas confianza de para el
tendencia
y 3,50⋅0,030 = 0,105 mmol/l. SE (supuesto,
Por b1 ) 0,0035 esta disminución es estadísticamente
Además de ejemplo,
realizar inferencias
cb1 un ± tn-2,1- sobre SE(cb los1parámetros
) = c{bdel β0 yαlos
tn-2,1- β1,incrementos
es a)}. menudodeinteresante
Así,
efecto
por
se obtiene multiplicando
subyacente
con
c β nivel
asociado
α/2de
los límites a
confianza
del intervalo
cualquier
1 ±95%,
incremento para β/2c1SE(b
porla1dicho
en variable
una
incremento,
explicativa
resulta
1central
10 en deun la valor
muestra P 1 bilateral
0,89 + 1,58 + ... + 1,53sirven 2P(t
tanto para≤ – 6,63)
resumir ≈ 2F(– 6,63)
los resultados < 0,001.
observados Notar que este
como paratest
531
xcalcular
= arroja xelen =un valor
intervalos
mismo de
valor confianza
P que elpara 2 =la
contraste 1,223
propia mmol/l.
de recta
regresión de regresión
del ejemplo β + β x.
anterior Más 30
resulta
desviación
Así, i
por ejemplo,
10obtiene típica ccon P
=10 bilateral
3,50
un2 los 2P(t
kg/mdeenconfianza
nivel 531 ≤ -6,63)
el índicedel ≈ 2Φ(-6,63)
de masa
95%, corporal
los < 0,001.
se asocian
incrementos0 Notar
1
de unacon una 2P(t531
ya
que que
este
se i =1
≤ realizar multiplicando
– 6,63) =inferencias
P(t 531 ≥ 6,63cb ±
1acercat = P(F
)n-2,1- límites
deα/2losSE(cb del )
parámetrosintervalo
= c{b ± tpara
1 poblacionales β por
SE(b dicho
)}. incremento,
1correspondientes. A
1,531 ≥ 43,93).
2 1 n-2,1-α/2 1
concretamente,
test arroja eltípica
disminución
desviación dado
mismo
media un determinado
3,50 P
valor
c =poblacional kg/mqueen 2 el
enelvalor
contraste x
elcolesterol
índice de
0 de la variable
de regresión
HDL
masa de explicativa,
del ejemplo
entre
corporal 3,50⋅0,016
se asocian se pretende
anterior
=con ya
0,057
una
continuación se describen
cb1 ± untn-2,1- los principales
SE(cb estimadores
= c{bdel tn-2,1-αde de la tendencia de una de una
central
La media aritmética
10.3.4 Así,
presenta porlas
Bandas ejemplo,
siguientes
de con
confianza ynivel
propiedades: α/2de
predicción 1) para
confianza 1 ±recta
la 95%, /2SE(b
los 1)}.
incrementos
regresión
obtener un intervalo de confianza 2 para 2el valor esperado β + β x de la variable
yque 2P(t531 ≤media
3,50⋅0,030
disminución =-6,63) P( t 531 ≥Por
=mmol/l.
0,105poblacional 6,63
ensupuesto, = P(F1,531
el) colesterol estaHDL≥disminución
43,93).de0 entre 1 es estadísticamente
03,50⋅0,016 = 0,057
Además variable.
de realizar
desviación típicainferencias
csuma
= 3,50 sobre
kg/m 2
los
en parámetros
el aíndice de βmasa y β , es
corporal a menudo
se asocianinteresante
con unacalcular
Cambio de origen (traslación).
Así, porEl Si
ejemplo, se conpuntual una constante
un niveldedeeste confianza cada uno
del 95%, 0 de los datos
losŷ incrementos
1
de yuna
respuesta.
intervalos de estimador
confianza para la propia
y 3,50⋅0,030 = 0,105 mmol/l. Por supuesto, esta disminución recta valor
de esperado
regresión β es + β x.= b
Más + b x =
concretamente,
es estadísticamente
0 1 0 + b1(xdado
0- un
0 01
30
determinado
de una muestra, disminución
1.2.1 de
la desviación
media valor
Media x0aritmética
media
latípica
muestradec la variable
=poblacional
resultante kg/mexplicativa,
en
2es elelpara
enigual a lase
colesterol pretende
HDL de obtener
entre unasocian
intervalo
3,50⋅0,016 deuna
= 0,057 confianza
10.3.4 Bandas de confianza 3,50y predicción índice lamedia
recta
de masa inicial
decorporal más la
regresión se con
parax el valor
) que, esperadounβ0razonamiento
siguiendo + β1x0 de la análogo variable al respuesta.
del apartado El estimador
anterior, presentapuntual una de este
30 valor
esperado
constante utilizada; y La
si yes =
3,50⋅0,030ŷ
media x =+ bc ,
= + b
aritmética,
entonces
0,105 x =denotada
y
mmol/l. += bx (x
Por +porc –
. x
Un
supuesto,), que,
se
cambio
colesterolβHDL siguiendo
define
esta de como
origen
disminución un
la razonamiento
suma
que es de cada = 0,057 al del
uno
estadísticamente análogo
de los
dei realizar 0 y β1de
Además disminución 0i 0 inferencias
media 1 poblacional
0 sobre1 los en0 el parámetros , esentre a menudo
3,50⋅0,016 interesante
distribución
apartado anterior, aproximadamente
presenta unanormal en muestras
distribución suficientemente grandes,
aproximadamente normal con en media
muestras
se realiza concalcular
frecuenciavalores
suficientemente muestrales
grandes,
es el centrado condividida
de media
la para por
variable, el número
que consiste de observaciones
en realizadas.
restar a β es+ estadísticamente Si denotamos
30
intervalos
y 3,50⋅0,030 =de0,105
confianza mmol/l. Por la supuesto,
propia rectaesta dedisminución
regresión 0 β1x. Más
E( ŷ 0 ) = E( y ) + E(b1 )(x0 − x ) = β 0 + β 1 x + β 1 (x0 − x ) = β 0 + β 1 x0
por nsuelmedia.
cada valor deconcretamente,
la muestra tamañoLa muestral
media de y poruna xvariable
i el valorcentrada observado será, para porel sujeto i-ésimo, i = 1, ..., n,
dado un determinado valor x0 de la variable explicativa, se pretende 30
la media vendría dada por
tanto, igual a 0. y varianza Pastor-Barriuso R. 175
obtener un intervalo de confianza para el valor esperado β0 + β1x0 de la variable
Cambio de escala (unidades). Si se multiplica cada uno
1 de
n los datos de una
x + x + ... + x
respuesta. El estimador puntual de este valor x i = 1 2 es2 ŷ2 0 1= b0n(+x.0b−
esperado 1x0x )= y + b1(x0 -
2
ˆ x =
explicativa. Esta banda de1.2
confianza
MEDIDASestá DE
delimitada por las ramas
TENDENCIA de una hipérbola y su
CENTRAL
es sensiblemente
explicativa, sino también más precisopara quelaentre
predecir media vendría
aquellos con dada por y0 de
un índice de un masa corporal
de la variable respuesta 1,69para − 0,023⋅32
un determinado ±la1,96⋅0,024
respuesta
sujeto =
individual
con (0,90; 1,00).
x = xEjemplo viene dado
nuevo
1.4 En poreste
sujeto
y =y βen +los sucesivos ejempl
conforme x0 se aleja de la media x = 26,0 kg/m2 del índice0 de masa corporal.0 Así,0
El valor
área 2 gris oscuro Ejemplo 1.4 En este y en loslasucesivos deejemplos sobre estimadores muestrales
dadode su 32 kg/men x,0. Según la estructura de la Figura del 10.9modelo representa
de regresión banda lineal, confianza
el valor al 95%
subyacente
β1xpor
La 0recta ε0, de
+ ejemplo, cuyoregresión
estimador puede insesgado utilizarsedenonuevo sólo para ŷ 0 =colesterol0 + butilizarán
bestimar 1x0la yaxmedia
n
valores1 delx 2colesterol
1los poblacional x + + ...la+ x n HDL obten
de
el IC al 95% para el es valor medio del HDL que
= entre xlos
i = sujetos .
variable respuesta
para todarespuestaentre los
la recta de sujetos utilizarán
regresión con un
del los valores
determinado
colesterol del colesterol
valor x de HDL
la variableobtenidos
n en
explicativa, los
32 10
n primeros
sino sujetos
de la variable para
[Figura un determinado
10.9 aproximadamente sujetoHDL con aquí] xsobre
= xestudio
0 el índice
0 viene “Europeandado depor
i =1 masa = β0 +on Antioxidants, Myo
y0Study
también para predecir la respuesta individual y0 de 2 un nuevo sujeto dado su valor x0. Según la
con un índice de E(ymasa - ŷcorporal +deβ
= β0lineal, 25 kg/m E(ε0,)Study - β0 - on β1xAntioxidants, E(laε0variable
estructuracorporal,
del modelo de 0 regresión0 )estudio 1x0el+valor
“European subyacente 0 =de ) = 0.Myocardial respuesta Infarction
para un and Cancer o
β x + ε , cuyo que se obtiene
estimador insesgado de calcular es de
La estos
nuevo
media intervalos
ŷ
es la= b
medida + enb1sucesivos
xde ya que
tendencia valores dentro
central más
determinado sujeto con x = x0 viene dado por y0 = β0 + β1x0 + εthe
1 0 0 0 0 , cuyo
0 Breast“ estimador (EURAMIC), insesgado unutilizada
estudio ymulticént
es de más
La recta de regresión puede utilizarse no sólo para estimar la0 media poblacional de la
de nuevodel
Asimismo,
b x ya1,69
b0 + observado
ŷ0 =rango quedel
como 1el0 valor estimado
-the
0,023⋅25
Breast“
índice de±por 1,96⋅0,013
(EURAMIC),
masa
ŷinterpretación. corporal.
la recta
= (1,09;
de
un Los
regresión
Corresponde
estudio 1,14),multicéntrico
límites en
al de
x es
“centro esta banda
independiente
de
dede casos y controles realiza
gravedad” de losEuropeos
datos deelaI
0 entre 1991 y 1992 en ocho países
0
variable respuesta entre E(ylos0 − sujetos
ŷ 0 ) = β 0con + βun + E(ε 0 ) − β 0 −valor
1 x0determinado β 1 x0 x=0 E( deεla 0 ) variable
= 0.
confianza tienen forma entre 1991 y 1992
de hipérbola en ocho países Europeos e Israel para evaluar el efecto de lo
es sensiblemente más preciso entre yaquellos
queprincipal sulimitación
amplitud con un aumenta
índice gradualmente
de masainfluenciada
corporal
de la nueva observación
Asimismo, como el valor estimado y 0 , se sigueŷ0 por la recta de regresión en x0 es independiente por
que es que está muy de lalos valores extre
explicativa, sino también para predecir la respuesta individual y 0 de un nuevo sujeto
nueva observación 2 y0el, sealeja
sigue
Asimismo,
de conforme
32 kg/m como , x0 sevalor deque
estimadola media ŷ 0 xpor= la
caso, puede 26,0 recta kg/m de 2regresión
no ser del un fiel índice endex0masa
reflejo
es independiente
de lacorporal.
tendenciaAsí, central de la distribuc
2 ) subyacente
2
dado su valor x0. Según la estructura del modelo de regresión 1lineal, ( x 0 el − xvalor
por ejemplo, var(yel0 −ICŷal 0y ),95%= var( ε 0) +
para elvar(valorŷ 0medio
) = σ del 1 +colesterol + HDL ;
2 entre los sujetos 32
de la nueva observación 0 se sigue que n ( n − 1 ) s
x
de la variable respuesta para un determinado sujeto Ejemplo con1.4 x =Enx0este viene y en dado lospor y0 = β0 ejemplos
sucesivos + sobre estimado
con un índice de masa corporal de 25 kg/m2,
2 1 la (recta x 0 − xde) 2regresión
β1xes
0 + decir,
ε 0 , cuyola predicción
var(y
estimador 0 - deŷ una
)
insesgado
0 = nueva
var( ε
es 0 ) observación
de + var(
nuevo utilizarán
ŷ 0 0)ŷ= aσ
= partir
b
los
0 1+ + bde
valores
1 0x + ya del
quecolesterol 2
; HDL obtenidos en los 10 pri
n (n − 1) s x
176 Pastor-Barriuso R. 1,69 - 0,023⋅25 ± 1,96⋅0,013 = (1,09; 1,14),
estimada está sujeta a dos fuentes de error:estudio la varianza “European inherente Study de on cada respuesta Myocardial Infarction
Antioxidants,
E(y0 - ŷ 0 ) = β0 + β1x0 + E(ε0) - β0 - β1x0 = E(ε0) = 0.
es decir,
individual larespecto
predicción
es sensiblemente a lademás una
recta nueva
preciso
de que
regresiónobservación
entre a partir
aquellos
subyacente con eldeerror
unla índice
recta
en lade de regresión
masa corporal
the Breast“ y(EURAMIC), unestimación
estudio de
multicéntrico de casos y co
explicativa, sino también para predecir la respuesta individual y0 de un nuevo sujeto
Regresión lineal simple
dado su valor x0. Según la estructura del modelo de regresión lineal, el valor subyacente
1,5
1 ( x0 − x ) 2
var(y0 - ŷ 0 ) = var(ε0) + var( ŷ 0 ) = σ 1 + +
2
;
n (n − 1) s x2
0,5
0,25
es decir, la predicción de una nueva observación a partir de la recta de regresión
20 24 28 32 36
estimada está sujeta a dos fuentes de error: la varianza inherente de cada respuesta
Indice de masa corporal (kg/m²)
individual respecto a la recta de regresión subyacente y el error en la estimación deFigura 10.9
Figura 10.9 Bandas de confianza (área en gris oscuro) y predicción (área en gris claro) al 95% para la recta
de regresión del colesterol
dicha recta. Además,HDLsi elsobre el índice
término de masa
de error corporal
ε0 se en el grupo
distribuye control
de forma del estudio
normal EURAMIC.
(asunción
de normalidad),
es decir, la diferencia
la predicción de una nueva ŷ 0 también seguirá
y0 - observación a partir una
de ladistribución normal,estimada
recta de regresión de tal está
sujeta a dos fuentes de error: la varianza inherente de cada respuesta individual respecto a la
recta de regresión
forma subyacente
que el intervalo y el error al
de predicción en100(1
la estimación
- α)% parade una
dicha recta.observación
nueva Además, si el término
de error ε0 se distribuye de forma normal (asunción de normalidad), la diferencia y0 – ŷ0 también
seguirá una distribución
individual y0 es normal, de tal forma que el intervalo de predicción al 100(1 – α)% para
una nueva observación individual y0 es
2
1 ( x0 − x )
b0 + b1 x 0 ± t n − 2,1−α / 2 s 1 + + .
n (n − 1) s x2
La banda de predicción viene entonces determinada por estos intervalos de predicción en los
33
distintos valores observados x0 de la variable explicativa. En general, la banda de predicción
será substancialmente más amplia que la banda de confianza, particularmente cuando el tamaño
muestral es grande, lo que refleja el hecho de que existe mucha más incertidumbre en la
predicción de la respuesta individual de un único sujeto que en la estimación del valor medio de
la variable respuesta para todos los sujetos con un mismo valor de la variable explicativa.
Cabe destacar, por último, que los intervalos de confianza para el valor esperado de la
variable respuesta se basan únicamente en las asunciones de linealidad y homogeneidad de la
varianza, mientras que los intervalos de predicción para una nueva observación requieren
además de la hipótesis de normalidad, siendo estos últimos incorrectos si la distribución
subyacente de la variable respuesta no es normal.
Ejemplo 10.11 A partir del modelo de regresión lineal del colesterol HDL sobre el
índice de masa corporal se tiene que el intervalo de predicción al 95% para el nivel de
colesterol HDL de un sujeto con un índice de masa corporal x0 es
Pastor-Barriuso R. 177
Ejemplo 10.11 A partir del modelo de regresión lineal del colesterol HDL sobre el
1 ( x − 26,0) 2
1,69 − 0,023 x 0 ± 1,96 ⋅ 0,283 1 + + 0 .
533 532 ⋅ 3,50 2
El cálculo de estos intervalos en distintos valores x0 del índice de masa corporal da lugar
a lacálculo
El banda de predicción en grisenclaro
estos intervalos de la valores
distintos Figura 10.9.
x0 delAlíndice
igual de
quemasa
la banda de confianza,
corporal
la banda de predicción está centrada alrededor de la recta de regresión estimada, pero su
amplitud
da lugar aeslanotablemente mayor alenincorporar
banda de predicción gris claro la
devariabilidad de cada
la Figura 10.9. respuesta
Al igual que laindividual
respecto a su valor esperado. Por ejemplo, el intervalo de predicción al 95% para el nivel
de colesterol
banda HDL delaun
de confianza, sujeto
banda decon 25 kg/mestá
predicción 2
de centrada
índice dealrededor
masa corporal vienede
de la recta dado por
1,69 − 0,023⋅25 ± 1,96⋅0,284 = (0,56; 1,67),
regresión estimada, pero su amplitud es notablemente mayor al incorporar la
que es mucho más impreciso que el intervalo de confianza calculado en el ejemplo anterior
que
paraes
el mucho
valorde
variabilidad más
cadaimpreciso
medio del que
colesterol
respuesta el
HDLintervalo
individual de los
enrespecto
todos confianza
valorcalculado
sujetos
a su con dichoen
esperado. el del índice de
valor
Por
masa corporal (IC al 95% 1,09-1,14 mmol/l).
ejemplo anterior
ejemplo, parade
el intervalo el predicción
valor medioaldel
95%colesterol HDLde
para el nivel encolesterol
todos los HDL
sujetos
decon
un
10.3.5 Evaluación de las 2 asunciones del modelo de regresión lineal simple
dicho valor
sujeto con 25del índice
kg/m dede masade
índice corporal (IC al 95%
masa corporal viene 1,09−1,14
dado pormmol/l).
Los procedimientos de estimación e inferencia derivados en los apartados anteriores se basan
en las asunciones de linealidad, homogeneidad de la varianza y normalidad. La violación de
estas asunciones
10.3.5 Evaluación puede
de las darasunciones
lugar a conclusiones
del modelo erróneas del modelo
de regresión lineallineal,
simple 34
siendo así necesario
evaluar su idoneidad en cada aplicación práctica. Aunque existen diversos tests para contrastar
curvilíneas y con similar dispersión a lo largo de toda la recta. Tal parece ser el caso del
estadísticamente
Los procedimientos cada
de una de las hipótesis
estimación e inferencia delderivados
modelo lineal
en los (véase
apartados referencias
anterioresalsefinal del
tema), en este apartado se presentan algunas técnicas diagnósticas basadas en el análisis gráfico
diagrama de dispersión entre el índice de masa corporal y el colesterol HDL de la
de los en
basan residuos, proponiéndose
las asunciones asimismo
de linealidad, extensiones básicas
homogeneidad del modelo
de la varianza y transformaciones
y normalidad. La de
los datos para acomodar posibles desviaciones de estas asunciones. En particular, se presta
Figura 10.7, donde no se aprecian desviaciones obvias de estas asunciones. En la Figura
especial atención
violación a las hipótesis
de estas asunciones puede dedarlinealidad y homogeneidad
lugar a conclusiones de la
erróneas delvarianza,
modelo ya que las
principales inferencias relativas a la pendiente de la recta de regresión y al valor esperado de la
10.2(d), sin embargo, se muestra un claro ejemplo de violación de la asunción de
variable
lineal, respuesta
siendo son aproximadamente
así necesario evaluar su idoneidad válidas en encada
muestras moderadamente
aplicación práctica. Aunque grandes aunque
la distribución subyacente de la variable respuesta no sea normal.
linealidad, ya que la relación subyacente es visiblemente cuadrática. No obstante, el
existen diversos
El gráfico mástests
simplepara contrastar
para evaluar estadísticamente
el grado de cumplimiento cada unade delas
lasasunciones
hipótesis del de la regresión
gráfico
lineal simplemás esutilizado
el diagrama parade chequear
dispersión las entre
asunciones de la regresión
las variables explicativalineal es el diagrama
y respuesta, junto con
modelo lineal
la recta de (véase estimada.
regresión referenciasSialsefinalcumplen del tema), en este apartado
las hipótesis se presentan
de linealidad y homogeneidadalgunas de la
de dispersión
varianza, los puntosde los diagramaei de
delresiduos = ydispersión
i - ŷ i frente hana los valores predichos
de distribuirse ŷ i = b0 +alrededor
aleatoriamente b1xi por de
técnicas
la recta dediagnósticas
regresión sin basadas en elde
evidencia análisis gráfico
relaciones de los residuos,
curvilíneas proponiéndose
y con similar dispersión a lo largo
de la
toda la de
recta recta. Tal parece
regresión. Este ser el caso
gráfico del diagrama
es equivalente de dispersión
al diagrama entre elentre
de dispersión índicexi ede
yi masa
asimismo
corporal yextensiones
el colesterolbásicas
HDL de dellamodelo
Figuray10.7, transformaciones
donde no se de los datos
aprecian para
desviaciones obvias de
estas
enasunciones.
regresión linealEn lasimple,
Figurapero10.2(d),
tienesin embargo,
la ventaja de se
sermuestra un claro
directamente ejemplo deaviolación
generalizable la
acomodar
de la asunciónposiblesde desviaciones
linealidad, yadeque estasla asunciones. En particular,
relación subyacente se presta especial
es visiblemente cuadrática. No
obstante,
presenciael gráfico
de más de másuna utilizado
variablepara chequear
explicativa en las asunciones
regresión lineal de la regresión lineal es el
múltiple.
atención
diagramaade lasdispersión
hipótesis de de los
linealidad
residuosy ehomogeneidad
= y – ŷ frente de
a la varianza,
los valores ya que lasŷ = b + b x por
predichos
i i i i 0 1 i
la recta de regresión.
Antes de proceder Este gráfico gráfico
al análisis es equivalente al diagrama
de los residuos, de dispersión
es importante describirentre xi e yi en
algunas
principales
regresión linealinferencias
simple,relativas
pero tiene a la
la pendiente
ventaja de de serladirectamente
recta de regresión y al valor
generalizable a la presencia de
másdedesusunapropiedades.
variable explicativa en regresión
Bajo las hipótesis lineal múltiple.
de linealidad y homogeneidad de la varianza, los
esperado de la variable respuesta son aproximadamente válidas en muestras
Antes de proceder al análisis gráfico de los residuos, es importante describir algunas de
sus residuos
propiedades.ei = yiBajo
- ŷ i las
tienen un valor
hipótesis de esperado
linealidadsubyacente
y homogeneidad de la varianza,
moderadamente grandes aunque la distribución de la variable respuestalos noresiduos
ei = yi – ŷi tienen un valor esperado
sea normal. E(ei) = E( yi) − E( ŷ i ) = 0
predichos 1ŷEn n
no x1 + xapreciar
permite + ... xclaramente
+casos las posibles
predichos
x= ŷ no
En permite
determinados
determinados
quex ipresentarán
leverage),
i i = ambosentonces 2apreciarcasos
residuos
nclaramente
el gráfico
el
. pequeños gráfico de
ei y ri se comportan las los
de posibles
residuos residuos
los edesviaciones
residuos
estandarizada i.de
desviaciones
Por estandarizados
forma estandarizados
ello, de y la
análoga.
dede
con las rasunciones
las
distancia
objeto asunciones
i frente
ri frente
deentrea los
que alos valores
los
cada valores
valor xi de la variable exp
n
que se obtienen 1.2.1
i = 1 n
de dividir Media residuos ei por una estimación de su desviación típica. El término hi
losaritmética
se
dedelinealidad
linealidad que
predichos
predichos
conoceyyEn se obtienen
ŷ
como
homogeneidad
homogeneidad
determinados
i no
ŷ iel no de
permite dividir
permite
leverage de casos los
de apreciar
la lade apreciar
una
varianza.
varianza.
el residuos
claramente
observación
gráfico ParaParadeeobtener
claramente por
las
yresiduos
iobtener
los que esuna
posibles
las
se una estimación
posibles
una
tratará medida desviaciones
en desviaciones
representación
representación
estandarizados de su desviación
elestandarizada
apartado más de
rmás las
dedelas
clara
i frenteclara
siguiente. típica.
asunciones
asunciones
laa distancia
los No Elentre si el tamaño
obstante,
valores 36
cada valor x de La
a medida de tendencia central más utilizada y de más fácil
i la variable
media explicativa
aritmética, y
denotada su media por x ,quese se
define tratará como en el
la apartado
suma de siguiente.
cada uno deNo los
enentales término
talescircunstancias,
circunstancias,
obstante,
de predichos
linealidad
de linealidad h sees conoce
es aconsejable
si elyŷ ihomogeneidad
i tamañoaconsejable
ynohomogeneidad como
muestral el
dividir
de la leverage
dividir loslos
es varianza.
de grande
la n n
varianza. de una
residuos
residuos
yPara
no no
hay observación
Para r
hay r en
valores
obtener en K K grupos
valores
iobtener grupos
muy
una y es
muy una
dede
extremos
representación
una medida
tamaño
tamaño
extremos
representación de las n n
lamás de
kvariable
másla clara
clara variable
explicativa (observac
permite apreciar claramente las posibles
i desviaciones de k asunciones
explicativa valores
(observaciones
orresponde al “centro de gravedad” de los datos de la muestra. Su muestrales
con alto dividida
leverage), por el
ambos número de
residuos observaciones
e i y r i se realizadas.
comportan de Si denotamos
forma
ordenados
ordenados estandarizada
porpor
análoga. valores
valores de
crecientes
crecientes la distancia
de de ŷ ŷ (por entre
(por cada
ejemplo,
ejemplo, valordeciles)
deciles)
leverage), x de
n residuos y la
y variable
calcular
calcular
ambosri residuos la explicativa
la
ri K media
media ei y rde y
i se
su media
decomportan x
k nkde forma análoga.
en de tales circunstancias,
en linealidad
tales circunstancias, es aconsejable
es iaconsejable de la dividir dividir losPara los nobtener
residuos en en grupos
K grupos tamaño más nclara
tamaño
i
y homogeneidad i varianza. una representación
por n
ón es que está muy influenciada por los valores extremos y, en este el tamaño muestral y por x i el valor observado para el sujeto i-ésimo, i = 1, ..., n,
En
que determinados
se tratará en el casos
apartado el gráfico
siguiente. de Nolos residuos
obstante,
En determinados estandarizados
si el tamaño casos muestral r
el la frente
gráfico es a
grande
de los valores
y
los residuos
ordenados tales ŷpor
ordenados valores
por valores crecientes
crecientes de de ŷkin (por
ŷ idividir
(por ejemplo, ejemplo, n deciles) deciles) yrcalcular
y calcular media
la media nk de estandarizado
i
en
predichos circunstancias, es aconsejable 11 npor laslos residuos i en K grupos de lasdeasunciones
tamaño
i nolapermite media apreciar
vendría dadaclaramente posibles desviaciones
k
variable
dedeloslosresiduos básica.
residuos enencadacadauno unodedelos losgrupos.
grupos.LaLapresencia
presenciadedecurvatura
curvaturaenenelelgráficográficodedeloslos
residuos estandarizados por deciles de los valores predichos. La Figura 10.10(b) de los
residuos
residuos
residuos mediosrkrkfrente
medios
medios frenteaaalos
frente losvalores
los valorespredichos
valores predichosmedios
predichos mediosŷ kŷde
medios kenen losdistintos
los
cada distintos
decil grupos
grupos
muestra indicios
1.2 MEDIDAS DEde TENDENCIA CENTRAL
antioxidantes en el riesgo de desarrollar
una posible relación cuadrática
[Figura 10.10 entre el índice de masa
aproximadamente aquí] corporal y el colesteroldeHDL,
un primer infarto agudo miocardio en
ya quefalta
indicará
indicará los
faltaresiduos del modelo
dedelinealidad
linealidad lineal
enenlalarelación,
relación, tienden a serque
mientras
mientras positivos
que para valores
lalaexistencia
existencia predichos
dedetendencia
tendencia enenelaltos
el
Las medidas de tendencia y bajos central
del colesterol hombres
informan HDL adultos.
y negativos
acerca Los
de cuál paravalores obtenidos
es elvalores
valor más fueron
predichos 0,89, 1,58, 0,79,
intermedios. Por otra
representativo 1,29, 1,42, 0,84,
parte,
en la Figura 10.10(c) no [Tabla 10.4 aproximadamente
se aprecian desviaciones deaquí] la asunción de homogeneidad de la
de una determinadavarianza, variable o, dadodicho 1,06,
quedelas 0,87, 1,96
desviaciones
forma y 1,53
equivalente, mmol/l.
típicas La
estosresiduales media
estimadores sk de
son lossimilares
indican niveles del en colesterol
los distintosHDL en
3737
deciles de los valores predichos.
alrededor de qué valor se agrupanmás estos
los datos 10 observados.
participantesLas es
La alternativa
Ejemplo 10.13 Lossimple nivelespara acomodar medidas
de α-tocoferol una de tendencia
relación
y β-caroteno cuadrática entre el índice de masa
en tejido adiposo
corporal y el colesterol HDL es extender el modelo lineal a un modelo polinomial de segundo
central de la muestra sirven tanto = βpara resumirx2los resultados
1 10 elobservados 1,como
58 + ...para
0,89 +cuadrático +x21además
,53
orden
presentan E(Y|x) 0 + β1x + βasimétricas
distribuciones 2 , que incluye
x = enlos
término
x i 700
= controles del estudio=EURAMIC,
del término lineal
1,223 mmol/l.
x del índice de masa corporal. La relación 10 i =1 resultante entre 10 ambas variables ya no será una
realizar inferenciaslínea acercarecta de los sinoparámetros
una poblacionales
parábola, cuya correspondientes.
curvatura vendrá A
determinada porLaelmedia
coeficiente β2
con un marcado sesgo positivo en el caso del β-caroteno (Figura 4.3). y
asociado
residuos sean comparables al término
a distintos niveles cuadrático. El ajusteesdepreferible
de la variable explicativa, los modelos polinomiales se tratará en el Tema
continuación se describen 11 ya que losestos
principales
modelos estimadores
pueden considerarsede la tendencia como centralparticulares
casos de una de la regresión lineal
la del
desviación La media
típicalosdel aritmética
α-tocoferol presenta
son x = 146,1las siguientes
y sx = propiedades:
87,6 μg/g y del β-
realizar el diagnóstico modelo mediante residuos estandarizados
múltiple cuyas variables explicativas son distintas potencias de una misma variable básica.
variable.
• Cambio de origen (traslación). Si se suma una constante a cada uno de los datos
caroteno y = 0,37ei ys = = 0,40
ei μg/g, y el coeficiente de correlación de Pearson
Ejemplo 10.13 Los 2yniveles
r i =
s 1
de, a-tocoferol y b-caroteno en tejido adiposo presentan
− hi
1 ( xi − x )
1.2.1 Media aritmética distribuciones de una muestra,
s 1 − −asimétricas
n (n − 1) s x2
en losla700 media de la muestra
controles resultante
del estudio EURAMIC, es igual cona la
unmedia
marcado inicial más la
entre ambas variables es r = 0,45. A partir de estos datos
sesgo positivo en el caso del b-caroteno (Figura 4.3). La media y la desviación típica del se estima que la recta de
La media aritmética, denotada por
a-tocoferol son xconstante
,=se define
146,1
que se obtienen de dividir los residuos ei por una estimación
scomo
yutilizada;
x= 87,6 lasimg/g
suma
yi = yxde +cada
idel
de su desviación típica. El
uno de los
cb-caroteno
, entonces y == 0,37x + yc.syUn cambio
= 0,40 mg/g,deyorigen
el que
regresión del β-caroteno sobre el α-tocoferol es
coeficiente de correlación de Pearson entre ambas variables es r = 0,45. A partir de estos
valores muestrales
término datos
hi se conocedividida
como el seleverage
estima
por el de que
número la
unarealiza
se recta
de con
observación deyfrecuencia
regresión
es una medidadel
observaciones b-caroteno
realizadas.
es el centrado sobre
Si denotamos el a-tocoferol
de la variable, es
que consiste en restar a
estandarizada de la distancia entre cada valor xi de la variableŷexplicativa = 0,072y +su 0,0021x,
media x
por n el tamaño muestral y por xi el cada valorvalorobservado
de la para el sujeto
muestra su i-ésimo,
media. i = 1,de
La media n, variable centrada será, por
...,una
con una desviación típica residual de los niveles de b-caroteno alrededor de dicha recta de
que se tratará en el apartado siguiente. No obstante, si el tamaño muestral es grande y
s = 0,36 mg/g. El error estándar de la constante es SE(b0) = 0,026 y de la pendiente SE(b1) =
la media vendría dada conporuna desviación típica
tanto, igualresidual
a 0. de de los niveles de β-caroteno alrededor de dicha
no hay valores muy0,00015.
extremos deAsí, se tiene
la variable que
explicativaincrementos
(observaciones una
con altodesviación típica (87,6 mg/g) en el a-tocoferol
se asocian con un aumento deanáloga.
87,6 ∙ 0,0021 = 0,18 mg/g en el nivel medio de b-caroteno, con
recta ede i y rsi se
= comportan μg/g.
0,36Cambio El es SE(b0) = uno 0,026 deylosde datos
la
x1deerror
x 2 +estándar
+ x n de la±constante
leverage), ambos residuos de forma escala
un IC al 95% •comprendido 1 n +entre ...(unidades).
87,6(0,0021 Si se ∙multiplica
1,96 0,00015) =cada (0,15; 0,21). de una
x
En determinados casos el gráfico denlos
= =1residuos
x i =
n sertiene
estandarizados
.
i frente a los valores
pendiente SE(b1i)muestra = 0,00015. por unaAsí, constante,que la incrementos
media de la 0,5 de una desviación
muestra resultante es igual a la media
4
predichos ŷ i no permite apreciar claramente las posibles desviaciones de las asunciones
k r 0
de linealidad y homogeneidad de la varianza. Para obtener una representación más clara
1,2
β-caroteno (μg/g)
sk 1
y la varianza
0 0
0 100 1 nk 2
s k2 = 200 ri 300 400 0,1 0,3 0,5 0,7
n k i =1
α-tocoferol (μg/g) ŷk
(a) (c)
de los residuos en cada uno de los grupos. La presencia de curvatura en el gráfico de los
Figura 10.11 Regresión lineal del β-caroteno sobre el α-tocoferol en el grupo control del estudio EURAMIC (a), junto
con las medios
residuos medias rk (b) y desviaciones
frente a los valorestípicas sk (c)medios
predichos de los residuos
ŷ k en losestandarizados por deciles de los valoresFigura
distintos grupos predichos.
10.11
indicará falta de linealidad en la relación, mientras que la existencia de tendencia en el Pastor-Barriuso R. 181
37
El segundo procedimiento para tratar con varianzas heterogéneas es encontrar una
Correlación y regresión lineal simple
lineal
En a esta variable
presencia transformada.
de heterogeneidad de La selecciónlos
la varianza, de estimadores
la transformación adecuada
puntuales b0 y bsuele
1, así como
la propia recta de regresión estimada ŷ = b0 + b1x, continúan siendo insesgados, pero la varianza
basarse
residual en lasesgada
s2 está relaciónyaexistente entre la varianza
que infraestima residual
la variabilidad deylaelvariable
valor esperado
respuesta dealrededor
la de
unos puntos de la recta de regresión y la sobreestima en otros. En consecuencia, los errores
variable
estándar de respuesta. En el caso
los estimadores no sonmás frecuente
correctos de que
y sus la desviación típica
correspondientes residual
intervalos tienda a y
de confianza
tests de hipótesis dejan de ser válidos. En general, existen dos procedimientos alternativos para
aumentar
tratar linealmente
con varianzas con el valor
heterogéneas. El predicho (tal como
primer método ocurre
consiste enenrealizar
la regresión del β- lineal
una regresión
ponderada, que es una extensión del modelo lineal ordinario donde cada observación de la
caroteno
variable sobre el
respuesta α-tocoferol),
recibe la heterogeneidad
un peso inversamente de la varianza
proporcional se resuelve
a su varianza utilizando
estimada la
alrededor
de la recta de regresión. Así, cuanto más precisa sea una observación, mayor será su peso en la
transformación
estimación de la rectalogarítmica
de regresión.
, dadoEnque
el ejemplo anterior,
el logaritmo de la la regresión
respuesta linealentonces
tendrá ponderada unadel
b-caroteno sobre el a-tocoferol otorgaría más peso a los puntos con valores bajos del a-tocoferol
quevarianza
a aquellos con valores altos,
aproximadamente ya que los
constante. Estaprimeros presentan
transformación menor variabilidad
logarítmica produce elen el nivel
de b-caroteno. Las técnicas de regresión lineal ponderada pueden consultarse en los textos
mismo efecto
específicos en cualquier
de regresión base
citados en yeste
sólo puede aplicarse a variables respuestas positivas.
tema.
El segundo procedimiento para tratar con varianzas heterogéneas es encontrar una
Además de homogeneizar la varianza, la transformación logarítmica también suele
transformación de la variable respuesta que estabilice la varianza y ajustar el modelo lineal a
esta variable transformada. La selección de la transformación adecuada suele basarse en la
emplearse para normalizar variables respuestas sesgadas positivamente, así como para
relación existente entre la varianza residual y el valor esperado de la variable respuesta. En el
caso más frecuente de que la desviación típica residual tienda a aumentar linealmente con el
linealizar relaciones con pendiente monótonamente creciente.
valor predicho (tal como ocurre en la regresión del b-caroteno sobre el a-tocoferol), la
heterogeneidad
Para volver ade la
la el varianza
escala se resuelve
original, se tomautilizando la transformación
la exponencial logarítmica, dado que
Aun cuando uso de una respuesta logarítmica esté en ambos lados
plenamente de esta igualdad,
justificado en
el logaritmo de la respuesta tendrá entonces una varianza aproximadamente constante. Esta
transformación
resultando logarítmica
que la media produce el mismo efecto en cualquier base y sólo
comopuede
la aplicarse a
términos estadísticos, losgeométrica
resultados de
dellamodelo
variable respuesta
transformado (definida
han de interpretarse en la
variables respuestas positivas. Además de homogeneizar la varianza, la transformación
logarítmica
exponencial también
de de suelede los
la media emplearse paravéase
logaritmos; normalizar
Apartado variables respuestas
funciónquesesgadas
escala original la variable respuesta. El modelo en escala1.2.3) es una
logarítmica asume el
positivamente, así como para linealizar relaciones con pendiente monótonamente creciente.
exponencial
Aun
valorcuando
esperado de la
el delvariable
uso de unaexplicativa,
logaritmo respuesta logarítmica
de la variable esté
respuesta plenamente
Y cambia justificado
linealmente con en
la términos
estadísticos,
Para volverlosa resultados del modelo
la escala original, transformado
se toma han de
la exponencial eninterpretarse
ambos ladosen de la escala
esta original
igualdad,
de variable
la variable respuesta. El modelo en escala logarítmica asume
explicativa X, EG(Y|x) = exp{E(logY|x)} = exp(β0 + β1x). que el valor esperado del
logaritmo de laque
resultando variable respuesta
la media Y cambia
geométrica de lalinealmente con la variable
variable respuesta como la X,
(definidaexplicativa
0,5 ei ei 1,6
0 ri = = ,
1 ( xi − x ) 2 s 1 − hi
β-caroteno (μg/g)
s 1− − 1,2
log(β-caroteno)
n (n − 1) s x2
-1
0,8
que se obtienen de dividir los residuos ei por una estimación de su desviación típica. El
-2 0,4
término hi se conoce como el leverage de una observación y es una medida
-3 0
estandarizada de la distancia entre cada valor xi de la variable explicativa y su media x
0 100 200 300 400 0 100 200 300 400
que se tratará en el apartado siguiente. No obstante,
α-tocoferol (μg/g) si el tamaño muestral es grande yα-tocoferol (μg/g)
no hay valores muy extremos de la variable (a)explicativa (observaciones con alto (b)
Figura 10.12 Recta de regresión del logaritmo del β-caroteno sobre el α-tocoferol en el grupo control del
leverage),estudio
ambos EURAMIC ri se
residuos ei y(a) comportanexponencial
y tendencia de forma análoga.
resultante en la escala original del β-caroteno (b).
2
de linealidad y homogeneidad rk clara
de la varianza. Para obtener una representación más 0
en tales circunstancias,
1 es aconsejable dividir los n residuos ri en K grupos de tamaño nk
-0,5
-2 -1,5 -1 -0,5
ordenados por
ri valores
0 crecientes de ŷ i (por ejemplo, deciles) y calcular la media
(b)
-1 nk 1,5
1
rk =
nk
r
i =1
i
-2 sk 1
y la varianza -3
0,5
-2 -1,5 -1 nk -0,5 0 0,5 -2 -1,5 -1 -0,5
1
s k2 =
nk
ŷrii2
i =1
ŷk
(a) (c)
de los residuos
Figuraen10.13
cada uno de los
Gráfico degrupos. La presencia
los residuos de curvatura
estandarizados en aellos
ri frente gráfico depredichos
valores los ŷi de la regresión lineal
del logaritmo del β-caroteno sobre el α-tocoferol en el grupo control del estudio EURAMIC (a), junto Figuracon
10.13las
medias rk (b)
residuos medios frente a los valorestípicas
y desviaciones predichos
sk (c)medios ŷ k en los
de los residuos distintos grupos
estandarizados por deciles de los valores predichos.
184 Pastor-Barriuso R.
obtenidas en la muestra completa con sus correspondientes estimaciones tras excluir
Regresión lineal simple
dicha observación. Una medida estandarizada del cambio global que se produce en las
[Figura 10.14
Figura 10.14 Rectas de regresión resultantes aproximadamente
de incluir aquí] (línea fina) los puntos A y B
(línea gruesa) y excluir
del ajuste del modelo lineal. [Figura 10.14 aproximadamente aquí]
Una observación será tanto más influyente en las estimaciones b0 y b1 de la recta de regresión
cuanto mayor sea su distancia de Cook Di. En general, se recomienda examinar detenidamente
aquellas observaciones con una distancia de Cook superior a 4/(n – 2), que corresponde, por
ejemplo, a un punto con un leverage medio hi = 2/n y un residuo estandarizado alto ri = ±2. No
obstante, la selección de un valor crítico para Di es un tanto arbitraria y es preferible evaluar la
influencia relativa de cada observación en comparación con las restantes observaciones. Un
gráfico útil es el diagrama de dispersión de los residuos estandarizados ri frente a los leverages
hi, donde cada observación se representa mediante un círculo de área proporcional a su distancia
de Cook Di. En este gráfico, el tamaño de los círculos identificará claramente las observaciones
más influyentes, mientras que la posición permitirá discernir la contribución de los residuos y
leverages a la influencia de dichas observaciones.
1 ( xi − x ) 2
Ejemplo 10.15 La Figura 10.15 muestra los residuos h i = + ri frente a los
n (estandarizados
n − 1) s x2
leverages hi de la regresión lineal del colesterol HDL sobre el índice de masa corporal,
donde se incluyen líneas de referencia horizontales en ri = – 2, 0 y 2 y verticales en el
doble hi = 0,0075
y toma triple hentre
y elvalores i = 0,0113
1/n y 1del
conleverage
una mediamedio de h == 2/533
2/n. A=diferencia
0,0038. Eldeárea
los outliers que
de los círculos es proporcional a la distancia de Cook Di e indica la influencia relativa de
cada observación. Por supuesto,
corresponden la influencia
a observaciones conde las observaciones
valores atípicos de la aumenta conforme las
variable respuesta,
aumentan sus residuos estandarizados en valor absoluto (dirección vertical del gráfico) y
sus leveragesobservaciones
(dirección horizontal). Sin embargo,
con alto leverage son aquellas noconse valores
aprecian observaciones
extremos de la variable
marcadamente influyentes que pudieran conducir los resultados globales del modelo. La
observación más influyente
explicativa. ElDleverage
i = 0,043juega
se presenta
un papelen determinante
el cuadrante superior izquierdaentre
en la distinción de laoutliers y
Figura 10.15, que corresponde a un outlier con un residuo muy alto ri = 4,28 y un leverage
moderado hi =observaciones
0,0047. Las estimaciones
influyentes.deAsí,
la constante y la pendiente
por ejemplo, el punto de la recta
A de de regresión
la Figura 10.14(a) es un
excluyendo este outlier son b0(i) = 1,71 y b1(i) = – 0,024 que, comparadas con las estimaciones
(error estándar) b0 = 1,69
outlier extremo(0,092) y b1 =muy
(residuo – 0,023 (0,0035)
elevado) queobtenidas
tiene pocaeninfluencia
la muestraencompleta
la recta de regresión
(Ejemplo 10.9), suponen un cambio estandarizado de (b0(i) – b0)/SE(b0) = (1,71 – 1,69)/0,092
= 0,20 en la constante
estimaday ya – b1ésta
(b1(i)que )/SE(b
no1)varía
= (– 0,024 + 0,023)/0,0035
sensiblemente = – 0,23
tras excluir en la
dicho pendiente.
punto. Esto se debe a que
Así, a pesar de que este outlier está muy mal ajustado, no afecta substancialmente a la recta
de regresión estimada.
la observación A presenta un valor centrado de la variable explicativa (leverage muy
186 Pastor-Barriuso R.
4/(n - 2), que corresponde, por ejemplo, a un punto con un leverage medio hi = 2/n y un
ri
0
-2
-3
la observaciónrAilapresenta
0 A presenta
un valor
observación centrado
unde la variable
valor centradoexplicativa (leverage
de la variable muy (leverage muy
explicativa
particularmenteparticularmente b1, la
en la pendiente en debido a quebeste
pendiente puntoapresenta
1, debido que este un valor
punto muy un valor muy
presenta
-3
extremo de la variable
extremoexplicativa.
de la variable explicativa.
consiste10.5
Tabla en encontrar una transformación
Observaciones de la variable
más influyentes en la explicativa
regresión olineal
respuesta
del que
logaritmo del
β-caroteno sobre el α-tocoferol en el grupo control del estudio EURAMIC.
permita reducir la influencia de dichas observaciones. Por un lado, las transformaciones
Valores observados Valor predicho Medidas diagnósticas Estimaciones*
de laxvariable yi
afectanŷi al residuo estandarizado
ri hi
pero no alDleverage deb0una b1(i)
(i)
i
respuesta i
medias
es decir,geométricas
100(1,50 0,51 esrelativos
constante
- 1) = 100(1,23
a incrementos - 1)en=ela
igual
23% a la explicativa
en
variable media geométrica de β-caroteno.
les corresponde El cambio
un mismo
relativo
es decir,en la variable respuesta.
a incrementos relativosPor en ejemplo, incrementos
la variable explicativadel les50% (c = 1,50)un
corresponde en el nivel de
IC al 95% para
a-tocoferol la razón
se asocian condeunmedias
aumento geométricas
del
y G (cx) 0,023(cx) 100(1,50 viene
0 , 51 0,51 dado por
– 1)
0,51
= 100(1,23 – 1) = 23% en la media
geométrica de b-caroteno.
relativo enElla = = c ;
mismo cambio yIC ( xal) 95%0respuesta.
variable
G
para
,023xla0,razón
51 Porde medias geométricas
ejemplo, incrementosviene
del dado por
b ±t SE ( b )
c 1 698; 0 , 975 1 = 1,500,51±1,96⋅0, 039 = (1,19; 1,27),
50% (c = 1,50) en el nivel de α-tocoferol se asocian con un aumento del
de decir,
es dondeaseincrementos
concluye con una confianza
relativos del 95%
en la variable que la media
explicativa geométrica un
les corresponde de b-caroteno
aumenta
de donde entre
100(1,50 0,51
- 1)un=19
se concluye ycon
un 27%
100(1,23 una- 1) por cadaen
confianza
= 23% incremento
della95%media quedel
la 50%
media
geométrica engeométrica
el β-caroteno.
de nivel de de
a-tocoferol.
β-
El
mismo cambio relativo en la variable respuesta. Por ejemplo, incrementos del
188 caroteno
IC al 95%
Pastor-Barriuso R. aumenta entre un
para la razón de 19 y un geométricas
medias 27% por cada incremento
viene dado pordel 50% en el nivel
50% (c = 1,50) en el nivel de α-tocoferol se asocian con un aumento del
de α-tocoferol. b ±t SE ( b ) 51±1, 96 ⋅0 , 039
100(1,500,51 - 1) = 100(1,23 ,500,en
c 1 698; 0 , 975 - 1)1 == 123% la media = (1,19; 1,27),de β-caroteno. El
geométrica
Regresión lineal simple
0,5 1,6
ei
0 ri =
1 (x
β-caroteno (μg/g)
1,2
log(β-caroteno)
s 1− −
n (n
-1
0,8
que se obtienen de dividir los residuos ei p
-2 0,4
término hi se conoce como el leverage de
-3 0
estandarizada de la distancia entre cada va
2,5 3 4 5 6 0 100 200 300 400
log(α-tocoferol) que(μg/g)
α-tocoferol se tratará en el apartado siguiente. No
(a) (b)
no hay valores muy extremos de la variabl
Figura 10.17 Recta de regresión del logaritmo del β-caroteno sobre el logaritmo del α-tocoferol en el grupo
control del estudio EURAMIC (a) y tendencia potencial resultante en la escala originalleverage),
de ambasambos (b). ei y ri se compo
residuos
variables
1 -0,5
en tales circunstancias, es aconsejable divi
ri -2 ordenados
-1,5 -1 valores
por -0,5 crecientes de ŷ (po
0 i
(b)
-1 1,5
rk =
-2 sk 1
-3 y la varianza
0,5
0,0015 0,003 0,005 0,01 0,02 0,04 -2 -1,5 -1 -0,5
s k2 =
hi ŷk
(a) ( c)
Figura 10.18 Gráfico de los residuos estandarizados ri frente a los leverages hi dedelalos residuos lineal
regresión en cada deluno de los grupos.
logaritmo del β-caroteno sobre el logaritmo del α-tocoferol en el grupo control del estudio EURAMIC (a),
Figura 10.18
donde el área de los círculos es proporcional a la distancia de Cook Di, y gráficoresiduos
de las medias
medios rk (b) y a los valores pre
frente
desviaciones típicas sk (c) de los residuos estandarizados por deciles de los valores predichos.
indicará falta de linealidad en la relación,
Pastor-Barriuso R. 189
Correlación y regresión lineal simple
DeEjemplo
estos resultados
10.18 Para se comparar
desprendelos queniveles mediosbde
la pendiente 1 ycolesterol
su error estándar
HDL entre SE(b
los1) coinciden
exactamente con la estimación puntual y el error estándar de la diferencia de medias en
distribuciones con igual
casos de infarto de varianza
miocardio(véase y los Apartado
controles libres 6.3.1).dePuede concluirse,sepor
la enfermedad, tanto, que las
podría
inferencias relativas a la pendiente de un modelo de regresión lineal con una única variable
explicativa
ajustardicotómica
un modeloson de algebraicamente
regresión lineal simple equivalentes a la comparación
del colesterol HDL sobredelamedias variablemediante
el test de la t de Student para muestras independientes con igual varianza.
indicadora del estatus caso/control (xi = 1 en los casos y 0 en los controles) en la
Ejemplo 10.18 Para comparar los niveles medios de colesterol HDL entre los casos de
muestra
infarto decompleta
valor esperadomiocardiodelde yn1los
= 462
colesterol casosen
controles
HDL delosinfarto
libres controlesn2 =libres
de layenfermedad,
539 controles
de la del ajustar
se enfermedad,
podría estudio un modelo
cuyo
de regresión lineal simple del colesterol HDL sobre la variable indicadora del estatus
EURAMIC
IC al 95% escon
caso/control (xi =valores
1 en los delcasos
colesterol
y 0 enHDL. La recta de
los controles) en regresión
la muestraestimada
completaentre de n1 = 462
casos de infarto y n2 = 539 controles del estudio EURAMIC con valores del colesterol
el valor
HDL. esperado
colesterol
La recta HDLdedely colesterol
la variable
regresión HDL enentre
indicadora
estimada los controles
del estatus libres
el colesterol de lay enfermedad,
caso/control
HDL es
la variable cuyo
indicadora del
b0 ± t999;0,975SE(b0) = 1,09 ± 1,96⋅0,012 = (1,06; 1,11).
estatus caso/control es
IC al 95% es
ŷ = 1,09 − 0,11x,
Por otra parte, la pendiente b1 = -0,11 mmol/l determina el cambio en el nivel
con una desviación b0 ±típica
t999;0,975 SE(b0) del
residual = 1,09 ± 1,96⋅0,012
colesterol HDL de s = 0,27
= (1,06; 1,11).mmol/l que, debido a la
con
mediounadedesviación
hipótesis de típica
HDL residual
homogeneidad
colesterol pordecada del colesterol
la varianza,
incremento deHDL
se asume de s = 0,27
una constante
unidad en enlammol/l
casos que,
variable y controles. El
valor
error esperado
estándar del
de colesterol
la constante HDL
Por otra parte, la pendiente b1 = -0,11 mmol/les SE(b
en los0 ) controles
= 0,012 ylibres
de lade la enfermedad,
pendiente
determina el cambio en el nivel SE(b 1)cuyo
= 0,017. La
debido
constantea lab0hipótesis
indicadora, lo= que de homogeneidad
1,09equivale
mmol/l estima la media
a la diferencia de la de varianza,
del colesterol
medias se asume
entre HDL
casosenconstante
(xlos 1) y en con valor 0
i = sujetos
ICmedio
de al variable
la 95% es indicadora; esto es, el valor esperado
de colesterol HDL por cada incremento de una unidad en la variable del colesterol HDL en los controles
casos
libres ydecontroles.
controles i = 0). El error
la(xenfermedad, IC al estándar
cuyo
95%ICpara al de laladiferencia
95% constantede
es SE(b0) subyacente
esmedias = 0,012 y deviene la
indicadora, lob0que equivale
± t999;0,975 SEa(bla0 )diferencia de medias entre
= 1,09 ± 1,96⋅0,012 casos
= (1,06; (xi = 1) y
1,11).
dado por SE(b1) = 0,017. La constante b0 = 1,09 mmol/l estima la media del
pendiente
Por otra parte,
controles (xi =la0).pendiente
El IC al 95%b1 = – 0,11
para lammol/l
diferencia determina
de medias el cambio
subyacente en elviene
nivel medio de
Por otra parte,
colesterol HDL HDL en la pendiente
porloscada b = -0,11
incremento
sujetos 1 con valorde mmol/l
0 de determina
unala unidad el cambio
variableenindicadora; en
la variableesto el nivel
indicadora,
es, el lo que
b1 ± t999;0,975SE(b1) = -0,11 ± 1,96⋅0,017 = (-0,14; -0,08)
equivale
dado por a la diferencia de medias entre casos (xi = 1) y controles (x i = 0). El IC al 95%
medio de colesterol HDL por cada incremento
para la diferencia de medias subyacente viene dado por de una unidad en la variable 53
y el contraste bilateral de la hipótesis de igualdad de medias H : β = 0 mediante
indicadora, lobque 1 ± tequivale
999;0,975 SEa(b = − 0,11 ± 1,96⋅0,017
la1 )diferencia de medias =entre (− 0,14;
casos−0 0,08)
1
(xi = 1) y
yel el
estadístico
contraste bilateral de la hipótesis de igualdad de medias H0: β1 = 0 mediante el
controles
y (xi = 0).
el contraste
estadístico El IC de
bilateral al 95% para la de
la hipótesis diferencia
igualdadde
demedias
mediassubyacente viene
H0: β1 = 0 mediante
dado por
el estadístico b1 − 0,11
t= = = − 6,35
SE (b1 ) 0,017
b1 ± t999;0,975
resulta en un valor P = 2P(tSE(b1≤) – 6,35)
= b-0,11 ≈±−2F(– 6,35)
1,96⋅0,017
0,11 <= 0,001.
(-0,14;Así,
-0,08)
los casos de infarto de
t=
999 1
= = -6,35
miocardio
resulta en unpresentan
valor Pun = 2nivel
P(t999medio
≤SE (bde
-6,35) colesterol
1) ≈ 0 ,017 HDL
2Φ(-6,35) significativamente
< 0,001. Así, los casos inferior
de que los
sujetos libres de la enfermedad (P < 0,001), con una diferencia
y el contraste bilateral de la hipótesis de igualdad de medias H0: β1 = 0 mediante estimada en 0,11 mmol/l
(IC al 95%
infarto 0,08-0,14presentan
de miocardio mmol/l). un Notar,
nivelpormedioúltimo, que estos HDL
de colesterol resultados son exactamente
resultaaen
iguales los valor P =mediante
unobtenidos 2P(t999 ≤ -6,35)
el test ≈de2Φ(-6,35)
la t de < 0,001.
Student Así,muestras
para los casosindependientes
de
el estadístico
con igual varianza (Ejemplos
significativamente inferior que6.7 losy sujetos
6.8). libres de la enfermedad (P < 0,001),
infarto de miocardio presentan un nivel medio de colesterol HDL
b1 − 0,11
con una diferencia estimadat =en 0,11 mmol/l
= libres (IC=al-6,35
95% 0,08−0,14 mmol/l). Notar,
significativamente inferior queSE los(bsujetos
) 0 ,017 de la enfermedad (P < 0,001),
10.4 REFERENCIAS 1
con una diferencia estimada en 0,11 mmol/l (IC al 95% 0,08−0,14 mmol/l). Notar,
10.4 REFERENCIAS
Correlación y regresión lineal simple
3. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury
Press, 2002.
4. Colton T. Estadística en Medicina. Barcelona: Salvat, 1979.
5. Conover WJ. Practical Nonparametric Statistics, Third Edition. New York: John Wiley
& Sons, 1999.
6. Draper NR, Smith H. Applied Regression Analysis, Third Edition. New York: John Wiley
& Sons, 1998.
7. Kleinbaum DG, Kupper LL, Nizam A, Muller KE. Applied Regression Analysis and
Other Multivariable Methods, Fourth Edition. Belmont, CA: Duxbury Press, 2008.
8. Peña D. Estadística: Modelos y Métodos, Volumen 2, Modelos Lineales y Series
Temporales. Madrid: Alianza Editorial, 1987.
9. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press,
2006.
10. Seber GAF, Lee AJ. Linear Regression Analysis, Second Edition. New York: John Wiley
& Sons, 2003.
11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State
University Press, 1989.
12. Stuart A, Ord JK, Arnold S. Kendall’s Advanced Theory of Statistics, Volume 2A, Classical
Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.
13. Weisberg S. Applied Linear Regression, Third Edition. New York: John Wiley & Sons,
2005.
192 Pastor-Barriuso R.
TEMA 11
11.1 INTRODUCCIÓN
En el Tema 10 se presentó la regresión lineal simple como una herramienta para analizar la
relación lineal entre una variable respuesta continua y una única variable explicativa. En la
práctica, sin embargo, suele contarse con más de una variable explicativa y el interés se centra
en estudiar la relación de cada una de las variables explicativas con la variable respuesta,
teniendo en cuenta a su vez las restantes variables explicativas. De este tipo de problemas se
ocupa la regresión lineal múltiple.
En presencia de múltiples variables explicativas asociadas con la variable respuesta, la
utilización de distintos modelos de regresión lineal simple para cada variable explicativa da
lugar a estimaciones imprecisas y a menudo sesgadas de las asociaciones subyacentes con la
variable respuesta. Para ilustrar este hecho, la Figura 11.1 presenta los diagramas de dispersión
entre una variable respuesta Y y una variable explicativa X1, diferenciando mediante puntos y
círculos los valores de otra variable explicativa dicotómica X2. En la Figura 11.1(a), la variable
explicativa X2 está asociada con la variable respuesta Y (los valores de Y tienden a ser mayores
en uno que en otro grupo de X2), pero no con la variable explicativa X1 (los valores de X1 se
distribuyen por igual en ambas categorías de X2). Si se ignora la variable X2 y se ajusta un
modelo de regresión lineal simple entre X1 e Y a toda la nube de puntos (línea gruesa), se
obtiene la misma pendiente que al ajustar distintas rectas para cada valor de X2 (líneas finas)
y, en consecuencia, la asociación entre X1 e Y no estará confundida por X2. No obstante, la
varianza residual alrededor de la recta de regresión es mayor al ignorar la variable explicativa
X2, lo que ocasionará un mayor error estándar en la estimación de la pendiente. Por el contrario,
en la Figura 11.1(b), la variable explicativa X2 está asociada de forma independiente con la
variable respuesta Y y con la variable explicativa X1 (para valores fijos de X1 o Y, los valores
de la otra variable difieren según categorías de X2). La pendiente de la recta de regresión
simple entre X1 e Y (línea gruesa) sobreestima el efecto independiente de X1 sobre Y cuando X2
permanece constante (líneas finas). Esto es debido a que las variables explicativas X1 y X2
están correlacionadas y la regresión lineal simple estimará los efectos confundidos de ambas
variables al no poder discernir entre el efecto independiente de X1 y el efecto inducido por su
asociación con X2.
La principal conclusión del ejemplo anterior es que, si las variables explicativas están
relacionadas entre sí, lo que sucede con cierta frecuencia, la regresión lineal simple puede
proporcionar estimaciones sesgadas de las asociaciones subyacentes de cada variable
explicativa con la variable respuesta. Por ello, los efectos de distintas variables explicativas
deben estudiarse conjuntamente mediante modelos de regresión lineal múltiple. Estos modelos
son una extensión de la regresión lineal simple a la presencia de dos o más variables explicativas,
que pueden ser tanto continuas como categóricas. Como veremos a continuación, la regresión
lineal múltiple permite estimar el efecto independiente de cada variable explicativa,
manteniendo constantes las restantes variables incluidas en el modelo. Su utilidad en los
análisis epidemiológicos es, por tanto, directa ya que facilita estimaciones ajustadas del efecto
de cada variable explicativa.
Pastor-Barriuso R. 193
11.2 lineal
Regresión ESTRUCTURA
múltiple DE LA REGRESIÓN LINEAL MÚLTIPLE
puede expresarse como una combinación lineal de las variables explicativas X1, ..., Xp;
es decir, para valores fijos x1, ..., xp de estas variables explicativas, el valor esperado de
y
la variable respuesta es
puede expresarse como una combinación lineal de las variables explicativas X1, ..., Figura Xp; 11.1
una unidad en Xj, manteniendo constantes el resto de variables explicativas, p
11.2 ESTRUCTURA DE LA REGRESIÓN LINEAL MÚLTIPLE
es decir, para valores E(Y|xfijos x1x, p...,
1 , ..., ) =xβp 0de
+ estas
β 1 x1 +variables p = β 0 + βelj x
… + β p xexplicativas, valor
j .
esperado de
El modelo de regresión
E(Y|x1 , ...,lineal
xj-1, xjmúltiple
+ 1, xj+1,asume..., xp ) -que , ..., xp )de la variable respuesta Y puede
la 1media
E(Y|x j =1
la variable
expresarse respuesta
como es
una combinación lineal de las variables explicativas X1, ..., Xp; es decir, para
valores fijos x1, ...,β0xpcorresponde
La constante =deβestas
0 + β 1variables
x1 +al… +explicativas,
valor β j-1 deel
xj-1 + β j(x
esperado Yvalor
j + 1) + esperado
cuando xj+1 +de
β j+1todas …lavariables
las +variable
β p xp respuesta es
p
E(Y|x ...,βx1 xp)1 =+ β…
(β10, +
explicativas son 0,- E(Y|0, …, 0) =0 β+0 +
+ ββ1pxx1p )+=…β j+ β j x j que
β10 + …. +β pβxpp0==ββ00;+mientras .
j =1
cada
La Así,
constante
coeficiente β0decorresponde
los coeficientesregresión βalj determina
de regresión valor esperado
asociados a de
el cambio cada Yesperado
cuando en
variable todas lascada
Y por
explicativavariables explicativas
noincremento
pueden de
estar
son 0, E(Y|0, …, 0) =
La constante β0 corresponde β 0 + β 1 0 + … + β 0 =
al valor pesperadoβ 0 ; mientras que cada coeficiente
de Y cuando todas las variables de regresión βj
determina
una unidad
confundidos el cambio
porXlas
en esperado
j, manteniendo
demás variables en Y porexplicativas,
cadaelincremento
constantes restoyadeque deéstas
variables unidad en Xconstantes.
unapermanecen
explicativas, j, manteniendo
constantes el resto de variables explicativas,
explicativas son 0, E(Y|0, …, 0) = β0 + β10 + … + βp0 = β0; mientras que cada
En este sentido, E(Y|xy 1a, diferencia
..., xj –1, xj +de1,laxjregresión
+1, ..., xp ) –simple,
E(Y|x1 ,los..., coeficientes
xp ) de regresión lineal
coeficiente de regresión βj determina el cambio esperado en Y por cada incremento de
= β 0 + β 1 x1 + … + β j –1 xj –1 + β j(xj + 1) + β j+1 xj+1 + … + β p xp
múltiple facilitan el efecto independiente de cada variable explicativa sobre la variable
una unidad en Xj, manteniendo– ( β 0 + β 1 x1 constantes
+ … + β p xpel) =restoβ j. de variables explicativas,
respuesta ajustando o controlando por posibles diferencias en la distribución de las
Así, los coeficientes de regresión asociados a cada variable explicativa no pueden estar
confundidos por E(Y|x , ..., xj-1variables
las 1demás , xj + 1, xexplicativas,
j+1, ..., xp) - E(Y|x 1, ...,
ya que xp) permanecen constantes. En este
éstas
restantes variables explicativas incluidas en el modelo.
sentido, y a diferencia de la regresión simple, los coeficientes de regresión lineal múltiple
Así, los coeficientes de regresión asociados a cada variable explicativa no pueden estar
= β0 + β1 x1 + …
facilitan el efecto independiente βj-1xj-1variable
de+ cada + βj(xj +explicativa
1) + βj+1xj+1sobre
+ … +laβvariable
p xp respuesta
Para completar la estructura general de la regresión lineal múltiple, se asume que los
ajustando o controlando por posibles diferencias en la distribución de las restantes variables
confundidos por las demás variables explicativas, ya que éstas permanecen constantes.
explicativas incluidas-en (βel+modelo.
β1x1 + …respuesta
+ β p x p ) = β j.
valores individuales de0 la variable se distribuyen normalmente alrededor del
Para completar
En este sentido,layestructura
a diferencia general
de lade la regresión
regresión simple,lineal
losmúltiple, se asume
coeficientes que loslineal
de regresión valores
individuales
valorlos
Así, de la definido
esperado variable
coeficientes respuesta
por
de regresión se distribuyen
la ecuación
asociados a cadanormalmente
de regresión, alrededornodel
variable explicativa valor estar
pueden esperado
múltiple
definido la ecuación
por facilitan de regresión,
el efecto independiente de cada variable explicativa sobre la variable
confundidos por las demás variables explicativas, ya que éstas permanecen constantes.
Y|x1 , ..., xp ~ N(β 0 + β 1 x1 + … + β p xp , σ 2),
orespuesta ajustando o controlando por posibles diferencias en la distribución de las
equivalentemente
o equivalentementey a diferencia de la regresión simple, los coeficientes de regresión lineal3
En este sentido,
restantes variables explicativas incluidas en el modelo.
múltiple facilitan el efecto independiente Y = β 0 + β 1 xde1 + … + β p xp + ε ,
cada variable explicativa sobre la variable
Para completar la estructura general de la regresión lineal múltiple, se asume que los
194 respuesta
donde el error
Pastor-Barriuso ajustando
R. o controlando
aleatorio ε en la variable por posibles
respuesta diferencias
sigue unaendistribución
la distribución
normal de las
con
valores individuales de la variable respuesta se distribuyen normalmente alrededor del
restantes
media 0 yvariables
varianzaexplicativas
σ 2 para cualquier incluidas
valoren de el modelo.
las variables explicativas. De esta
valor esperado definido por la ecuación de regresión,
Estructura de la regresión lineal múltiple
donde el error aleatorio ε en la variable respuesta sigue una distribución normal con media 0 y
varianza σ 2 para cualquier valor de las variables explicativas. De esta especificación del modelo
de regresión lineal múltiple, se desprenden las siguientes asunciones:
yy Linealidad: El valor esperado de la variable respuesta Y cambia linealmente con cada
variable explicativa Xj, de tal forma que para valores fijos de las demás variables
explicativas, cambios de magnitud constante a distintos niveles de Xj se asocian con un
mismo cambio en la media de Y.
yy Aditividad: El efecto conjunto de varias variables explicativas sobre la variable respuesta
es la suma de sus efectos independientes.
yy Homogeneidad de la varianza: La varianza de la variable respuesta permanece constante
para cualquier valor de las variables explicativas.
yy Normalidad: Dados unos valores fijos de las variables explicativas, la variable respuesta
se distribuye de forma normal.
En el caso de dos variables explicativas, estas asunciones pueden representarse mediante el
gráfico tridimensional de la Figura 11.2. Debido a las hipótesis de linealidad y aditividad, los
valores esperados de Y para cualquier combinación de X1 y X2 se sitúan en el plano definido por
la ecuación de regresión β0 + β1x1 + β2x2. Asimismo, por las asunciones de homogeneidad de la
varianza y normalidad, los valores individuales de Y para cualquier combinación de X1 y X2 se
distribuyen de forma normal y con la misma varianza alrededor de dicho plano de regresión.
Las hipótesis de linealidad y homogeneidad de la varianza se evaluarán utilizando procedimientos
de diagnóstico gráfico similares a los empleados en regresión lineal simple. Las desviaciones
de la asunción de aditividad se explorarán, por su parte, mediante la inclusión de términos de
interacción entre las variables explicativas.
Plano de regresión:
Y E(Y|x1, x2) = 0 + 1x1 + 2x2
0 + 1xj1 + 2xj2
0 + 1xi1 + 2xi2
xi1 xj1
xj2 X1
xi2
X2
Figura 11.2 Asunciones subyacentes al modelo de regresión lineal múltiple con dos variables explicativas.
Pastor-Barriuso R. 195
• individuales sobre
Independencia la variable
lineal respuesta explicativas:
de las variables serían indiscernibles.
Ninguna variable explicativa
Regresión lineal múltiple
es una combinación lineal exacta de las demás ya que, en tal caso, sus efectos
Ejemplo 11.1 Supongamos que un modelo de regresión lineal múltiple incluye
individuales
A estas sobre la variable respuesta serían indiscernibles.
comoasunciones, análogas a las
variables explicativas la utilizadas en regresión
presión arterial lineal
sistólica X1 ysimple, se añaden
la presión arterialdos nuevas
condiciones necesarias para poder estimar la ecuación de regresión:
yy Independencia
Ejemplo X2, Supongamos
diastólica11.1 lineal de lasque
variables explicativas:
un modelo de regresiónNinguna
lineal variable
múltipleexplicativa
incluye es una
combinación lineal exacta de las demás ya que, en tal caso, sus efectos individuales sobre
lacomo
variable respuesta
variables serían indiscernibles.
explicativas laY presión sistólica X1 y la presión arterial
= β 0 + βarterial
1 x1 + β 2 x2 + ε .
Ejemplo 11.1
diastólica X2, Supongamos que un modelo de regresión lineal múltiple incluye como
Si se añade además la la
variables explicativas presión delarterial
presión pulso,sistólica
definidaXcomo la diferencia entre la
1 y la presión arterial diastólica X2,
196 Pastor-Barriuso R.
coeficientes de regresión β0, β1, …, βp se obtienen mediante el método de mínimos
Estimación e inferencia de la ecuación de regresión
cuadrados a partir de una muestra de n observaciones (yi, xi1, …, xip) mutuamente
independientes. En concreto, tal y como se muestra en la Figura 11.3 para dos variables
11.3.1 Estimación de los coeficientes de regresión
explicativas, se trata de estimar los valores b0, b1, …, bp que minimicen la suma de
Al igual que en regresión lineal simple, las estimaciones puntuales b0, b1, …, bp de los coeficientes
de regresión β0, β1, …, βp se obtienen mediante el método de mínimos cuadrados a partir de
una cuadrados
muestra de de los errores o residuos
n observaciones ei x= y) i mutuamente
(yi, xi1, …, ip
- ŷ i , que corresponden a las En
independientes. distancias
concreto, entre
tal y
como se muestra en la Figura 11.3 para dos variables explicativas, se trata de estimar los valores
b0, blos valores observados yi de la variable respuesta y los correspondientes valores
1, …, bp que minimicen la suma de cuadrados de los errores o residuos ei = yi – ŷi, que
corresponden a las distancias entre los valores observados yi de la variable respuesta y los
estimados o predichos
correspondientes por la ecuación
valores estimados de regresión
o predichos ŷ i = b0 +debregresión
por la ecuación 1xi1 + … +ŷib=pxbip0, + b1xi1 + …
+ bpxip,
n n n
SSE = ei2 = ( y i − yˆ i ) 2 = ( y i − b0 − b1 xi1 − ... − b p xip ) 2.
i =1 i =1 i =1
Para estimar los coeficientes de regresión que minimizan esta suma de cuadrados del error,
se calculan las derivadas parciales de SSE respecto a b0, b1, …, bp y se igualan a cero, resultando
[Figura 11.3 aproximadamente aquí]
el sistema de p + 1 ecuaciones lineales
∂SSE n n
= −2 ei = −2 ( y i − b0 − b1 x i1 − ... − b p x ip ) = 0,
Para estimar los
∂b0 coeficientes
i =1
de regresión
i =1
que minimizan esta suma de cuadrados del
∂SSE n n
= −2las
error, se calculan i = −2 x ij ( y i − b0 − b1 x i1 − ... − b p xip ) 0= 0,
xij ederivadas parciales de SSE respecto a b , b1, …, bpj = y se igualan
1, …, p. a
∂b j i =1 i =1
Apéndice al final del tema se derivan las fórmulas matriciales para calcular b0, b1, …, bp
(xi1, xi2, yi) Plano de regresión estimado: 7
y yˆ = b0 + b1 x1 + b2 x2
que, bajo las asunciones de linealidad y aditividad, son estimadores insesgados de los
incorrelacionadas, sus coeficientes estimados por regresión múltiple coinciden con los
ficientes de regresión β0, β1, …, βp. En el caso particular de dos variables explicativas, puede comprobarse que es
s, puede comprobarse que estos estimadores vienen dados por
que, bajo las asunciones de linealidad y aditividad, son estimadores insesgados de los
licativas, puedeRegresión comprobarse lineal múltiple que estos estimadores vienen dados por ry
r − r r s b1 =
coeficientes yx de yx regresión
2 x1 x 2 y β0, β1, …, βp. En el caso particular de dos variables
b1 = 1 ,
1 − rxr1 xyx2 1 − rsyxx21rx1 x2 s y
2
explicativas,
regresión β0, βb1,1 puede= β .comprobarse
…, p1 −Enr 2el casos particular , estosdeestimadores
que dos variables vienen dados porpuede comprobarse
explicativas, ry
x1 x 2 x
e XX11eeYY rryxyx1 1(como
re (como
que ocurre ocurre
estos en
en regresión
ryxregresión
estimadores − r r lineal
lineal
vienen s simple),
simple),
dados 1
porsino sinotambiéntambiénde desus sus b2 =
yx1 x1 x 2 y
entre X1 e Y ryx11 (como b2 = ocurre 2
en2 regresión, lineal simple), r −sino r rtambién s de sus
1 − rxr1yxx22 − rsyxx12rx1 x2 s y b1 = yx1 yx2 x1 x2 y ,
pectivas correlacionescon
ectivas correlaciones conlalavariablevariable
b2 = X X rr
22 yxyx2 2 y y r r .
x1xx1 2x2 ,. 1 − rx1 x22
s x1
1 − rx21 x2 s x2 b0 = y
respectivas correlaciones con la variable X2 ryx22 y rx11x22 .
b0 = y - b1 x1 - b2 x 2 . r 22
2yx − r r s
b2 =σσ de delalayxvariable
1 x1 x 2 y
Unavez
Una vezestimada
estimadalalaecuación ecuaciónde deregresión,
regresión,lalavarianza varianza variable respuesta
respuesta
,
b0 = y - b1 x1 - b2 x 2 . 2
1 − rx21 x2 s x2 De estas expresiones se deduce que, si l
Una vez estimada la ecuación de regresión, la varianza σ de la variable respuesta
xpresiones
ededor
dedor de se deduce
dedicha
dicha ecuación
ecuación que,se siestima
se las variables
estima mediante
mediante explicativas varianza
lalavarianza X1 residualX2 están
yresidual
b0 = y − b1 x1 − b2 x 2 . incorrelacionadas rx1 x2 = 0, las estimaci
estas alrededor
expresiones de dicha ecuación
se deduce que,sesiestima las variablesmediante la varianza
explicativas X1residual
y X2 están
onadas rx1 x2 = 0, Delas estimaciones dese
estas los coeficientes que, si de lasregresión
variables múltiple se X y X están incorrelacionadas
SSE expresiones
SSE 11 nndeduce explicativas
22
22 1 2
orrelacionadas s =
s = r = 0,, las =
= estimaciones ( y
( ydeii− −
los b −
b00coeficientes b x − ... −
− b11x i1i1 − ... −deb pregresión b x
px ipip) ,) , múltiple se reducen a b1 = ryx1 s y / s x1 y b2 = ryx2 s y /
n1n−2−2 pp−−11SSE
x x nn−− pp−−11i =i1=11 n
b1 = ryx1 s y / s x1 y bs2De == estas / s x2 ,=,que
ryx2 s yexpresiones
n − p − 1
queson
n −
son
p
seiguales
−
iguales
1
deduce ( yai alas −las
que, bobtenidas
0 si − blas 1 x ivariables
obtenidas 1 − en...en b pexplicativas
− regresión
regresión 2
x ip ) simple , (véase
X1 y XApartado
2 están
10.3.1). Por
ucen a b1 = ryx1 stanto, cuando las variables explicativas están incorrelacionadas, sus coeficientes estimados por10.3.1). Por tan
i = 1
y / s x1 y b2 = r yx2 s y / s x 2 , que son iguales a las obtenidas en regresión
simple (véase Apartado
nde
de la
la suma
suma
ase Apartado 10.3.1). de
de cuadrados
regresión
cuadrados del
múltiple
del
incorrelacionadas error
error
Por tanto, cuando SSE
coinciden
SSE sese
rx1 x2las divide
divide
= variables con por
por
0, las estimaciones los nn - - pp
obtenidos
-
explicativas -1 1 yaya que,
de
que,
de están una
distintas
una vezvez regresiones
los coeficientes de regresión múltiple se simples para cada
donde variable
laApartado
suma de explicativa.
cuadrados del Por
errorcuandoel
SSE contrario,
selas divide cuando las
por nexplicativas
-lineal variables
p - 1 simple),
ya que, explicativas
una vez están correlacionadas,
incorrelacionadas, sus coeficientes estim
ple
mados
mados (véase los
los pp + + 11
sus 10.3.1).
entre
coeficientes
efectos
coeficientes e de Y
X1 ajustados
Por
de rregresión,
yxtanto,
(como
regresión, mediante ocurre
loslos n n envariables
errores
regresión
errores regresióno o desviaciones
múltiple
desviaciones pueden de de están
lala sino
variable
diferir
variable también
notablemente de susde sus efectos
onadas, sus coeficientes estimados
a b1 = las
1
por regresión
ryx1restantes
s y / s x1 y variables múltiple
b2 = ryx2 sexplicativas. coinciden con los
crudos reducen ignorando y / s x 2 , que son Así,iguales por ejemplo, a las obtenidas la relación en de regresión
la variable
estimados
orrelacionadas, lossusp + 1 coeficientes
coeficientes estimadosde regresión,
por los
regresión n errores
múltiple o desviaciones
coinciden con de la
los obtenidos
variable de distintas regresiones simpl
puesta
deuesta respecto
respecto
distintas aa la
explicativa
la
regresiones ecuación
ecuación
respectivas
simples X 1dedecon regresión
la
regresión
correlaciones
para variable
cada contienen
contienen
con
variable respuesta
la n n -
variable -p
explicativa. p
Y -- 1 1
X grados
ajustando
grados
r
2 Por y dede
por
yx2 el x1 x2 r libertad.
la
libertad.
. variable Bajo
Bajo X 2 se estima mediante el
como ocurre encoeficiente regresión
simple lineal
(véase simple),
Apartado sino10.3.1). también Por detanto,sus cuando las variables explicativas están
entre X e Y r
respuesta respecto de regresión
a la ecuación múltiplecontienen
de regresión b1, que depende n - p - 1 no grados sólo de delibertad.
la correlación Bajo entre
contrario, cuando yx1 (comoexplicati
X11 las variables ocurre e
enidos
hipótesis de distintas
de linealidad, regresiones
aditividad simples para
yyhomogeneidad
homogeneidad cada variable
de explicativa. Por el
hipótesis
cuando lasde linealidad,
(comoexplicativas
variables Unaaditividad
ocurre vezenestimadaregresión
están la lineal
correlacionadas,
ecuación simple),dedelala susvarianza,
varianza,
sino
regresión, también
efectos lalala varianza
varianza
ajustados
varianzade susσrespectivas 2
de la variable correlaciones
respuestacon la
laciones con la variable
las2hipótesis incorrelacionadas,
de linealidad, X2 ryx2aditividad sus coeficientes estimados
y rx1 x2 .. y homogeneidad de la varianza, la varianza mediante respectivas por regresión múltiple coinciden con los múltiple pueden dife
regresión
trario, 2cuando las variables explicativas están correlacionadas, 2sus 2 efectos ajustados correlaciones con l
idual
dual
egresión ss es esmúltiple
unestimador
un estimador
pueden
Una
alrededor
insesgado
insesgado
diferir
vez estimada del
del
notablemente
dichalaecuación
de distintas
parámetro
parámetro
ecuaciónsedeestima de poblacional
poblacional
sus efectos
regresión, medianteσσ .
crudos .
la varianza la varianza σ de la
2
variable respuesta alrededor
residual
2 obtenidos de regresiones
2 simples para cada 2 variable explicativa. Por el
ignorando lasUna restantes variables explica
ada residual
la s
ecuación es
de un
de estimador
regresión,
dicha ecuación lainsesgado
varianza
se estima
diante regresión múltiple pueden diferir notablemente de sus efectos crudos σ
del parámetro
de
mediante la variablela poblacional
respuesta
varianza σ
residual . vez estimada la ecuaci
las restantes variables explicativas. Así, por ejemplo, la relación de la
Ejemplo11.2
Ejemplo 11.2En En contrario,
elelEjemplo
Ejemplo cuando 10.7
10.7 2 selas
seestudióSSE antioxidantes
variables
estudió explicativas
lalarelación
relación 1 del en
del el riesgo
n están
índice
índice de demasa de
correlacionadas,
masa desarrollarsus unefectos
variable
primer ajustados
infarto agudo de miocardio e
explicativa X con la variable re
orando las restantes variables explicativas. Así, por ejemplo,la relación
a ecuación se estima mediante la varianza residual 2
s = = ( y i − b −
0 de1 la b x i1 − ... − b x
p ip ) , alrededor de1dicha ecuación se
plicativaEjemploX1 con la11.2 En elrespuesta
variable Ejemplo Y10.7 n ajustando
− pse−hombres 1 npor
estudió − la padultos.
la − 1 i =1 Los
relación
variable del índice
X2valores
se estima de masa
obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84
corporalcon
corporal mediante
conelelcolesterol
colesterolHDL regresión
HDLutilizando múltiple
utilizando ununpuedenmodelodiferir
modelo deregresión
de notablemente
regresión linealsimple.
lineal de
simple.sus efectos crudos
Y ajustando mediante el coeficiente de regresión mú
able SSE explicativadonde X11 con la la n variable
suma respuestadel
de cuadrados error SSE por la variable
se divide por n X–2pse– estima 1 ya que, una vez estimados los
l=coeficiente
nNo
No
corporal
de
p − 1 npexisten
obstante,
−obstante,
con
regresión
= +ignorando
existen
el colesterol
1−coeficientes
− pdonde otros
1otros
múltiple
la( ysuma
ilas
muchos
muchos 0de
HDL
b
− brestantes 1 , que
cuadrados
utilizando
depende
b1 x i1 variables
− regresión, − ...1,06,
determinantes
determinantes
−los
del
un
no
b p nxerror
0,87, modelo
2sólo de la
) ,SSE
iperrores
explicativas.
dede los
los 1,96 o se
niveles
niveles
de regresión
correlación
ydesviaciones
1,53
divide
Así,
dede mmol/l.
por por
lineal
nde-La
ejemplo,
colesterol
colesterol plaHDL
HDL
simple.
-media
variable
1laya de respuesta
que,
relación los unaniveles
de del colesterol
la respecto
vez as2 = HDL en=
SSE
diante el coeficiente la ecuación
i =1
de regresión de regresión múltiple b1, que depende
contienen n – p – 1 no gradossólo de de libertad.
la correlación 8 Bajo lasHDL hipótesis de linealidad, n − p −1
No obstante, existen otros muchos determinantes de los niveles de colesterol
como,por
como, aditividad
porejemplo,
ejemplo, estimados
variable yexplicativa
elelconsumo homogeneidad
consumo los p de X
+de1alcohol.
1 con
alcohol. de estos
coeficientes laPara
Para varianza,
variable 10
de participantes
laelel
regresión,
obtener
obtener varianza
respuesta efecto
efecto losYes errores so2por
residual
najustando
independiente
independiente es un
desviaciones estimador
la variable X2la
de insesgado
estima del
sevariable
8
cuadrados del parámetro error SSE se divide porσn.- p - 1 ya que, una vez
poblacional 2
donde la suma de cuadrados de
como, por ejemplo, el consumo de alcohol. Para obtener el efecto independiente
dedecada
cadauno unode mediante
deestosrespuesta
estos el
determinantes,
determinantes, coeficiente
respecto ase se de regresión
la podría
ecuación
podría ajustar
ajustar múltiple
de regresiónunmodelo
un modelo bcontienen
1
1 , que
dede depende
regresión
10 regresión n - p -no 1 sólo
grados
0,89 + 1,58 + ... + 1,53 de dela correlación
libertad. Bajo
1 coeficientes de regresión,
de cada uno Ejemplo
los n errores
11.2 En el Ejemplo
de estos determinantes,
o desviaciones
se podría 10.7ajustar de x
la
se estudió =
variable
un10
x
la relación
modelo
i =1
i =
de regresióndel índice 10 de masa
= 1,223
corporallos
estimados
mmol/l.
con
8 p + 1 coeficiente
linealmúltiple
lineal múltiplecon lasel
con elhipótesis
elcolesterol
colesterol
colesterol deHDL linealidad, comoaditividad
HDLutilizando
como variable
variable un modelo y homogeneidad
respuesta
respuesta de yregresión
yelelíndice índice delineal
dela
demasavarianza,
masa simple. la Novarianza
obstante, existen
o a la ecuación de regresión otros contienen n - p - 1 grados de libertad. Bajo
lineal múltiple conmuchos determinantes de los
2el colesterol HDL como variable respuesta y el índice de 2masa
niveles de colesterol HDL como, por ejemplo,
respuesta el a la ecuació
respecto
corporalyyelelconsumo
corporal residual
consumo consumo desalcohol
de esde
alcohol un alcohol.
estimador
comovariables
como variables insesgado
Para obtener del
explicativas.
explicativas. parámetro
el efecto
La media aritmética presenta las siguientes propiedades: poblacional
independiente σ .
de cada uno de estos
nealidad, aditividad ydeterminantes, homogeneidadsedepodría la varianza, ajustar launvarianza
modelo de regresión lineal múltiple con las el colesterol
hipótesis de linealidad, adit
corporal y el consumo de alcohol como variables explicativas.
EnEnnn==449 449controles
controles HDL delcomo
del estudio
estudio variable
EURAMIC
EURAMIC respuesta
• Cambio
con
con y el
datos
datos índice de
disponibles
disponibles masa de corporal
de estas
estas y el
de origen (traslación). Si se suma una constante a cada uno de los dato consumo de alcohol como
estimadorEn insesgado del
n = 449 controles
Ejemplo
parámetro
variables del
11.2 En el Ejemplo
poblacional
explicativas.
estudio EURAMIC σ 2. 10.7 se estudió la relación del índice de masa
con datos disponibles de 2estas residual s2 es un estimador ins
2
variables,lalamedia
variables, mediaEn yylala desviación
ndesviación
= 449 controles típicadel
típica fueron
fueronde unaxx1muestra,
estudio 1= =26,226,2yylassmedia
EURAMIC ==3,61
x1x1 con 3,61de kg/m
datos kg/m
la muestra
disponiblespararesultante
para de estas esvariables,
igual a la la media inicial má
corporal con el colesterol HDL utilizando un modelo de regresión 22
lineal simple.
variables, la media yy la la típica fueron x1 = 26,2 y s x11 == 3,61 3,61 kg/m kg/m para para el índice de masa
1.2 En el Ejemplo 10.7media se estudiódesviación la relación del índice de masa
elelíndice
índicede demasa
masacorporal,corporal,xx22 ==16,5
corporal, 16,5yyy ssxx2 2===21,8
16,5 constante 21,8g/día
21,8 utilizada;
g/díapara
g/día parael
para si y
elelconsumo
consumo
consumoi = x +
i de c
dedealcohol y y == 1,08
, entonces x + yc.sEjemplo
Un 0,29511.2
= cambio deEn el Ejem
origen qu
No obstante, existen otros muchos fue fuer determinantes
r = -0,091
= -0,091 y de
las
y los
las niveles
correlaciones
correlaciones de colesterol
de de
estasestas
y HDL
variables
variables explicativas
explicativas co
n el colesterol el índice HDL mmol/l
deutilizando
masa para
corporal, unelmodelo colesterol
x 2 = 16,5 HDL.
de regresión y s x22 El = 21,8coeficiente
lineal
x1 x2 x1 x2 de correlación de Pearson entre el índice de
g/día
simple. para el consumo de corporal con en el colestero
alcoholyy yy ==1,08
alcohol 1,08masa yysscomo, corporal
yy==0,2950,295 pormmol/l
y el consumo
mmol/l
ejemplo, para
para elseconsumo
elelrealiza de alcohol
colesterol
colesterol con HDL.
HDL.
de alcohol. fue El
frecuencia rEl == – 0,091
es -0,091
el centrado
2coeficiente
1 xcoeficiente
xPara obtener
yde
ydeellas
lasde
efecto
correlaciones
correlaciones
variable, de
la independiente deestas
que estas variables
consiste explica
restar a
e, existenalcohol otros muchos variables
determinantes explicativas de mmol/l
los nivelescon el colesterol
colesterol
colesterol
deelcolesterol HDLHDL
HDL HDL fueron
fueron fueron r r
yx1 yx1 = – 0,273
-0,273
= -0,273 y r
yy r =
yx2 yx2 0,232,
0,232,
= 0,232, respectivamente.
respectivament L
y y respectivamente.
= 1,08 y sy = 0,295 Las estimaciones para colesterol
losmuestra HDL.
coeficientes El coeficiente
de fueron
regresión de No obstante, existen otro
correlaciónde
correlación Pearsonde
dePearson cadaeleluno
entre
entre índice
índice de estos
dedemasa masacada
determinantes, valor deyyla
corporal
corporal elel podría su
colesterol
seconsumo
consumo ajustar
de
de media.
HDL un La
alcohol
alcohol modelo mediaryx1 múltiple
de=deregresión
-0,273 sey obtienen
una variable ryx2 =centrada será, por
0,232, respectiva
ejemplo, el consumo de entonces
de Pearson
alcohol. entre como
Para obtener elde efecto estimaciones
estimaciones
independiente de de loslos coeficientes
coeficientes de de
regresión
regresión múltiple
múltiple se se
obtienen
obtienenento
e
correlación el índicetanto, masaigual corporal
a 0. y el consumo de alcohol como, por ejemplo, el co
lineal múltiple con el colesterol HDL como estimaciones variablederespuesta los coeficientes y el índice de masa múltiple se obtie
de regresión
o de estos determinantes, se R.podría ajustar un modelo de regresión r r− r− rr r s s de cada uno
198 Pastor-Barriuso
• Cambio de escala (unidades). yx yx Si yx2 se x1 x29y9 y − 0−
x12x2multiplica ,273
0,273+ 0+,2320,232⋅ 0,⋅091
0datos0,de
,091 295 estos
0de,295 dete
= = cada uno de2 los una
yx
corporal y el consumo de alcohol comobvariables 1b =1 = 1 1explicativas. = -0,02
= -0
ple con el colesterol HDL como variable respuesta y el índice de masa 1 −1r−x1rxr2yxx1 x2− sryxx1 2srxx11x2 9s y 1 −−100−,,091
2 2 2
0,091
273 + 0,232 3⋅ 0,61 ,3091
,61 0,295
b = = lineal múltiple con el col
En n = 449 controles muestra por EURAMIC
una constante, conladatos media −de r 2la muestra resultante1 − 0es igual a la media
1
del estudio 1disponibles s de estas ,091 2
3,61
colesterolbHDL ryxfueron
− ryx2 rrx1x2 =s y-0,273 − 0,y273
ryx2+ =0,0,232,
232 ⋅ 0,respectivamente.
091 0,295 Las
1=
1
yx1 = = -0,0207,
2
1 − rx1x2 s x1 1 − 0,091 2
3,
Estimación 61
e inferencia de la ecuación de regresión
Pastor-Barriuso R. 199
explicativa sobre la variable respuesta, una vez controladas las posibles
g/día (aproximadamente una desviación típica) en la ingesta de alcoholPor se asocian
otro lado, para un mismo índ
corporal se asocia con una disminución media en el colesterol HDL de
diferencias en la otra variable explicativa. Por un lado, manteniendo constante el
con
Regresión unmúltiple
lineal aumento medio en el colesterol HDL de g/día (aproximadamente una des
consumo ŷ (xde1 +alcohol,
c1, x2) -cada
ŷ (xincremento
1, x2) = b0 +de b1c(x1 1=+3,50
c1) +kg/mb2x22 -en
(bel b1x1 +deb2masa
0 +índice x2 )
ŷ (x1, x2 + c2) - ŷ (x1, x2) = b0 + b1x1 + b2(x2 + c2) - (b0 + b1x1 + bcon 2x2)un aumento medio en el cole
Por un lado,
corporal se manteniendo
asocia con una constante
disminución b1 =media
=elc1consumo
3,50(-0,0207)
deen
alcohol, = -0,072.
cada
el colesterol HDL de de c1 = 3,50 kg/m2
incremento
en el índice de masa corporal se asocia con una disminución media en el colesterol HDL de
= c2b2 = 20⋅0,0028 = 0,056. ŷ (x1, x2 + c2) - ŷ (x1, x2)
Por otroŷ lado,
(x1 + para
c1, x2un
) −mismo
ŷ (x1, xíndice
2 ) = b 0 de
+ masa
b (x
1 1 corporal,
+ c 1 ) + b xincrementos
2 2 − (b0 + b x
1 1de
+ c
b 2x=
2 2 ) 20
Para 1b1 = 3,50(
= cinducido − 0,0207) = − 0,072.
g/díaevaluar el grado de confusión
(aproximadamente una desviación por
típica) el la
en consumo
ingesta dede alcohol
alcohol en la
se asocian
Porcruda
otro (una
lado,pequeña
para unparte
mismo índice
de la de masa
reducción corporal, incrementos
del colesterol HDL entre los c2 = 20
desujetos cong/día
asociación entre el índice de
el masa corporal y deel colesterol HDL, basta comparar el el grado de confusió
con un aumento
(aproximadamente medio
una en colesterol
desviación HDLen
típica) la ingesta de alcohol sePara evaluar
asocian con un
Por otro
aumento lado,
medio para un mismo índice de masa corporal, incrementos de c 2 = 20
sobrepeso no en
se el colesterol
debe a su mayorHDLíndice
de de masa corporal sino a un consumo de
coeficiente ajustado mediante regresión múltiple b1 = -0,0207 con el coeficiente asociación entre el índice de mas
ŷ (x1, x2 + c2) – ŷ (x
g/día (aproximadamente 1, xdesviación
una 2) = b0 + btípica)
1x1 + b2en c2) – (b0de+ alcohol
(x2la+ingesta b1x1 + bse 2x2asocian
)
alcohol ligeramente menor). No obstante, los efectos crudo y ajustado no difieren
crudo obtenido de una regresión =simple c2b2 =en 20la⋅ 0,0028
misma =muestra
0,056. de 449 controles
coeficiente ajustado mediante reg
con
Para un aumento
evaluar medio
elpequeña
gradopor en el
departe colesterol
confusión HDL
inducidode de
por el consumo de alcohol ensujetos
la asociación
substancialmente, lo que el reducción
consumo alcohol no parece ser unlosfactor de con
b1∗ cruda
= rel
entre
(una
yx1 síndice
y / s x1 =
de la
masa⋅0,295/3,61
de-0,273 corporal y=el-0,0222.
del
colesterolLacolesterol
razón
HDL,entre
HDL entre
bastaloscomparar
coeficientes
crudo el obtenido de una regresión
coeficiente
ajustado
Para ŷ mediante
(x1, xel
evaluar
confusión
sobrepeso +sec2regresión
2 grado ) -deŷ para
importante
no debe a(x múltiple
1, x
confusión
su la
mayor +b1b1=x1– 0,0207
= binducido
2) asociación
0índice bmasa
+por
entre
de 2(x con
c2)el- de
+corporal
el2 consumo
índice coeficiente
(b + crudo
+ alcohol
0de
masa
sino 1un 2x2)layobtenido
b1axcorporal
ben
consumo el de de
crudo y ajustadosimple en la misma muestra de 449 controles b1∗ = ryx1 s y / s x1 == -0,273⋅0,295/3
una regresión
asociación
colesterolentre
– 0,273 ∙ 0,295/3,61
HDL el en
alcohol ligeramente índice
los de masa
= – 0,0222. La
controles
menor). No corporal
= crazón
del 20⋅y0,0028
= entre
2b2 estudio
obstante, ellos
los colesterol
EURAMIC.= 0,056.
efectos HDL,
coeficientes
crudo bastay comparar
crudo ajustado
y ajustado el
no difieren
b1∗ − 0,0222 crudo y ajustado
coeficiente ajustado mediante
substancialmente, por lo queregresiónel=consumo múltiple b1 = -0,0207
de=alcohol
1,08 no parece conser
el un
coeficiente
factor de
Para evaluar el grado de confusión b1 inducido
− 0,0207por el consumo de alcohol en la
11.3.2 Inferencia sobre los coeficientes de regresión
crudo
indica obtenido nodeseuna
que, si importante
confusión regresión
ajusta simple ende
porlaelasociación
para consumo la misma
alcohol,
entre muestra de 449corporal
se sobreestima
el índice de masa controles
un 100(1,08y el – 1) = b1∗
asociación entre el índice de masa corporal y el colesterol HDL, basta comparar el
8%
En indica la que,
asociación
el∗ Apéndice seinversa
sialnofinal del tema
ajusta delse
por elíndice de masa
demuestra
consumo deque, corporal se con
bajo las
alcohol, el colesterol
asunciones
sobreestima de HDL. Esto es
unlinealidad,
100(1,08 b1
b1 colesterol
debido= ryxa1 sque / s el
HDL = -0,273
consumo
en los ⋅0,295/3,61
de alcohol
controles = -0,0222.
presenta
del estudio una La razón
leve
EURAMIC. entre
correlaciónlos coeficientes
negativa con el índice
coeficiente y
ajustado
x1
mediante regresión múltiple b1 = -0,0207 con el coeficiente
de
aditividad masa y corporal,
homogeneidad
- 1) = 8% la asociación lo queinversa
deinduce uníndice
la varianza,
del pequeño sesgocorporal
losdeestimadores
masa en ladeestimación
mínimos cruda (una
cuadrados
con el colesterol bpequeña
indicaHDL. j
que, si no se ajusta por el
parte de ajustadode una regresión simple en la misma muestra de 449 controles debe a su
la
crudo yobtenido reducción del colesterol HDL entre los sujetos con sobrepeso no se
mayor es índice
debidode masa corporal sino ade unregresión
consumo de
unaalcohol ligeramente
βj y correlación 2
v=jj menor). No
siguen
Esto
11.3.2 aproximadamente
Inferencia asobre
que una
ellos distribución
consumo
coeficientes de alcoholnormal con media
presenta leve varianza -σ1)negativa
en
8% la asociación inversa d
obstante, los efectos crudo y ajustado no difieren substancialmente, por lo que el consumo
b1∗ = ryx1 s y / s x1 = -0,273⋅0,295/3,61 b ∗ = 0-0,0222.
− ,0222 unLapequeño razón entre los coeficientes
Enconde
muestras alcohol no
el suficientemente
índice al
el Apéndice parece
definal
masadel ser un
corporal, factor
tema selodemuestra
grandes, 1 de confusión
=que induce que, importante
bajo
= 1,08 sesgopara
las asunciones en la
ladeasociación
estimación
linealidad, entre el
Esto es debido a que el consumo
índice de masa corporal y el colesterol b1 − 0HDL ,0207en los controles del estudio EURAMIC.
crudo y ajustado 11
aditividad y homogeneidadb de− la β varianza, los estimadores de mínimos cuadrados con el bj de masa corporal, l
índice
j j ~
11.3.2 indica Inferencia
que, si no sobre los coeficientes
se ajusta por → N de (0, regresión
1)de j = 0, 1, …,
, alcohol, p,
siguen aproximadamente una v jj b ∗consumo
el
σ distribución − 0 ,normal
0222 con
se sobreestima
media
un 100(1,08
βj y varianza σ 2vjj en
1
En el Apéndice = = 1,08 asunciones de linealidad, aditividad
- 1) = 8% al la final del tema
asociación se demuestra
inversa bdel
1 − 0,0207
índice que,
de bajo
masalas corporal con el colesterol HDL.
y homogeneidad de la varianza,
muestras suficientemente los estimadores de mínimos cuadrados bj siguen aproximadamente
grandes,
donde vjj es un valor conocido que depende del 2tamaño muestral y de las varianzas y
una distribución
Esto es debido normal conelmedia
a que consumo βj y de alcoholσ presenta
varianza vjj en muestras
una leve suficientemente
correlación negativa grandes,
indica que, si no se ajusta por el consumo de alcohol, se sobreestima un 100(1,08
covarianzas entre las variables b j − explicativas.
βj ~ Si se reemplaza el parámetro desconocido σ
con el índice de masa corporal, lo →que N (0induce
, 1) , jun = 0, 1, …, p,
pequeño sesgo en la estimación
- 1) = 8% la asociación inversa σ v jj del índice de masa corporal con el colesterol HDL.
por la desviación típica residual s, puede probarse que los estadísticos resultantes siguen 11
dondeEsto vjj es es
undebido
valor conocido que depende del tamaño muestral
a que el consumo de alcohol presenta una leve correlación negativay de las varianzas y covarianzas
aproximadamente
donde
entre vjj es un valor
las variables unaconocido
distribución
explicativas. Sique t de Student
depende
se reemplaza del con
el tamaño los nmuestral
parámetro - pdesconocido
- 1 grados
y de lasde libertad
σvarianzas
por y
la desviación
típica conresidual s, puede probarse que los estadísticos resultantes
el índice de masa corporal, lo que induce un pequeño sesgo en la estimación siguen aproximadamente una
correspondientes
distribución
covarianzas t deentre
Studenta la estimación de
con los nexplicativas.
las variables la desviación
– p – 1 grados típica
de reemplaza
Si se residual,
libertad correspondientes a la estimación
el parámetro desconocido σ
de la desviación típica residual, 11
por la desviación típica residual b j − βs,j puede~ t
probarse que los estadísticos resultantes siguen
→ n − p −1 , j = 0, 1, …, p.
aproximadamente una distribución s v jj t de Student con los n - p - 1 grados de libertad
Notar que estas distribuciones de los estimadores bj en muestras suficientemente grandes no
correspondientes
requieren de estas
la asunción a la estimación
de normalidad de la y,desviación
por tanto, típica residual,
Notar que distribuciones de los estimadores bj son válidas para
en muestras cualquier distribución
suficientemente
subyacente de la variable respuesta.
grandes no requieren de la basunción j − β j ~de normalidad y, por tanto, son válidas para
200 Pastor-Barriuso R. → t n − p −1 , j = 0, 1, …, p.
s v jj
cualquier distribución subyacente de la variable respuesta.
Utilizando estos resultados, los intervalosjj de confianza al 100(1 - α)% para los
los contrastes bilaterales de las hipótesis
variable explicativa H : β de
= 0ausencia de efecto
se realizan medianteindependiente de cada
los estadísticos
0 j
coeficientes de regresión βj vienen dados por
que H
ariable explicativa bajo dichas hipótesis nulas se distribuyen aproximadamente
0: βj = 0 se realizan mediante los estadísticos
como
Estimación una de
e inferencia t de Studentde regresión
la ecuación
Utilizando estos resultados, los intervalos bj de confianza al 100(1 - α )% para los
con n - p - 1 grados de libertad. t = ,
s v jj α /2 s v jj
bj ± tn-p-1,1-
coeficientes de regresión bβj j vienen dados por
Utilizando estos resultados,
t= , intervalos de confianza al 100(1 – α)% para los coeficientes
los
de regresión βj vienen dados s vporjj
Ejemplo
quey bajo
los dichas11.3
contrastes Los programas
bilaterales
hipótesis nulasdeselas estadísticos deconvencionales
hipótesis aproximadamente
distribuyen ausencia de efectofacilitan
como unadirectamente
independiente
t de Studentde cada
bj ± tn − p −1,1−α /2 s v jj
ue bajo dichas hipótesis
ycon las
- pestimaciones
variable
los nulas
- 1explicativa
ncontrastes grados depuntuales
sebilaterales
distribuyenH0:de
libertad. = 0de
las selos
βj aproximadamente coeficientes
realizan
hipótesis de mediante como
ausencia deunaregresión
los
de t de Student
estadísticos
efecto lineal múltipledey cada
independiente sus variable
explicativa H0: βj =bilaterales
y los contrastes 0 se realizan de mediante
las hipótesis los de estadísticos
ausencia de efecto independiente de cada
on n - p - 1 grados deerrores
libertad. estándar. Según la Tabla 11.1, los errores estándar de los coeficientes
Ejemplo 11.3 Los programas estadísticos bj
variable explicativa H t = convencionales
0: βj = 0 se realizan mediante los estadísticos
, facilitan directamente
estimados para el índice de masa corporal y
s v jj el consumo de alcohol son
Ejemplo 11.3 Loslasprogramas
estimaciones estadísticos
puntualesconvencionales
de los coeficientes facilitan directamente
de regresión lineal múltiple y sus
que bajo dichas hipótesis nulas se
respectivamente SE(b1) = s v11 = 0,0036byj SE(b2) = s v 22 =distribuyen aproximadamente como0,0006. unaPor t detanto,
Student con
n –que
las estimaciones p –puntuales
1 grados
bajo
errores dichas de hipótesis
estándar.
de libertad.
los Segúnnulas
coeficientes la Tabla sededistribuyen
11.1, t
regresión = los errores
lineal,
aproximadamente
estándar ydesus
múltiple loscomo una t de Student
coeficientes
s v jj
los ICs al 95% para estos coeficientes de regresión son
errores estándar. estimados
n - p -la1 Tabla
conEjemplo
Según para el
grados
11.3 deíndice
11.1,
Los losde
libertad.
programas masa estándar
errores corporal de
estadísticos y ellosconsumo
coeficientes
convencionales de alcohol son directamente las
facilitan
queestimaciones
bajo dichas hipótesis puntualesnulas de los coeficientesaproximadamente
se distribuyen de regresión lineal como múltiple
una t dey Student
sus errores
estimados para elestándar.
índice de b1Según
respectivamente ± t446;0,975
masa la (SE
b1)(=
corporal
SETabla b111.1,
ys) el
=v-0,0207
consumo
11 los= 0,0036
errores ± 1,97⋅0,0036
de y alcohol
SE (
estándar b2 ) son
= =
des (-0,0278;
v
los 22 = -0,0135),
0,0006.
coeficientes Por tanto,
estimados para el
Ejemplo 11.3 Los programas estadísticos convencionales facilitan directamente
coníndice - 1degrados
n - ppuede
Así, masa
afirmarse corporal
de libertad.
con una confianza y el consumo del 95% que deel nivel
alcohol medio son respectivamente
de colesterol
respectivamente SE ( b
los ICs ) = s
1 al 95%b 2 ±
v t = 0,0036SE ( b
11 para estos coeficientes
446;0,975 y 2 )
SE = (0,0028
b 2 ) = s ± v1,97⋅0,0006
=
de regresión
22 0,0006. son = (0,0016;
Por
Por tanto,
tanto, 0,0040),
los ICs al 95% para
las
estos estimaciones puntuales de son del estudio EURAMIC disminuye entre y sus
los coeficientes de regresión lineal múltiple
HDL coeficientes
en la población de regresión
de referencia
los ICs al 95% para Ejemplo
estos 11.3 Los programas deestadísticos convencionales facilitan directamente
queerrores
también bcoeficientes
±set446;0,975
1estándar.
incluyen SE de(bdentro
Según regresión
1 ) la= –Tabla
0,0207 son
los 11.1,±resultados
1,97⋅ 0,0036
los errores de la= Tabla
(– 0,0278;
estándar 11.1.
de –los Encoeficientes
general,
0,0135), el
3,50⋅0,0135 = 0,047 y 3,50⋅0,0278 = 0,097 mmol/l por cada incremento de c1 =
b2 ± t446;0,975puntuales
las estimaciones SE(b2 ) = de 0,0028 ± 1,97 ⋅ 0,0006
los subyacente
coeficientes = (0,0016;lineal 0,0040),
intervalo
SE(b1de
estimados
b1 ± t446;0,975 )2 =confianza
para el índice
-0,0207 ±para el
deefecto
1,97⋅0,0036 masa =corporal (-0,0278; cde
y el-0,0135),
regresión
βj asociado
jconsumo deaalcohol
múltipledeycsus
un aumento son j
que kg/m enseelincluyen
3,50también índice de dentromasade corporal
los resultados entre sujetos
de la Tabla con la11.1. misma En ingesta
general,de el intervalo
errores
unidades enestándar.
la variable Según lasubyacente
explicativa TablaX11.1, cjlos errores estándar de los coeficientes
de respectivamente
confianza para elSEefecto j se calcula como
βj asociado a=un aumento de cj unidades
b2 ± t446;0,975 SE
que también ( b ) = 0,0028
2 se incluyen dentro ± ( b1,97⋅0,0006
1 ) = s v == (0,0016;
0,0036 y 0,0040),
SE
de los resultados de la2 Tabla 11.1. ( b ) s v 22 =En 0,0006. Poreltanto,en la
general,
alcohol, explicativa
variable y que la media calcula 11
Xj sepoblacional como del colesterol HDL aumenta entre 20⋅0,0016
estimados para el índice de masa corporal y el consumo de alcohol son
intervalo
que también se incluyen los ICsde
= 0,032 dentro
95%
y 20⋅0,0040 decjlos
al confianza bj ±resultados
para tpara
estos
n − p −1,1
= 0,080 mmol/l
/2 SE(cjsubyacente
de labpor
el−coeficientes
α efecto
Tabla cj{11.1.
j ) = de
cada
bj ±ctjβ
regresión En−1,1
incremento
− α /2 SE(abun
n −jpasociado
son
general, de cel
j )}. aumento de cj
2 = 20 g/día en el
Así,respectivamente
puedeenafirmarse SEcon (b1una) = sconfianza v11 = 0,0036 del 95% y SEque (b2el s vmedio
) =nivel 22 = 0,0006. Por tanto,
de colesterol HDL en
unidades
intervalo de confianza para el la variable
efecto explicativa
subyacente c β X se
asociado
j calcula a como
un aumento de c
consumo
la población debalcohol
1de t446;0,975
± referenciaentre SEsujetosb1) estudio
(del = -0,0207
j con el
j ± 1,97⋅0,0036
mismo
EURAMIC índice de
disminuye= masa
(-0,0278; -0,0135),
corporal.
entre
j Estos = 0,047
3,50 ∙ 0,0135
los ICs al 95% para estos coeficientes
y 3,50 ∙ 0,0278 = 0,097 mmol/l por cada incremento de c1 = 3,50 kg/m en el índice dede regresión son 2
unidades en la variable
efectos
masa explicativa
independientes
corporal b2entre X setdel
± ctj446;0,975
bj sujetos
± calcula
SEíndice
n-p-1,1- (con como
bα2/2)SElade
= cmisma
jbmasa
(0,0028 j) = c± bj ± tn-p-1,1-
{1,97⋅0,0006
jcorporal
ingesta deyalcohol,
deα/2= SE(0,0016;
la (bjy)}.quede
ingesta la alcohol
0,0040),
media poblacional
13
del colesterol HDL aumenta entre 20 ∙ 0,0016
b1 ± t446;0,975SE(b1) = -0,0207 ± 1,97⋅0,0036 = (-0,0278; -0,0135), = 0,032 y 20 ∙ 0,0040 = 0,080 mmol/l por
sobre
cada
cjbque el colesterol
incremento
j ± tn-p-1,1- α/2SE de HDLc = son
20 muy
g/día significativos,
en el consumo ya de que sus
alcohol correspondientes
entre sujetos contest
el mismo
también se(cincluyen
jbj)2 cj{dentro
bj ± tn-p-1,1- de los α/2SE (bj)}. de la Tabla 11.1. En general, el
resultados
índice de masa corporal. Estos efectos
b2 ± t446;0,975SE(b2) = 0,0028 ± 1,97⋅0,0006 independientes del=índice
(0,0016; de 0,0040),
masa corporal y de la
estadísticos
ingesta de alcohol sobre el colesterol HDL son muy significativos, ya que sus
intervalo de confianza para el efecto subyacente cjβj asociado a un aumento 13 de cj
correspondientes test estadísticos
que también se incluyen dentro de los resultados de la Tabla 11.1. En general, el
b1 − 0,0207 como
unidades en la variablet explicativa = =Xj se calcula = − 5,68, 13
intervalo de confianza para el efecto SE ( b 1 ) 0 , 0036
subyacente cjβj asociado a un aumento de cj
cjbj ± tn-p-1,1-αb/22SE(cjb0j),0028 = cj{bj ± tn-p-1,1-α/2SE(bj)}.
unidades en la variable explicativa t= X=j se calcula = 4,68,
como
SE (b2 ) 0,0006
arrojan valores P bilaterales 2P(t446
cjbj ± tn-p-1,1- ≤ – 5,68) ≈ 2F(–5,68) < 0,001 y 2P(t446 ≥ 4,68) ≈
α/2SE(cjbj) = cj{bj ± tn-p-1,1-α/2SE(bj)}.
2{1 – F(4,68)} < 0,001, tal como muestra la Tabla 11.1.
arrojan valores P bilaterales 2P(t446 ≤ -5,68) ≈ 2Φ(-5,68) < 0,001 y 2P(t446 ≥ 4,68) 13
11.3.3 ≈ 2{1
Inferencia sobre
- Φ(4,68)} la ecuación
< 0,001, de muestra
tal como regresión
la Tabla 11.1.
13
La ecuación de regresión puede utilizarse para estimar el valor esperado de la variable respuesta
en función de los valores de las variables explicativas. Dados unos determinados valores x01, …,
11.3.3 Inferencia sobre la ecuación de regresión
Pastor-Barriuso R. 201
La ecuación de regresión puede utilizarse para estimar el valor esperado de la variable
nuevo
Ejemplo ŷ 011.5
= 1,58El- 0,0207⋅25 + 0,0028⋅20
valor predicho = 1,12HDL
del colesterol mmol/l.
paraSin
un embargo, el con un índice
nuevo sujeto
de masa corporal de 25 kg/m2 y un consumo de alcohol de 20 g/día es de nuevo ŷ0 = 1,58
– 0,0207 ∙ 25
intervalo + 0,0028 ∙ 20
de predicción = 1,12
al 95% mmol/l.
para Sin embargo,
esta nueva el intervalo de predicción al 95%
observación
para esta nueva observación
ŷ 0 ± t446;0,975 s 1 + h0 = 1,12 ± 1,97 0,077(1 + 0,0025) = (0,57; 1,67)
es notablemente más impreciso que el intervalo de confianza calculado en el ejemplo
anterior
es para el valor
notablemente medio delque
más impreciso colesterol HDLde
el intervalo enconfianza
todos los calculado
sujetos con
en dichos
el valores
del índice de masa corporal y del consumo de alcohol (IC al 95% 1,09-1,15 mmol/l).
ejemplo anterior para el valor medio del colesterol HDL en todos los sujetos con
11.4 dichos
CONTRASTES
valores del DE HIPÓTESIS
índice EN REGRESIÓN
de masa corporal LINEAL
y del consumo MÚLTIPLE
del alcohol (IC al 95%
Como1,09−1,15
se vio en mmol/l).
el Apartado 10.3.2 del tema anterior, el contraste de un modelo de regresión
lineal simple se reduce a evaluar si el coeficiente β1 asociado a la única variable explicativa es 0,
en cuyo caso el modelo no aportará explicación alguna sobre la variabilidad de la variable
respuesta. En regresión lineal múltiple, sin embargo, la presencia de múltiples variables
explicativas
11.4 permite realizar
CONTRASTES distintos contrastes
DE HIPÓTESIS de hipótesis,
EN REGRESIÓN que danMÚLTIPLE
LINEAL respuesta a diferentes
preguntas de investigación. En general, los contrastes de hipótesis en regresión lineal múltiple
pueden clasificarse en tres grandes grupos, a saber:
Como se vio en el Apartado 10.3.2 del tema anterior, el contraste de un modelo de
yy El contraste global determina si el modelo en su conjunto explica una parte significativa
de lalineal
regresión variabilidad de reduce
simple se la variable respuesta.
a evaluar si el coeficiente β1 asociado a la única
yy Los contrastes parciales individuales evalúan la contribución independiente de cada
variable explicativa
variable es 0, en
explicativa unacuyo caso el modelo
vez controlados no aportará
los efectos de lasexplicación alguna sobre
restantes variables explicativas.
yy Los contrastes
la variabilidad parcialesrespuesta.
de la variable múltiplesEnvaloran si un
regresión determinado
lineal subgrupo
múltiple, sin embargo,delados o más
variables explicativas contribuye significativamente a explicar la variabilidad residual de
la variable
presencia respuesta
de múltiples que noexplicativas
variables se explica por las otras
permite variables
realizar incluidas
distintos en el de
contrastes modelo.
En los siguientes apartados se describen los procedimientos estadísticos necesarios para realizar
hipótesis, que danConviene
dichos contrastes. respuestaresaltar
a diferentes preguntas
que estos de de
contrastes investigación. En general,
hipótesis asumen losy aditividad
linealidad
en los efectos de las variables explicativas y, en consecuencia, no deben interpretarse como pruebas
contrastes
de bondad dedelhipótesis
ajuste, yaen
queregresión lineal
no facilitan múltiple
ninguna pueden clasificarse
información en tres del
sobre la idoneidad grandes
modelo lineal
aditivo para describir la relación subyacente de las variables explicativas con la variable respuesta.
grupos, a saber:
11.4.1 Contraste global del modelo de regresión lineal múltiple 17
La hipótesis nula del contraste global de un modelo de regresión lineal múltiple establece que ninguna
de las variables explicativas se asocia linealmente con la variable respuesta, que puede formularse
Pastor-Barriuso R. 203
Regresión lineal múltiple
Al igual
antioxidantes en el riesgo que en regresión
de desarrollar lineal
un primer simple,
infarto este de
agudo contraste global
miocardio en se realiza
como descomponiendo
Hvalores = … la
: β1 = β2obtenidos = βvariabilidad de 1,58,
la variable respuesta. Una devez estimada la ecuación
hombres adultos. Los p= 0. Bajo
fueron esta
0,89, hipótesis 0,79, nula, la ecuación regresión se reduce al término
Al0 igual que en regresión lineal simple, este1,29, contraste 1,42, global 0,84, se realiza
constante β0 y el modelo no aportará entonces ninguna explicación sobre la variabilidad de la variable
1,06, 0,87, 1,96respuesta.y de1,53 regresión
El propósito
mmol/l. ŷLa=media b0es,+ por
bde1x1tanto, +…
los + bpxpdel
contrastar
niveles suma
, lacolesterol
la hipótesis de cuadrados
HDLnula en H0: β1total= β2 =SST …= deβla=variable
0 frente a la
descomponiendo la variabilidad de la variable respuesta. Una vez estimada lap ecuación
hipótesis alternativa bilateral de que al menos una de las variables explicativas se relaciona linealmente
estos 10 participantes conrespuesta es puede
la respuesta, quedescomponerse
corresponde a Hcomo : β ≠ 0 para algún j = 1, …, p.
de regresión ŷ = b0 + b1x1 + … 1+ bjpxp, la suma de cuadrados total SST de la variable
Al igual que en regresión lineal simple, este contraste global se realiza descomponiendo la
variabilidad
1 10
respuesta de 0la
puede ,89variable
+ 1,58=+respuesta.
descomponerse
n
...(+y1,−53ycomo 2Una vez estimada la ecuación
n
de regresión ŷ = b0 + b1x1
x+ =… + x = SST
b x i, la suma de cuadrados i ) = =
1,223 ( yˆmmol/l.
− y + yi − yˆ i ) 2
totali =1SST de la variable respuesta puede descomponerse
i
10 p p 10 i =1
como i =1 n n n
n n
SST = ( yii − y ) =
ˆ ( yˆii − yi + yi −
ˆ yˆ i )(2yˆ i − y )( yi − yˆ i )
2 2
= ( y − y ) 2 + ( y − y ) + 2
i =1 en antioxidantes en el riesgo de desarrollar un primer infarto agu
riesgo aritmética
media de desarrollar presenta un primer infarto agudo
las siguientes i =1 de miocardio
i =1
propiedades:
i =1 i =1
n n
DAS DE TENDENCIA 1.2 MEDIDASCENTRAL DE TENDENCIA n CENTRAL n n
Los valores
=
=
(( yyˆˆi − − yy )) 22 ++ (( yyi −
1 cadahombres
− yyˆˆi ))22 + = 2SSR( +yˆ SSE,
adultos. i − yLos − yˆ i ) obtenidos fueron 0,89, 1,58, 0,7
)( yi valores
Cambio de obtenidos fueron 0,89,
origen (traslación). Si se 1,58,suma 0,79, =1 1,29,
i una
i =1
i
constante 1,42,i =0,84,
i =a1
i i
uno de los i =1 datos
s de tendencia Las medidas
central informande tendencia acerca centralde cuál informan
n es el valor acerca n más de representativo
cuál 2es el valor más representativo
1,53 mmol/l.
de una muestra, layaLa mediamedia de los
de laniveles
muestra del =
colesterol
resultante ( y ˆ − y
es
que las desviaciones i =ŷ1i - y y yi - iŷ=1i están incorrelacionadas
i
HDL
) 2
+
igual ena( ylai −media 1,06,
yˆ i ) =0,87, SSR1,96
inicial +másSSE,y la1,53 mmol/l. La media de los niveles del co
rminada variable de una determinada
o, dicho de forma variable o, dicho deestos
equivalente, forma equivalente,
estimadores indicanestos estimadores indican
tes es
constante ya que
utilizada; si las
yi =desviaciones
xi + c, entonces ŷi – y y=yxi – +ŷicestán . Un cambio estos
incorrelacionadas de10 participantes
origen que es
e qué valor alrededor
se agrupan deque
ya qué
loslas valor
datos se nagrupan los datos observados.
observados.
desviaciones ŷ i Las
- y medidas y yi - ŷni de estántendencia Lasn medidas de tendencia
incorrelacionadas
se
1 realiza
10 con
0,89frecuencia
+ 1,58 + ...es + 1el,53
centrado
( ˆ
y − y )(
i de la variable,y i − ˆ
y i ) =
que yˆ e
consiste
i i − y ei
en restar a 1 10 0,89 + 1,58 + ... + 1,53
a10 i =1
x i =
muestracentralsirven de tanto la10muestra
para resumir =i =1
1,223
sirvenlostanto
n
mmol/l.
resultadospara resumir observados
i =1
los nresultados
n
comoppara
i =1
n
observados
n
x = como
10n i =1
xpara
i =
10
= 1,223 m
= b0
ii −
cada valor de la muestra su media. La
( yˆmedia de una ˆ variable yˆ i eecentrada
+ y b ejserá, ei − y ei = 0
xijpor
i − y )( y i − y i ) = i
rencias acercarealizar deinferencias
los parámetros acerca i =1de los parámetros
poblacionales poblacionales
correspondientes. i =1 i =1 Aj =i1=correspondientes.
1 i =1 i =1 A
tanto, igual a 0.
resenta las siguientes de acuerdo propiedades:
a las ecuaciones lineales derivadas del n
La media métodoaritmética
p
de mínimos
n
presenta
cuadrados
n
las siguientes
(véase Apartado propiedades:
n se describen continuación
los se
principales
11.3.1).
de acuerdo
describenestimadores
En consecuencia, los
a las ecuaciones
principales
de
la suma la tendencia
lineales
=
estimadores b
de derivadas
0 central
cuadrados
e +
i de de
del
la
total
b
una j ij i central
tendencia
j =1 método
SST
x e
se
− y
de descompone
mínimos
ede
i =una 0
en dos(véase
cuadrados términos
Cambio de escala
(traslación). (unidades).
Si independientes:
se suma Silase
una constante multiplica
a cada uno cada de unolos de
datos los
i =1
suma de cuadrados de la regresión SSR, que representa la variabilidad de
•
datos
Cambio de una
i =1
de origen
i =1
(traslación). Si se suma unala constante a cad
variable. es cierta. Por otro lado, comopor elsemodelo vio la ensuma el regresión,
Apartado 11.3.1, la suma de
variable
Apartado respuesta11.3.1). explicada
En consecuencia, de de cuadrados y la suma total deSST se cuadrados
cuadrados descompone del errordelenSSE,
muestradepor
media unaque
la muestra constante,
derepresenta
acuerdo
resultante la amedia
es igual de la
a la muestra
media resultante
la variabilidad residual que permanece sin explicar. Por un lado,(véase
las ecuaciones lineales inicial derivadas
más esla igual
de deluna a la
método
muestra, media de mínimos
la media cuadrados
de la muestra laresultante
suma es igual a la
a aritmética 1.2.1 Media erroraritmética
de cuadrados
dos SSE contiene
términos deindependientes: n - p - 1 SSR
la regresión grados de libertad.
contiene
la suma p grados
de cuadrados Además, dedelibertad bajo
la lasya
regresión asunciones
que,SSR, conocida
quedel modelo la media
;inicial
si yi =por xi +lac,constante
entoncesApartado utilizada;
y = 11.3.1).
x + si
c . yEn
Un
i = cx
cambioi , entonces
consecuencia, de origen yla = c
suma
que x .
muestral , los valores estimados por la ecuación de regresión ŷi = b0 + ib1xi1i … + bpxipen= y += x + c. Un cam de cuadrados
constante total
utilizada; SSTsi y se
= descompone
x + c , entonces
2
itmética,La media
denotada de –regresión
b1(xrepresenta
aritmética,
por
i1 x 1,) se
+ la … lineal
+ bcomo
denotada
define
variabilidad múltiple,
p(xip por –lade xsuma
p,)la
sese comprueba
quedan
define
de cada
variable como unoque
completamente
respuesta la
desuma elloscociente dedeterminados
explicada cada SSE/unoσelde
por selos
distribuye
por
modelo losdepregresión,
coeficientes
Cambio simultáneo
uencia es el centrado dos
asociados de origen
términos
de laavariable, y escala.
independientes:
las variables Si se
explicativas.
que consiste multiplicala suma
en restar cada
de
De hecho, a uno
cuadradossepuedede
realiza los dedatos
probarse la de
regresión
con frecuencia SSR,
que el cociente que
es el centrado SSR/σ de 2
sigue
la variable, que con
valoresuna
strales dividida conforme
distribución
muestrales
por el número a una
dividida
de chi-cuadrado
chi-cuadradopor
observaciones el númerocon con
p den
grados
realizadas.
y la suma de cuadrados del error SSE, que representa la variabilidad residual - p - 1
de
observaciones Sigrados
libertad
denotamos de libertad
cuando
realizadas. la con independencia
hipótesis
Si denotamos nula H : βde
0 que 1 = la
β 2 = …
una muestra
uestra su media.=La por una
βp media constante
representa
= 0 es de la
cierta. y
una Por al resultado
variabilidad
variable otro centrada de se
lado, como la le suma
variable
será, otra
se por respuesta
vio encada constante, el Apartado la
explicada media
valor de 11.3.1, por
la muestrael modelo
la suma
su media. de regresión,
de cuadrados
La mediadel de una variable c
año muestral por nyel error
por hipótesis
x
tamaño SSE
permanece
i el nula.
contiene
muestral
valor Combinando
observado y n –
por p x –
parael 1 valor
el las
grados distribuciones
de
observado
sujeto libertad.
i-ésimo,
sin explicar. Por un lado, la suma de cuadrados de la regresión SSR contiene
i para i muestrales
Además,
= el1, sujeto
..., n, bajode ambas
las
i-ésimo, =sumas
asunciones
i 1, ..., de
n, del modelo de
de la muestra resultante y la suma
regresión es igual
lineal a la media
de múltiple,
cuadrados se del inicial
comprueba errorporSSE, laque primeraque constante,
representa
el cociente
tanto, igual SSE/σ a más
la 2 la
variabilidad
0. se distribuye residual que a una
conforme
ndría dada la por
media chi-cuadrado
pcuadrados,
vendría
gradosdada deconse n – p –que
tiene
por
libertad 1 grados
ya bajoconocida
que, ladehipótesis
libertad la con nulaindependencia
media 0: β1 = β2 y=,de
Hmuestral … βp = 0 estimados
losla=valores
hipótesis lanula.
razónCombinando
entrepor la
segunda constante;
(unidades). Si selasmultiplica si y
permanece =
distribuciones
i c x +
sin
cada uno
1 i c , entonces
explicar.
muestrales
2 de los datos Por y
de ambasun = c
lado,
de una
1 x +la c suma.
sumas• deCambio
2 de cuadrados
cuadrados, de escala de
se tienela regresión
que bajo Si
(unidades). SSR contiene
la hipótesis
se multiplica nulacada uno de los
2
β1 = βn2 = explicada
H0:ecuación
varianza … = β = 0 la
por razón
la regresión entre la varianza
SSR/ p y la explicada
varianza por
residualla regresión
s = SSE/( SSR/pn - y
p la
- 1) varianza
1 2 de x1 +p x 2 +ya...ŷque,
de regresión 1i+=nx nbconocida0 + bx11xi1 + +lax 2… + ...+ b+pxipn = y + b1(xi1 - x1 ) + … + bp(xip - x p )
onstante, la media residual
Ejemplo 1.5 Para transformar
xde la
p=grados muestra
n i =1
= libertad
s =x i SSE/(n – px –= 1)es
resultante
los valores
igual x.i =a la
n ndeli =1colesterol HDL
media media muestramuestral
n de mmol/l a mg/dl se
. por yuna , losconstante,
valores estimados la media de porlalamuestra resultante e
quedan completamente determinados SSR por los p coeficientes asociados a las variables
ante utilizada; si yiecuación = cxi, entonces de regresión y = c xŷ i. = b0 + b1xi12 + … + inicial bpxip = por y +labconstante + … + bp(sixipyi- =xcx
(x - x ) utilizada; p )i, entonces y = c x
multiplica por el factor de conversión 38,8. SSR Así, utilizando pσ la propiedad χ p2 del / p 1 i1 1
a es la medida Lade media
tendencia es la medida
explicativas. central DeFhecho,de= tendencia
más utilizada
puede= central y de más
probarse más fácil
que utilizada
~el cociente y deSSR/ más σfácil 2 = Fp,n −p −1
sigue una distribución
ps 2
SSE χ n2− p −1 /(n
Cambio −
simultáneo p − 1 ) de origen
o de origen y escala.
cambio de escala, quedan
Si se multiplica
la mediacompletamente
del colesterol HDL
cada uno
determinados de
en
los
mg/dl
datos porse
de los p coeficientes asociados
•
2 calcularía
a las yvariables
escala. Si se multiplica cada u
ón. Corresponde interpretación.
al “centro Corresponde
de gravedad” de los(ndatos
al “centro p −de1)la
de− gravedad” σ muestra. de los Su datos de la muestra. Su
chi-cuadrado con p grados de libertad cuando la hipótesis nula2H0: β1 = β2 = … = βp = 0
na constante y al resultado explicativas. se le suma
Deen hecho,otra constante,
puede probarse la media que el una muestra
cociente SSR/ porσunasigue constante y al resultado se le suma otra c
una distribución
directamente a se distribuye
partir de su media como el cociente
mmol/l de dos
como 1,223distribuciones
⋅38,8 = 47,45 chi-cuadrado
mg/dl. independientes divididas por
mitación es principal
que estálimitación
muy influenciada es que está pormuy los valoresinfluenciada extremos por los y, en valoreseste extremos y, en este
sussecorrespondientes
distribuye comogrados el cociente de libertad, de dos distribuciones
que equivale chi-cuadrado a una distribución F de Fisher con p
independientes
tante es igual a la chi-cuadrado
media inicial por la primeradeconstante, más ladelalahipótesis muestranula resultante β1es = igual
βentre a la= media
βp =19 0 inicial por la prim
grados de libertadcon en pelgrados numerador libertad
y n – pcuando – 1 en el denominador. H
La0: razón 2 = …las varianzas
no ser uncaso, puede no
fiel reflejo de ser un fiel reflejo
la tendencia central de de la la tendencia
distribución. central de la distribución. 6 a una distribución F
divididas por sus correspondientes grados de libertad, que equivale
; si yi = c1xi + c2, entonces y = c1 x + c2. segunda constante; si yi = c1xi + c2, entonces y = c1 x + c2.
R.con p grados de libertad en el numerador y n - p - 1 en el denominador. La 19
y endelos
Fisher
204 Pastor-Barriuso
plo 1.4 En este Ejemplo 1.4 En
sucesivos este y en lossobre
ejemplos sucesivos ejemplos
estimadores sobre estimadores
muestrales, se muestrales, se
ransformar los valores del colesterol HDL de mmol/l a mg/dl seEjemplo 1.5 Para transformar los valores del colesterol HDL
delrazón
arán los valoresutilizarán entre las varianzas
los valores
colesterol HDL explicada
del colesterol
obtenidos 10y primeros
HDL
en los residual constituye,
obtenidos 10 por
en los del
sujetos tanto, sujetos
primeros el estadístico
del para el
Contrastes de hipótesis en regresión lineal múltiple
n n
SSE
Error SSE = ei2 = ( y i − yˆ i ) 2
i =1 i =1
n − p −1 s2 =
n − p −1
n
Total SST = (y
i =1
i − y) 2 n −1
* Coeficiente
* Coeficiente de determinación
de determinación R2 = SSR/SST.
R2 = SSR/SST.
explicada y residual constituye, por tanto, el estadístico para el contraste global del modelo de
regresión lineal múltiple. La descomposición de la variabilidad de la variable respuesta, junto
con la razón de varianzas resultante, suele resumirse en la tabla del análisis de la varianza
(Tabla 11.2).
Como complemento al contraste global del modelo, suele calcularse el coeficiente de
determinación R2 = SSR/SST, que es una medida cuantitativa de la proporción de la variabilidad
equivale al cuadrado del coeficiente de correlación r yˆ entre los valores observados yi
de la variable respuesta explicada por el modelo de yregresión múltiple. El coeficiente de
determinación R2 varía entre 0 y 1 y aumenta siempre que se incluyen nuevas variables
de la variable
explicativas en elrespuesta
modelo, yaunque
los valores incrementoŷ i puede
este predichos por la no
ecuación de regresión,
ser significativo que
(ver se
apartado
siguiente). Otra de sus principales propiedades es que equivale al cuadrado del coeficiente de
coeficiente de correlación
correlación ryyˆ entre
conoce como entre losvalores
los valores
coeficiente observadosyyimúltiple
de observados
correlación ide la variable
, respuesta y los valores predichos ŷi
por la ecuación de regresión, que se conoce como coeficiente de correlación múltiple,
y los valores predichos ŷ i por la ecuación de regresión, que se 2
n
n 2
( yˆ − y )
SSR i =1 i
2
i =1
( ˆ
y i − y )
de correlación múltiple, 2
R = = n = n n
SST
( y i − y ) 2 ( y i − y ) 2 ( yˆ i − y ) 2
i =1 i =1 i =1
2
n
n
( yˆ ( yˆ i − y ) 2
2 2
− y) n n
i =1
i
i =1 ( y i − y )( yˆ i − y ) − ( y i − yˆ i )( yˆ i − y )
= n = n i =1 i =1
2 =
n
( y − y ) 2
( y − y ) 2
( ˆ
y − y ) n n
( y i − y ) 2 ( yˆ i − y ) 2
i i i
i =1 i =1 i =1
2 i =1 i =1
n n
( y i − y )( yˆ i − y ) − ( y i − yˆ i )( yˆ i − y ) n
2
=
i =1 i =1 ( y i − y )( yˆ i − y )
= n = 2
i =1
n n
ryyˆ .
( y − y ) 2
( ˆ
y − y ) 2 n
( y i − y ) ( yˆ i − y )
i i 2 2
i =1 i =1 64
2 i =1 i =1
n
( y i − y )( yˆ i − y )
Notar quelas estimaciones de los coeficientes de regresión minimizan la suma de cuadrados del
= n Notar que las estimaciones de los coeficientes de regresión minimizan R la2 suma de
i =1 2
error
n
= r yyˆ .
SSE y, en consecuencia, maximizan el coeficiente de determinación del modelo. De la
( y i − y ) 2
(
relaciónˆ
y i − y )
entre
2
los coeficientes de determinación y correlación múltiple, se deriva
i =1 cuadrados del error SSE y, en consecuencia, maximizan el coeficiente de determinación
entonces que
i =1
las estimaciones b0, b1, …, bp maximizan la correlación entre los valores observados yi y los
R2 del modelo. De la relación entre los coeficientes de determinación y correlación
es de los coeficientes de regresión minimizan la suma de
Pastor-Barriuso R. 205
múltiple, se deriva entonces que las estimaciones b0, b1, …, bp maximizan la correlación
y, en consecuencia, maximizan el coeficiente de determinación
entre los valores observados y y los valores predichos ŷ = b + b x + … + b x , de tal
estimada ŷ = 1,58 - 0,0207x1 + 0,0028x2
correlación con la variable respuesta.
Regresión lineal múltiple 449
SSR = (1,58 − 0,0207 x i1 + 0,0028 x i 2 − 1,08) 2 = 4,58
Ejemplo 11.6 En la primera
i =1
parte de la Tabla 11.1 se presenta el análisis de la
SSR 1 − SSR 0
2
SSR 1 − SSR 0 r σ
2 χr /r
F= = ~ 2 = Fr,n −p −1
rs12 SSE1 χ n − p −1 /( n − p − 1)
(n − p − 1)σ 2
sigue una distribución F de Fisher con r y n – p – 1 grados de libertad al ser el cociente de dos
sigue una distribución
distribuciones F de
chi-cuadrado Fisher con r ydivididas
independientes n - p - 1 grados
por susderespectivos
libertad al ser el cociente
grados de libertad.
Este análisis de la varianza para el contraste parcial de un modelo de regresión lineal múltiple
de dos distribuciones
se representa chi-cuadrado
esquemáticamente independientes
en la Tabla 11.3. divididas por sus respectivos grados
X1,..., Xp − r SSR0 p −r
Ejemplo 11.7 La Tabla 11.4 muestra los resultados obtenidos en el grupo control del
estudio EURAMIC al ajustar un modelo de regresión lineal múltiple con el colesterol
HDL como variable respuesta, el índice de masa corporal, el consumo de alcohol y la
edad en años como variables explicativas continuas y el estatus socioeconómico como
variable explicativa dicotómica (xi4 = 1 en sujetos con bajo nivel socioeconómico y 0 en
sujetos con alto nivel socioeconómico). De la tabla del análisis de la varianza se
desprende que el modelo en su conjunto explica el 11,9% de la variabilidad del colesterol
HDL, lo que representa una parte significativa de la variabilidad total de la respuesta ya
que la razón de varianzas del contraste global del modelo F = 14,85 resulta en un valor
P = P(F4,440 ≥ 14,85) < 0,001 bajo la distribución F de Fisher con 4 y 440 grados de
libertad. No obstante, una vez incluidos el índice de masa corporal y la ingesta de alcohol,
ni la edad (t = b3/SE(b3) = 0,0002/0,0014 = 0,12, P = 2P(t440 ≥ 0,12) ≈ 2{1 – F(0,12)} =
0,90) ni el estatus socioeconómico (t = b4/SE(b4) = 0,021/0,027 = 0,80, P = 2P(t440 ≥ 0,80)
≈ 2{1 – F(0,80)} = 0,43) presentan efectos independientes significativos sobre los niveles
de colesterol HDL. De hecho, cada incremento de 10 años en la edad se asocia con un
aumento despreciable de 10 ∙ 0,0002 = 0,002 mmol/l en la media del colesterol HDL entre
sujetos con igual índice de masa corporal, consumo de alcohol y nivel socioeconómico.
De igual forma, ajustando por diferencias en el índice de masa corporal, la ingesta de
alcohol y la edad, la media del colesterol HDL difiere únicamente en 0,021 mmol/l entre
los sujetos con nivel socioeconómico bajo y alto.
A partir de estos resultados, sería razonable preguntarse si la edad y el estatus
socioeconómico contribuyen conjuntamente a explicar la variabilidad residual del
colesterol HDL que permanece sin explicar por el índice de masa corporal y el consumo
de alcohol, lo que equivale a contrastar este modelo frente al modelo reducido de la
Tabla 11.1 que incluye únicamente el índice de masa corporal y la ingesta de alcohol
como variables explicativas. No obstante, los resultados de ambos modelos no son
Tabla 11.4 Resultados de la regresión lineal múltiple del colesterol HDL sobre
el índice de masa corporal (IMC), el consumo de alcohol, la edad y el estatus
socioeconómico (ESE) en el grupo control del estudio EURAMIC.
Análisis de la varianza*
Suma de Grados de Razón de
cuadrados libertad Varianza varianzas
Regresión 4,58 4 1,14 14,85
Error 33,93 440 0,077
Total 38,51 444
* Coeficiente de determinación R2 = 4,58/38,51 = 0,119.
Coeficientes de regresión
Test H0: βj = 0
Estimación Error estándar IC al 95% t Valor P
Constante 1,56 0,12 (1,33; 1,79) 13,24 < 0,001
IMC – 0,021 0,0037 (– 0,028; – 0,014) – 5,66 < 0,001
Alcohol 0,0028 0,0006 (0,0016; 0,0040) 4,64 < 0,001
Edad 0,0002 0,0014 (– 0,0026; 0,0030) 0,12 0,90
ESE 0,021 0,027 (– 0,031; 0,074) 0,80 0,43
208 Pastor-Barriuso R.
consumo de alcohol, lo que equivale a contrastar este modelo frente al modelo
Contrastes de hipótesis en regresión lineal múltiple
reducido de la Tabla 11.1 que incluye únicamente el índice de masa corporal y la
EURAMIC, de
directamente donde se obtiene
comparables ya queuna suma de
el modelo cuadrados
reducido explicada
emplea por el modelo
4 observaciones más que el
modelo completo (449 versus 445). Esto es debido a que hay 4 sujetos con valores ausentes
reducido
para de SSR
el estatus 0 = 4,53. Así, el que
socioeconómico, incremento en la variabilidad
pueden utilizarse explicada
en el ajuste al incluir
del modelo reducido,
pero no en el modelo completo que incluye dicha variable. Para comparar ambos modelos,
la edad
es y elajustar
preciso estatuselsocioeconómico
modelo reducido enaellamodelo
mismacompleto es SSR
muestra de - SSR0 = del
445 1controles 4,58estudio
EURAMIC, de donde se obtiene una suma de cuadrados explicada por el modelo reducido
- 4,53
de SSR=0 0,053.
= 4,53.LaAsí,
razón
el entre el incremento
incremento de la varianza
en la variabilidad explicada
explicada y la varianza
al incluir la edad y el
estatus socioeconómico en el modelo completo es SSR1 – SSR0 = 4,58 – 4,53 = 0,053. La
residual
razón del modelo
entre completo
el incremento de es
la entonces
varianza explicada y la varianza residual del modelo
completo es entonces
0,053 / 2 0,026
F= = = 0,34,
33,93 / 440 0,077
que corresponde a un valor P = P(F2,440 ≥ 0,34) = 0,71 bajo la distribución F de Fisher con
2que
y 440 grados dea libertad.
corresponde un valor Este contraste
P = P(F 2,440 ≥ parcial
0,34) =múltiple
0,71 bajoselarepresenta en la
distribución Tabla 11.5.
F de
En conclusión, la edad y el estatus socioeconómico no contribuyen significativamente a
explicar la 2variabilidad
Fisher con y 440 gradosdeldecolesterol
libertad. HDL una vez tenidos
Este contraste parcial en cuentaseelrepresenta
múltiple índice de masa
corporal y el consumo de alcohol, de tal forma que el modelo reducido a estas dos últimas
variables explicativas
en la Tabla resulta igualmente
11.5. En conclusión, la edad yefectivo.
el estatus socioeconómico no
Loscontribuyen significativamente
contrastes parciales a explicar para
pueden emplearse la variabilidad
evaluar la del colesterol HDL
contribución una de una
adicional
única variable explicativa o de múltiples variables explicativas. El contraste parcial individual
vez tenidos
de la variable en cuenta
explicativa Xj el
se índice
reducede masa corporal
a evaluar y el consumo
la hipótesis nula H0: βde alcohol, de tal
j = 0 frente a la hipótesis
alternativa H1: βj ≠ 0 y, en consecuencia, es equivalente al test para los coeficientes de regresión
presentado en el Apartado 11.3.2. De hecho, puede probarse que el estadístico F de la razón de
varianzas del contraste parcial individual es igual al cuadrado del estadístico t = bj/SE(bj) del
correspondiente coeficiente, de tal forma que los valores P resultantes de ambos procedimientos 26
son idénticos (la distribución F de Fisher con 1 grado de libertad en el numerador y n – p – 1 en
el denominador es, por definición, el cuadrado de la distribución t de Student con n – p – 1
grados de libertad).
Pastor-Barriuso R. 209
explicada por el modelo completo con la variabilidad explicada por el modelo que
obteniéndose una diferencia SSR1 - SSR0 = 4,58 - 4,53 = 0,049. Así, el estadístico
variable politómica, que toma valores cero en todas las variables indicadoras incluidas
210 Pastor-Barriuso R.
en el modelo, E(Y|x1 = 0, ..., xk-1 = 0) = β0. Asimismo, cada coeficiente de regresión βj
…
k 0 0 … 1
determina el cambio en el valor esperado de la respuesta en la categoría j = 1, …, k - 1
el valor esperado
respecto de la respuesta
a la categoría en la categoría
k de la variable j = 1, …, k – 1 respecto a la categoría k de la
politómica,
variable politómica,
E(Y|x1 = 0, ..., xj−1 = 0, xj = 1, xj+1 = 0, ..., xk −1 = 0)
− E(Y|x1 = 0, ..., xk−1 = 0) = β 0 + β j − β 0 = β j.
Como puede apreciarse, la categoría cuya variable indicadora se deja fuera del modelo actúa
como grupo de referencia, de tal forma que los coeficientes asociados a las variables indicadoras
presentes en el modelo determinan los cambios medios en la respuesta respecto a dicha categoría
de referencia. Aunque en principio la elección del grupo de referencia es arbitraria, en la práctica
suele utilizarse como categoría de referencia aquella que representa la ausencia o el menor 29 nivel
de exposición (nunca fumadores, nivel socioeconómico alto, normopeso), siempre y cuando su
tamaño muestral sea lo suficientemente grande para obtener comparaciones precisas con el
resto de categorías de la variable politómica.
En general, la contribución de las variables indicadoras a la capacidad predictiva del modelo
debe evaluarse conjuntamente, dado que estas variables no representan más que las distintas
categorías de una misma variable politómica. En este sentido, los contrastes parciales presentados
en el apartado anterior pueden aplicarse al conjunto de todas las variables indicadoras para
contrastar la hipótesis nula H0: β1 = … = βk–1 = 0, lo que equivale a un test de homogeneidad
del valor medio de la respuesta en las k categorías de la variable politómica. Notar que este test
de homogeneidad permanece inalterable ante cualquier codificación de las variables indicadoras
o selección del grupo de referencia, ya que éstas alteran los coeficientes de regresión, pero no
cambian la contribución global de la variable politómica al ajuste del modelo.
Pastor-Barriuso R. 211
la variabilidad explicada SSR1 = 5,44 por el modelo completo de la Tabla 11.7
con
Regresión lamúltiple
lineal variabilidad explicada SSR0 = 4,58 por el modelo que excluye ambas
Tabla 11.7 Resultados de la regresión lineal múltiple del colesterol HDL sobre el
índice de masa corporal (IMC), el consumo de alcohol y las variables indicadoras
de ex fumadores y fumadores actuales en el grupo control del estudio EURAMIC.
Análisis de la varianza*
Suma de Grados de Razón de
cuadrados libertad Varianza varianzas
Regresión 5,44 4 1,36 18,03
Error 33,42 443 0,075
Total 38,86 447
Coeficientes de regresión
Test H0: βj = 0
Estimación Error estándar IC al 95% t Valor P
Constante 1,61 0,099 (1,42; 1,81) 16,31 < 0,001
IMC – 0,021 0,0036 (– 0,028; – 0,014) – 5,79 < 0,001
Alcohol 0,0030 0,0006 (0,0018; 0,0042) 5,03 < 0,001
Ex fumador 0,009 0,034 (– 0,058; 0,075) 0,26 0,80
Fumador actual – 0,085 0,034 (– 0,151; – 0,019) – 2,53 0,012
212 Pastor-Barriuso R.
Variables explicativas politómicas
ordinales y las variables continuas categorizadas, cabría preguntarse además si los niveles
medios de la respuesta siguen algún patrón específico a lo largo de las categorías. En particular,
sería relevante contar con un test de tendencia que permitiera detectar la existencia de una
componente lineal creciente o decreciente entre las respuestas medias de las sucesivas categorías.
Para ello, la variable explicativa politómica X debe tomar valores que preserven el orden de las
categorías. En el caso de variables ordinales, suelen asignarse los valores xi = 1, 2, ..., k según
el sujeto pertenezca a la primera, segunda o sucesivas categorías. En el caso de variables
continuas categorizadas, es preferible utilizar valores xi que representen alguna medida de
tendencia central de cada categoría (media o mediana) para preservar no sólo el orden de las
categorías, sino también la distancia entre las mismas. La variable politómica así codificada se
incluye directamente en el modelo de regresión, de tal forma que el contraste de su coeficiente
determina la existencia de una tendencia lineal creciente o decreciente en el valor medio de la
respuesta al aumentar la categoría de exposición. Conviene resaltar que este test de tendencia
no permite evaluar la idoneidad de la relación lineal, sino únicamente la existencia de una
componente lineal significativa a través de las categorías, independientemente de cuál sea la
relación subyacente.
Ejemplo 11.10 Dado que en el ejemplo anterior los niveles medios de colesterol HDL
no diferían significativamente en nunca fumadores y ex fumadores, ambas categorías se
colapsaron en una única categoría de no fumadores actuales. Además, como se dispone de
información sobre el número de cigarrillos al día en 154 de los 172 fumadores actuales, se
construyó una nueva variable politómica que clasificaba a los sujetos en no fumadores
actuales (276 sujetos), fumadores actuales de 1-10 (50 sujetos), 11-20 (67 sujetos) y > 20
cigarrillos/día (37 sujetos). La Tabla 11.8 muestra los resultados obtenidos en los controles
del estudio EURAMIC al ajustar una regresión lineal múltiple del colesterol HDL sobre
el índice de masa corporal, el consumo de alcohol y esta nueva variable explicativa
politómica, donde los no fumadores actuales constituyen la categoría de referencia.
Tabla 11.8 Resultados de la regresión lineal múltiple del colesterol HDL sobre
el índice de masa corporal (IMC), la ingesta de alcohol y las variables
indicadoras de fumadores actuales de 1-10, 11-20 y > 20 cigarrillos/día en los
controles del estudio EURAMIC.
Análisis de la varianza*
Suma de Grados de Razón de
cuadrados libertad Varianza varianzas
Regresión 4,70 5 0,94 12,62
Error 31,59 424 0,075
Total 36,29 429
* Coeficiente de determinación R2 = 4,70/36,29 = 0,130.
Coeficientes de regresión
Test H0: βj = 0
Estimación Error estándar IC al 95% t Valor P
Constante 1,59 0,10 (1,40; 1,79) 15,90 < 0,001
IMC – 0,020 0,0037 (– 0,027; – 0,013) – 5,36 < 0,001
Alcohol 0,0028 0,0006 (0,0017; 0,0040) 4,70 < 0,001
Fumador 1-10 – 0,086 0,042 (– 0,168; – 0,003) – 2,04 0,042
Fumador 11-20 – 0,120 0,038 (– 0,193; – 0,046) – 3,19 0,002
Fumador > 20 – 0,055 0,048 (– 0,149; 0,040) – 1,14 0,26
Pastor-Barriuso R. 213
Regresión lineal múltiple
0,2
Diferencia en la media del colesterol HDL (mmol/l)
0,1
-0,1
-0,2
-0,3
0 10 20 30 40
Número de cigarrillos/día
Figura11-20
Figura 11.4 Diferencia en la media ajustada del colesterol HDL de los fumadores actuales de 1-10, 11.4
y > 20 cigarrillos/día respecto a los no fumadores actuales del grupo control del estudio EURAMIC. Las
barras verticales representan los intervalos de confianza al 95% para estas diferencias.
cigarrillos/día, ya que la comparación de la variabilidad explicada SSR1 = 4,70
porcontraste
El el modelo completo
parcial de lade
múltiple Tabla 11.8variables
las tres y la variabilidad explicada
indicadoras = β4 0==β3,76
H0: β3 SSR 5 = 0 revela
que existen diferencias significativas en las medias ajustadas del colesterol HDL entre los
porfumadores
no el modelo actuales
que excluye
y loslasfumadores
tres variables indicadoras
de 1-10, 11-20 yen> la20misma muestra de
cigarrillos/día, ya que la
comparación de la variabilidad explicada SSR1 = 4,70 por el modelo completo de la Tabla
430 controles
11.8 resulta explicada
y la variabilidad en un test SSR
estadístico
0 = 3,76 por el modelo que excluye las tres variables
indicadoras en la misma muestra de 430 controles resulta en un test estadístico
(4,70 − 3,76) / 3 0,31
F= = = 4,22,
31,59 / 424 0,075
que corresponde a un valor P = P(F3,424 ≥ 4,22) = 0,006. En comparación con los no
fumadores actuales
que corresponde de valor
a un igual índice
P = P(F de3,424
masa corporal
≥ 4,22) y consumo
= 0,006. de alcohol, con
En comparación los fumadores
los
de 1-10, 11-20 y > 20 cigarrillos/día presentan una disminución en el nivel medio de
colesterol
no fumadores de b3 = de
HDLactuales igual bíndice
– 0,086, 4 = – 0,120 y b5corporal
de masa = – 0,055 mmol/l, respectivamente.
y consumo de alcohol, los Esta
tendencia decreciente en la media ajustada del colesterol HDL se representa en la
Figura 11.4,
fumadores dedonde
1−10,el11−20
eje horizontal corresponde presentan
y > 20 cigarrillos/día al númerouna medio de cigarrillos
disminución en eldiarios
para cada categoría (0 en el caso de no fumadores actuales).
nivel contrastar
Para medio de colesterol
si esta tendencia 3 = -0,086, b4es
HDL de bdecreciente = -0,120 y b5 = -0,055
significativa, se creammol/l,
una variable
politómica con valores xi = 0, 7,1, 18,3 y 34,3 correspondientes al número medio de
respectivamente.
cigarrillos diariosEsta tendencia
de los sujetosdecreciente
no fumadores en la ymedia ajustadadedel1-10,
fumadores colesterol
11-20 y > 20
cigarrillos/día, respectivamente. Esta variable politómica se incluye directamente en un
HDL sede
modelo representa
regresiónen la Figura
múltiple 11.4,
junto condonde el eje
el índice dehorizontal corresponde
masa corporal al de alcohol.
y la ingesta
El coeficiente asociado a la variable politómica y su error estándar se estiman en b3 =
número medio
– 0,0030 y SE(b3de
) = cigarrillos diariossepara
0,0012, de donde cadauncategoría
obtiene (0 ten
estadístico = bel caso de no
3/SE(b3) = – 0,0030/0,0012
= – 2,46 y un valor P = 2P(t426 ≤ – 2,46) ≈ 2F(–2,46) = 0,014 bajo la distribución t de
fumadores actuales).
214 Pastor-Barriuso R.
Para contrastar si esta tendencia decreciente es significativa, se crea una variable
Regresión polinomial
[Figura 11.4 aproximadamente aquí]
Student con n – p – 1 = 430 – 3 – 1 = 426 grados de libertad. Así, puede concluirse que la
11.6 REGRESIÓN
media ajustada delPOLINOMIAL
colesterol HDL no sólo difiere entre las categorías (P de homogeneidad
= 0,006), sino que tiende a decrecer significativamente conforme aumenta la categoría de
La exposición (P demúltiple
regresión lineal tendencia = 0,014).
permite No obstante,
explorar la Figura
relaciones 11.4 entre
no lineales muestra que la relación
las variables
subyacente podría no ser estrictamente lineal al presentar un leve repunte en la categoría
de fumadores
explicativas de más de
y la variable 20 cigarrillos/día.
respuesta. El modelo más habitual para acomodar un efecto no
lineal
11.6 de una variable
REGRESIÓN explicativa continua X es la regresión polinomial de orden k, que
POLINOMIAL
polinomios de orden superior al cuadrático tienden además a producir curvas con puntos
k
La incorpora
regresiónenlineal múltiple
el modelo permite polinomiales
los términos X2, …, Xno
explorar relaciones lineales
además del entre
propiolas variables
término
de inflexión y otras formas extrañas de difícil interpretación en términos
explicativas y la variable respuesta. El modelo más habitual para acomodar un efecto no lineal
de lineal
una variable
X, explicativa continua X es la regresión polinomial de orden k, que incorpora en
epidemiológicos.
el modelo los términos Porpolinomiales
ello, esta presentación se limitadel
X 2, …, X k además a los modelos
propio polinomiales
polinomios
término linealde de superior al cuadrátic
X, orden
del índice de masa corporal, además del consumo de alcohol y de la variable indicadora
de los fumadores actuales (Tablaaritmética
1.2.1 Media 11.9). Como el índice
La media es lademedida
masa corporal
de tendencia X1 y su cuadrado
central más utilizada y de
X La
presentaban
2
1 una correlación lineal casi perfecta
media es la medida de tendencia central más utilizada y de más fácil de 0,995, esta variable fue
previamente centrada alrededor
La media de su interpretación.
aritmética, media muestral
denotada x 1, =se26,2
por Corresponde kg/m
define como
al
2
antes
“centro de
la suma deincluir
de cadaen uno
gravedad” de deloslos
datos
el modelo los términos lineal
interpretación. Corresponde al “centro X 1 – 26,2 y cuadrático (X – 26,2)
de gravedad” de los1 datos de la muestra. Su2
, cuya correlación era
únicamente de 0,297. valores muestrales principal dividida por el número
limitación de observaciones
es que está muy influenciada realizadas. porSilosdenotamos
valores
principal
El contrastelimitación
para laesnulidad
que está delmuy influenciada
coeficiente por los
asociado valores extremos
al término cuadráticoy,del en este
índice de
por n el tamaño muestral
caso, y por
puede x
noi elservalor
masa corporal resulta en un valor P = 0,021, lo que indica que el modelo cuadrático un observado
fiel reflejo para
de la el sujeto
tendencia i-ésimo,
mejora central ide= la ..., n
1, dist
caso, puede no ser un fiel reflejo de la tendencia central de la distribución.
la media vendría dada por
Tabla 11.9 Resultados de la regresión múltiple Ejemplodel 1.4colesterol
En este y en HDL los sobre
sucesivos los ejemplos sobre estim
Ejemplo
términos 1.4yEn
lineal este y en del
cuadrático los índice
sucesivos ejemplos
de masa sobre (IMC),
corporal estimadores muestrales,
el consumo de se
1 n x1 + x 2 + ... + x n
alcohol y la variable indicadora de fumadores =
x actuales
utilizarán en
losxvalores
i = el grupo
del control
colesterol . del
HDL obtenidos en los 1
estudioutilizarán
EURAMIC. n
los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
i =1 n
Análisis de la varianza*
estudio “European Study on Antioxidants, Myocardial Infar
estudio “European LaStudy
Suma media
de
onesAntioxidants,
medidadedeMyocardial
la Grados tendencia central Infarction
más and Cancer
utilizada
Razón
of
de y de más fácil
cuadrados libertad the Breast“ (EURAMIC),
Varianza un estudio
varianzas multicéntrico de casos
the Breast“ (EURAMIC),
interpretación. un Corresponde
estudio multicéntricoal “centro dede casos y controleslosrealizado
Regresión 5,84 4 1,46 gravedad” de 19,57 datos de la muestra. Su
entre 1991 y 1992 en ocho países Europeos e Israel para eva
Error 33,02 443 0,075
entre 1991 y 1992 en ocho
principal países Europeos
limitación es que está e Israel para evaluarpor
muy influenciada el efecto de losextremos y, en este
los valores
Total 38,86 447
* Coeficiente de determinación R = 5,84/38,86 = 0,150.
2
caso, puede no ser un fiel reflejo de la tendencia central de la distribución.
5
Coeficientes de regresión
Test H0: βj = 0
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales
Estimación Error estándar IC al 95% t Valor P
Constante 1,05 0,020 (1,01; 1,09) 52,62 < 0,001
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos d
IMC – 26,2 – 0,024 0,0038 (– 0,031; – 0,016) – 6,25 < 0,001
(IMC – 26,2)2 0,0016estudio 0,0007
“European (0,0002;
Study on 0,0029) 2,32 Myocardial
Antioxidants, 0,021Infarction and Cancer o
Alcohol 0,0030 0,0006 (0,0018; 0,0042) 5,00 < 0,001
Fumador actual – 0,098 the Breast“
0,027(EURAMIC),
(– 0,150; un estudio multicéntrico
– 0,045) – 3,63 de casos y controles realiza
< 0,001
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de lo
216 Pastor-Barriuso R.
Regresión polinomial
2,25
únicamente
1,5
de 0,297.
la pendiente
0,5 de la relación entre elde una determinada
colesterol HDL y elvariable o, masa
índice de dichocorporal
de forma equivalente, estos estim
media del colesterol HDL dentro del rango de normopeso (< 25 kg/m2), que se atenúa
progresivamente al aumentar los niveles del índice de masa corporal.
Aunque los modelos cuadráticos permiten detectar efectos no lineales de las variables
explicativas, la tendencia global resultante de estos modelos puede estar fuertemente influenciada
por una o muy pocas observaciones con valores extremos de la variable explicativa. En este
sentido, resulta especialmente importante evaluar los cambios que se producen en la tendencia
cuadrática, o incluso la propia idoneidad del modelo cuadrático, al excluir del análisis las
observaciones más influyentes (véase apartado de análisis diagnóstico).
La regresión lineal múltiple puede utilizarse con dos propósitos claramente diferenciados. Por
un lado, los modelos de regresión pueden emplearse para predecir el valor de la variable
respuesta en función de los valores de las variables explicativas. En tal caso, el interés se centra
en identificar e incluir todas aquellas variables explicativas que se asocien de forma significativa
e independiente con la variable respuesta, de tal forma que el modelo resultante se ajuste bien a
los datos observados (elevado coeficiente de determinación) y prediga con cierta precisión la
respuesta en nuevos sujetos. Los contrastes parciales descritos en el Apartado 11.4.2 son
particularmente útiles para este propósito, ya que permiten seleccionar las variables explicativas
que mejoran significativamente la capacidad predictiva del modelo. Por otro lado, los modelos
de regresión pueden utilizarse para estudiar la relación de una o varias variables explicativas de
interés con la variable respuesta, controlando por otras variables explicativas o covariables que
pudieran afectar a dicha relación. En este caso, no es necesario que el modelo incluya todos los
determinantes de la variable respuesta, sino únicamente aquellos que influyan en la asociación
objeto de estudio; es decir, aquellas covariables cuya inclusión afecte a las estimaciones de los
coeficientes de regresión asociados a las variables explicativas de interés.
La confusión y la interacción son dos conceptos epidemiológicos estrechamente relacionados
con este segundo propósito. A continuación se presenta una descripción general de ambos
conceptos y su tratamiento dentro de los modelos de regresión lineal múltiple.
218 Pastor-Barriuso R.
1
yy El factor de
mientras queconfusión X2 no debe
el efecto estimado serlaun
para paso intermedio
variable explicativa enX1 la relación de la variable
permanecerá
explicativa X1 con la variable respuesta Y. A diferencia de las dos condiciones anteriores,
Así, la covariable
este requisito epidemiológico noXpuede
2 no secomprobarse
relacionará con
con la
losrespuesta al controlar
datos disponibles por X1,
y 41
requiere
de información externa o juicio experto sobre los mecanismos subyacentes que relacionan
mientras con
la variable explicativa que la
el efecto estimado
respuesta. para la variable
Por ejemplo, el índiceexplicativa X1 permanecerá
de masa corporal podría
considerarse a simple vista un potencial factor de confusión para la asociación entre la
actividad física y el colesterol HDL, ya que se relaciona de forma independiente con 41
ambas variables. Sin embargo, el índice de masa corporal no es un factor extraño que
distorsiona dicha asociación, sino más bien un factor intermedio, ya que la actividad física
reduce el índice de masa corporal, que a su vez provoca un aumento del colesterol HDL.
En general, los modelos de regresión no deben incluir factores intermedios para la
asociación objeto de estudio, a no ser que se pretenda estimar el efecto que no está mediado
por dichos factores.
La selección de los potenciales factores de confusión debe limitarse, por tanto, a las covariables
que satisfagan estas tres condiciones necesarias, a saber, aquellas covariables que se asocien de
forma independiente con las variables explicativa y respuesta y que no constituyan un paso
intermedio en la relación entre ambas variables. No obstante, es posible que una covariable
cumpla los tres requisitos y no sea un factor de confusión, en el sentido de no introducir un sesgo
en la asociación a estudio. Esto puede ocurrir, por ejemplo, cuando existen varios factores cuyos
potenciales sesgos de confusión se compensan al actuar en direcciones opuestas.
En la práctica, para determinar si una o varias covariables son en realidad factores de
confusión, se compara la estimación cruda de la asociación objeto de estudio con la estimación
ajustada por los potenciales factores de confusión. Como se vio en el Apartado 11.2, estas
estimaciones ajustadas pueden obtenerse directamente a partir de modelos de regresión múltiple
que incorporen los potenciales factores de confusión además de la variable explicativa de
interés. Así, los factores de confusión vendrán determinados por aquellas covariables cuya
inclusión en el modelo produzca un cambio substancial en la estimación del coeficiente de
regresión asociado a la variable explicativa de interés. La comparación entre los coeficientes
Pastor-Barriuso R. 219
asociaran también con el índice de masa corporal, verificarían los tres requisitos
Regresión lineal múltiple
La Tabla
estimados con y11.10 muestra
sin ajuste porlaslos
estimaciones
potencialesdel coeficiente
factores asociadono
de confusión al índice de mediante
se realiza
pruebas estadísticas, ya que la significación estadística no depende únicamente de la magnitud
masa corporal
del cambio, en distintos
sino también modelos
del tamaño de regresión
muestral lineal, a saber,
(véase Apartado 5.4.2).un primerelmodelo
Aunque criterio varía
según el ámbito de aplicación, en general se considera necesario controlar la confusión cuando
sin covariables
la estimación de ajuste,
cruda difiere de laun segundo
ajustada enmodelo
más delajustado
10%. por el consumo de alcohol,
asociaran también con el índice de masa corporal, verificarían los tres requisitos
un tercer 11.12
Ejemplo modelo En ajustado por el hábito
los ejemplos tabáquico
anteriores se hanactual y un último
considerado otrosmodelo
determinantes del
para ser potenciales factores de confusión.
colesterol HDL distintos del índice de masa corporal, pero no se ha prestado especial
ajustado apor
atención la ambas
confusióncovariables. Todos los modelos se obtuvieron a partir de la el índice
La Tabla 11.10 muestraque podrían
las estimaciones inducir delestos factores
coeficiente en la asociación
asociado al índiceentre
de
de masa corporal y el colesterol HDL. La edad y el estatus socioeconómico no mostraron
misma
un muestra
efecto de 448 controles
independiente sobre losdel estudio
niveles deEURAMIC
colesterol con información
masa corporal en distintos modelos de regresión lineal, aHDL
saber,(Tabla 11.4),modelo
un primer por lo que no
cumplen una de las condiciones necesarias para ser factores de confusión. Sin embargo,
completa
el consumo dedetodas las variables.
alcohol y elunhábito Tomando
tabáquico como referencia el modelo
conajustado por
sin covariables de ajuste, segundo modeloactual sí sepor
ajustado asociaron
el consumo el
decolesterol
alcohol, HDL
independientemente del índice de masa corporal (Tablas 11.7, 11.8 y 11.9). Además, el
ambas covariables,
alcohol el cambio relativo queque se no produce en el la
coeficientedelestimado
un tercery modelo
el tabacoajustado
son factores
por elexternos
hábito tabáquico median
actualeny un relación
último modelo índice de masa
corporal con el colesterol HDL. Si ambas covariables se asociaran también con el índice
del masa
de índice corporal,
de masa corporal al excluir
verificarían el consumo
los tres de alcoholser es potenciales factores de
ajustado por ambas covariables. Todos los requisitos
modelos separa obtuvieron a partir de la
confusión.
misma
La Tabla muestra
11.10demuestra
448 controles b1|3del estudio
las estimaciones − 0,0225 EURAMIC
del coeficiente conasociado
información al índice de masa
= = 1,08;
corporal en distintos modelos de regresión
b1|2,3 − 0,0209 lineal, a saber, un primer modelo sin covariables
completa
de ajuste,de untodas las variables.
segundo Tomandopor
modelo ajustado como referenciade
el consumo el modelo
alcohol,ajustado
un tercerpormodelo
ajustado por el hábito tabáquico actual y un último modelo ajustado por ambas covariables.
es decir,
ambas
Todos losuna vez tenido
covariables,
modelos se en cuenta
elobtuvieron
cambio el hábito
relativo
a partirquedeselatabáquico
produce actual,
en
misma muestra las448
diferencias
el coeficiente
de endel
estimado
controles elestudio
EURAMIC con información completa de todas las variables. Tomando como referencia
consumo
del
el índicede
modelo de alcohol provocan
masa corporal
ajustado por ambas una
al excluir sobreestimación
el consumo
covariables, dedel
el cambio 100(1,08
alcohol es - que
relativo 1) = se
8%produce
en la en el
coeficiente estimado del índice de masa corporal al excluir el consumo de alcohol es
asociación inversa del índice de masa corporal con el colesterol HDL. Como se
b1|3 − 0,0225
= = 1,08;
apuntó en el Ejemplo 11.2, esto b1|2,es
3 − 0
debido , 0209
a que una pequeña parte de la reducción
es
deldecir, una vez
colesterol HDLtenido enlos
entre cuenta el hábito
sujetos tabáquico
con mayor índiceactual, las diferencias
de masa corporal seendebe el consumo
de decir,
es alcohol provocan
una unaen
vez tenido sobreestimación
cuenta el hábito deltabáquico
100(1,08actual,
– 1) = 8% en la asociación
las diferencias en el inversa
del índice dea su
en realidad masa corporal
menor con el
consumo decolesterol
alcohol. PorHDL. otraComo
parte,sesi apuntó en ellaEjemplo 11.2,
se excluye
consumo de alcohol
esto es debido a queprovocan una sobreestimación
una pequeña parte de la reduccióndel 100(1,08 - 1) = 8%HDL
del colesterol en laentre los
sujetos
variablecon mayor índice
indicadora de los de masa corporal
fumadores se debe
actuales, en realidad
el cambio relativoa essu menor consumo de
asociación
alcohol. Porinversa del índice
otra parte, de masalacorporal
si se excluye variablecon el colesterol
indicadora de los HDL. Como se
fumadores actuales, el
cambio relativo es
el hábitoentabáquico
apuntó el Ejemplo no11.2,
se asocia
estob1|es
2con el
− 0índice
debido ,0206
a quede una
masa corporal
pequeña en eldegrupo
parte control
la reducción
= = 0,99;
b1|2,3 − 0,0209 2
del
del estudio EURAMIC
colesterol HDL entre(lalos media
sujetosdelconíndice de masa
mayor índicecorporal
de masaescorporal
26,3 kg/m en los
se debe
esto es, una vez controladas las diferencias en la ingesta de alcohol, el hábito tabáquico
2
no fumadores
estorealidad
actual
en es,no y 26,1
unaintroduce
avez
su menor kg/m
controladas enlaslos
virtualmente
consumo defumadores
diferencias
ningún en
alcohol. actuales).
Porla otra
sesgo ingestalaPor último,
deasociación
enparte, alcohol,
si sielse
se excluye excluyen
hábito
objeto
la de estudio
(infraestimación del 100(0,99 – 1) = – 1%). Esto es consecuencia de que el hábito tabáquico
simultáneamente
tabáquico
no se asocia
variable actual
con el
indicadora ambas
noíndice
de covariables
introduce
los de masa
fumadores del
virtualmente
corporalmodelo,
ningún
en
actuales, el cambio
sesgo
elelgrupo
cambio enrelativo
control la del
relativo en el EURAMIC
asociación
estudio
es objeto (la
media del índice de masa corporal es 26,3 kg/m2 en los no fumadores y 26,1 kg/m2 en los
coeficiente
fumadores estimado del
de estudio (infraestimación
actuales). Poríndice
último, desimasa
del 100(0,99 corporal
- 1) = -1%).
se excluyen es Esto es consecuencia
simultáneamente de que del
ambas covariables
b − 0,0206
modelo, el cambio relativo en el1|2coeficiente
= estimado
= 0,99; del índice de masa corporal es
b1|2,3 − 0,0209 44
b1 − 0,0222
= = 1,06.
b1|2,3 − 0,0209
esto es, una vez controladas las diferencias en la ingesta de alcohol, el hábito
Pastor-Barriuso R.
220
Notar que actual
tabáquico esta sobreestimación del 6% es resultado
no introduce virtualmente de la en
ningún sesgo combinación de objeto
la asociación los
sesgos inducidos
de estudio de forma independiente
(infraestimación del 100(0,99 -por
1) =el-1%).
consumo
Estode
esalcohol y el hábito
consecuencia de que
Confusión e interacción en regresión lineal
Pastor-Barriuso R. 221
la covariable y, en consecuencia, deben obtenerse estimaciones específicas para cada
Regresión lineal múltiple
nivel, que están libres de confusión al referirse a sujetos con idéntico valor de la
covariable.
a corregir Porestimación
en la el contrario,
delcuando
efecto,nolaexiste interacción,
interacción el efecto
es una se asumeinherente
característica igual en de la
asociación a estudio, que debe describirse mediante estimaciones específicas del efecto de la
todosexplicativa
variable los niveles de
de interés
la covariable
en los ydistintos
basta entonces conmodificador
niveles del obtener una de
única estimación
efecto.
La confusión y la interacción son fenómenos diferentes que pueden o no ocurrir
para todos los sujetos, que sí podría estar confundida por diferencias en la distribución
simultáneamente. No obstante, cuando existe evidencia de interacción con una determinada
covariable, la valoración de la confusión inducida por dicha covariable es irrelevante. En
de la covariable. Por ello, en la práctica sólo tiene sentido controlar la confusión cuando
presencia de interacción, la magnitud del efecto varía según el nivel de la covariable y, en
consecuencia, deben obtenerse estimaciones específicas para cada nivel, que están libres de
se ha descartado previamente la presencia de interacción.
confusión al referirse a sujetos con idéntico valor de la covariable. Por el contrario, cuando no
existe interacción, el efecto se asume igual en todos los niveles de la covariable y basta entonces
Los efectos independientes de una variable explicativa de interés X y otra covariable
con obtener una única estimación para todos los sujetos, que sí podría 1estar confundida por
diferencias en la distribución de la covariable. Por ello, en la práctica sólo tiene sentido controlar
X2 sobre la variable respuesta Y se obtienen a partir del modelo de regresión lineal
la confusión cuando se ha descartado previamente la presencia de interacción.
Los efectos independientes de una variable explicativa de interés X1 y otra covariable X2
múltiple
sobre la variable respuesta Y se obtienen a partir del modelo de regresión lineal múltiple
Y = β 0 + β 1 x1 + β 2 x2 + ε ,
que incluye distintos términos para cada variable explicativa. Bajo este modelo, la relación entre
X1 eque incluye
Y para distintos términos
un determinado para
valor fijo cada
c2 de variable explicativa.
la covariable X2 viene dada Bajopor
este modelo,
E(Y|x la
1, c2) = (β0 + β2c2)
+ β1x1. Así, este modelo asume que no existe interacción entre X1 y X2 ya que el cambio esperado
en Yrelación
por cadaentre X1 e Y para
incremento de una un unidad
determinado valor
en X1 es fijo cigual
siempre 2 de la
a βcovariable X2 viene dada
1, independientemente del nivel
de X2. De hecho, los cambios en el valor de la covariable X2 sólo afectan a la constante de la recta
de regresión , c2Y) =sobre
por E(Y|x1de (β0 +Xβ1,2cpero β1xa1. su
2) + no Así, este modelo
pendiente. Estaasume quede
ausencia nointeracción
existe interacción
se representa
gráficamente en la Figura 11.6(a), donde las rectas de regresión de Y sobre X1 son líneas paralelas
de igual X1 y X2 yapara
entre pendiente quelos
el cambio
distintosesperado en Y pory cada
valores (puntos incremento
círculos) de una unidad
de una covariable en X1 X2.
dicotómica
En regresión lineal múltiple, la forma más sencilla de modelar la interacción entre la variable
es siempre igual a β , independientemente del nivel de X2. De hecho, los cambios en el
explicativa de interés X11 y la covariable X2 consiste en añadir al modelo un nuevo término con
el producto de ambas variables,
valor de la covariable X2 sólo afectan a la constante de la recta de regresión de Y sobre
Y = β 0 + β 1 x1 + β 2 x2 + β 3 x1 x2 + ε .
X1, pero no a su pendiente. Esta ausencia de interacción se representa gráficamente en la
Notar que el modelo ha de incluir el término producto X1X2 además de los términos
Figura 11.6(a), donde las rectas de regresión de Y sobre X1 son líneas paralelas de igual
principales para las variables X1 y X2. Bajo este modelo extendido con el término
pendiente para los distintos valores (puntos y círculos) de una covariable dicotómica X2.
producto,
y la recta de regresión de Y sobre X1 para un determinado valor fijo c2 de la
[Figura 11.6 aproximadamente aquí]
covariable X2 viene dada por E(Y|x1, c2) = (β0 + β2c2) + (β1 + β3c2)x1. Así, el nuevo
modelo contempla
En regresión la posibilidad
lineal múltiple, ladeforma
interacción entre Xde
más sencilla X2 ya que
1 ymodelar el cambio esperado
la interacción entre la
en Y por explicativa
variable cada incremento xde
de interésuna
X1 unidad en X1 es X
y la covariable igual a β1 +en
2 consiste β3añadir
c2, que depende
x1 al modelodel
un
1
nuevodetérmino
nivel con elque
X2 siempre el(a)coeficiente
producto de ambasβ3 del
variables, (b)
término producto sea distinto de 0. La
Figura 11.6 Rectas de regresión de la variable respuesta Y sobre la variable explicativa X1 para distintos
47
presencia
valores (puntosde interacción
y círculos) se covariable
de una ilustra en dicotómica
la Figura 11.6(b),
X2 que nodonde las rectas
interacciona con Xde regresión de
1 (panel a) y que inte-
racciona con X1 (panel b).
Y sobre X1 presentan distintas pendientes para los dos valores (puntos y círculos) deFigura
una11.6
Notar que el modelo ha de incluir el término producto X1X2 además de los términos principales
+ b3clas
para 2)x1variables
, de tal forma X2. elBajo
X1 yque cambio
este en el nivel
modelo medio decon
extendido Y por
el cada incremento
término delauna
producto, recta de
regresión de Y sobre X1 para un determinado valor fijo c2 de la covariable X2 viene dada por
E(Y|x
unidad c2) X=1 se
1, en (β0estima ) + (β1 +bβ1 3+c2b)x3c1.2.Así,
+ β2c2mediante Estaelcombinación
nuevo modeloconstituye un estimador
contempla la posibilidad de
interacción entre X1 y X2 ya que el cambio esperado en Y por cada incremento de una unidad en
X
insesgado
1 es igualdea βla1 pendiente
+ β3c2, queespecífica del nivel de X2 siempre que el coeficiente β3 del término
depende subyacente,
producto sea distinto de 0. La presencia de interacción se ilustra en la Figura 11.6(b), donde las
rectas de regresión de Y sobre X1 presentan distintas pendientes para los dos valores (puntos y
E(b + b3 c2 ) = E(b1 ) + E(b3 )c2 = β 1 + β 3 c2 ,
círculos) de una covariable1dicotómica X2.
+ b c )x ,
A diferencia
3 2 1 de tal forma que el cambio
de la confusión, la interacción en elsínivel de Y por cada incremento
medioestadísticamente
se evalúa mediante elde una
contraste
cuya varianza viene dada por (véase Apartado 3.4)
parcial del coeficiente β3 asociado al término producto. Si este coeficiente no difiere
unidad en X1 se estima
significativamente mediante
del valor nulo, elb1 + b3c2. de
efecto EstaX combinación constituye
sobre la variable un estimador
respuesta Y no variará
1
significativamentevar(b en los
1 +distintos niveles
b3 c2 ) = var(b 1) +decX22 2var(b
. En ausencia de interacción,
3 ) + 2c2 cov(b 1 , b3 ) ha de eliminarse el
insesgado de la pendiente específica subyacente,
término producto y volver al modelo con los términos principales de ambas variables, que
permite estimar el efecto global =deσ X2 (v 1 ajustado
2 por X . Por el contrario, si el coeficiente β del
11 + c 2 v33 + 2c22 v13 ), 3
término producto resulta significativo,
E(b1 + b3 c2 ) el efecto
= E(b 1 ) +de X13 )c
E(b diferirá
2 = β1 +significativamente
β 3 c2 , según el nivel
de X+2 by, cen)xconsecuencia, se tendrá una interacción significativa entre ambas variables. Aunque
3 2 1, de tal forma que el cambio en el nivel medio de Y por cada incremento de una
queestimaciones
las depende de las de varianzas de b1 ydel
los coeficientes b3 ymodelo
tambiéncon de elsutérmino
covarianza ya que,nocomo
producto tienenseen general
cuya varianza viene dada por (véase Apartado 3.4)
una+unidad
interpretación
b3c2)xen , de tal directa,
forma que pueden
el cambiocombinarse
en el nivel para
medioobtener
de
1 X se estima mediante b + b c . Esta combinación constituye un estimador Y estimaciones
por cada especificas
incremento de la
de una
1 1 3 2
muestra en
relación de elX1Apéndice
con la variable tema, las Yestimaciones
de esterespuesta en los distintos de los de X2. Para
coeficientes
niveles de regresión
un determinado
valor fijo
unidad
insesgadocen
2 deX la
de secovariable
estima X ,
mediantela ecuación
var(b1 + bespecífica
1 la pendiente b +
23 c2 ) = var(b b c de . regresión
Esta
2
estimada
combinación es ŷ(x
constituye
31 ) 2+ c 2 var(b3 ) + 2c2 cov(b1 , b31) 2
1 subyacente, , c )
un= (b0 + b2c2) + (b1
estimador
+ b3c2)x1,están
múltiple de talcorrelacionadas.
forma que el cambio Así, elenintervalo
el nivel medio de Y poralcada
de confianza 100(1 - α)% paradelauna unidad
incremento
en X se
insesgado
1 estima de mediante
la b
pendiente 1 + b c .
específicaEsta combinación
2 subyacente, 2
3 2 = σ (v11 + c v33 + 2c2 v13 ), constituye un estimador insesgado de la
pendiente específica
subyacentesubyacente, E(b +
β1 + β3c12 de lab c ) = E(b ) +
2
E(b )c =
3 2relación1 entre X3 e2Y en1 el valor
1
β + β c ,
3 2 c de la covariable
2
Xque sedepende
correlacionadas.
calcula
2 masa
de
Así,
como laselvarianzas
intervalo de 1 y b3 y también
de bconfianza al 100(1 de–suα)% covarianza ya que, como
para la pendiente se
subyacente β1
corporal sobre el colesterol HDL en los estratos de fumadores actuales y no
3c2 de
+ βque la relación
depende entre X1 e Y de en bel1 valor
y blas ctambién
2 de la covariable X2 se calcula como
muestra en eldeApéndice
las varianzas
de este tema, 3 y estimaciones de sudecovarianza ya que,
los coeficientes decomo se
regresión
fumadores actuales,bse+ ajustó b3 c2 ±un tn−pmodelo de regresión 2 lineal múltiple en los
1 −1,1−α /2 s v11 + c 2 v 33 + 2c 2 v13 .
muestra en el Apéndice de este tema, las
múltiple están correlacionadas. Así, el intervalo de confianza estimaciones de los coeficientes
al 100(1 - αde )%regresión
para la
controles del estudio EURAMIC que incluía los términos principales del índice de
Ejemplo
múltiple 11.13
están Para evaluar
correlacionadas. Así,unael posible
intervalomodificación
de confianzadel efecto- del
al 100(1 α)%índice
para lade masa
pendiente subyacente β1 + β3c2 de la relación entre X1 e Y en el valor c2 de la covariable
corporal
masa sobre
corporal
Ejemplo 11.13 el colesterol
X1, el consumo
Para HDL
evaluardeuna en los
alcohol
posible estratos de
X2modificación fumadores
y la variable indicadora actuales
del efecto del X3 de y no fumadores
los
índice de
actuales,subyacente
pendiente se ajustó β un1 +modelo
β c de de
la regresión
relación lineal
entre X múltiple
e Y en el en los
valor ccontroles
de la del
covariable estudio
X2 EURAMIC
se calcula como
que incluía los
3 2
términos principales del
1
índice de masa
2
corporal X , el consumo
fumadores actuales,
masa corporal así el
sobre como un término
colesterol HDLadicional
en los estratoscon elde producto
fumadores entre el 1índice
actuales y no
de alcohol
X2 se calcula comoX 2 y la variable indicadora X 3 de los fumadores actuales, así como un término
adicional con
de fumadores
masa corporal el producto
y la entre
b1 variable el índice
c2 ± indicadora de masa corporal y la variable indicadora de los
actuales, +seb3ajustó α/2 s de
un modelo vdelosregresión
fumadores actuales,
lineal múltiple en los
2
tn-p-1,1- 11 + c 2 v 33 + 2c 2 v13 .
fumadores actuales,
2
controles del estudio b1 + bEURAMIC
3c2 ± tn-p-1,1-que α/2 sincluía
v + clos 2 v 33 + 2c 2 v13principales
términos . del índice de
Y = β 0 + β 1 x1 + β 2 x2 + 11 β 3 x3 + β 4 x1 x3 + ε .
Ejemplo
masa 11.13XPara
corporal evaluar una posible modificación del efecto del índice de
1, el consumo de alcohol X2 y la variable indicadora X3 de los
estudio “European
En laStudy
donde Figuraon11.7
Antioxidants,
la correlación
3,50{b 1+
se entre b2Myocardial
representa
= b0,0049
4 ± t443;0,975
b4 se
1 y en trazo
SE(b
+ 0,0072
Infarction
obtiene
2 gruesode la and Cancer
la recta
segunda parteofde laestimada
de regresión
1 ++b2⋅0,0049⋅0,0072(-0,679)
4)}
Tabla 11.11.
= 0,000028,del
224 Pastor-Barriuso R.
the Breast“ (EURAMIC),
El IC al 95%
colesterol unpara
HDL estudio
sobre multicéntrico
el efecto
el específico
índice dedel
de masa casos y controles
índice
corporal de masa
entre losrealizado
corporal
fumadores en actuales
los con
= 3,50(-0,016 - 0,010 ± 1,97 0,000028
donde la correlación entre b1 y b4 se obtiene de la segunda ) = (-0,129;
parte de -0,056).
la Tabla 11.11.
entre 1991 y 1992 en
fumadores
una ochoactuales
ingesta países de
media Europeos
calculaede
sealcohol Israel
x =para
entonces evaluar
g/día, el efecto de los
como
16,5
= 3,50(-0,016 - 0,010 ± 1,97 0,000028 ) = (-0,129; -0,056).
continuación se describen los principales estimadores de la tendencia central de una
En la Figura 11.7 se representa en trazo grueso la recta de regresión estimada
Confusión e interacción en del
regresión lineal
variable.
colesterol HDL sobre el índice de masa corporal entre los fumadores actuales con
En la Figura 11.7 se representa en trazo grueso la recta de regresión estimada del colesterol
1.2.1 Media aritmética
una
HDL ingesta media
sobre el índice dede
alcohol de x 2 = 16,5
masa corporal entreg/día,
los fumadores actuales con una ingesta media
La media aritmética, denotada de x 2, =se16,5
de alcoholpor g/día,
define como la suma de cada uno de los
ŷ (x1 ; 16,5; 1) = (1,49 + 0,18) − (0,016 + 0,010)x1 + 0,0029 ⋅16,5
valores muestrales dividida por el número de observaciones realizadas. Si denotamos
= 1,72 − 0,026x1 .
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n,
En conclusión, a partir del modelo con la interacción se tiene que un mismo incremento
de 3,50 kg/m2 en el índice de masa corporal se asocia con distintas disminuciones en el
la media vendría dada por
nivel medio de colesterol HDL de – 0,057 mmol/l en los no fumadores y – 0,09251mmol/l
en los fumadores actuales. El cambio en la magnitud del efecto es notable pero, debido
al limitado1 tamaño
n
xmuestral
+ x 2 + ...de
+ xambos estratos, las estimaciones específicas son
x = xi = 1 n
.
relativamente imprecisas
n i =1 y el
n test de interacción no alcanza la significación estadística.
Por tanto, los resultados de este estudio no son concluyentes respecto a la posible acción
sinérgica del índice de masa corporal y el tabaco en los niveles de colesterol HDL, y se
La media es la medida de tendencia
requeriría de un central
estudiomásmásutilizada
potente ypara
de más fácil un cambio subyacente de dicha
detectar
magnitud en los efectos específicos del índice de masa corporal en fumadores y no
interpretación. Corresponde al “centro
fumadores de gravedad” de los datos de la muestra. Su
actuales.
principal limitación es que está muy influenciada por los valores extremos y, en este
Tabla 11.11 Resultados de la regresión lineal múltiple del colesterol HDL
caso, puede no ser unsobre
fiel reflejo de la de
el índice tendencia central de(IMC),
masa corporal la distribución.
el consumo de alcohol, la variable
indicadora de fumadores actuales y el producto entre IMC y fumador actual
en el grupo control del estudio EURAMIC.
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
Coeficientes de regresión
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
Test H0: βj = 0
Estimación Error estándar IC al 95% t Valor P
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of
Constante 1,49 0,13 (1,24; 1,75) 11,47 < 0,001
IMC – 0,016 0,0049 (– 0,026; – 0,007) – 3,30 0,001
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado
Alcohol 0,0029 0,0006 (0,0018; 0,0041) 4,88 < 0,001
Fumador
entre 1991 y 1992 0,18
en ocho países Europeos 0,19para evaluar
e Israel (– 0,20; 0,55) de los0,91
el efecto 0,36
IMC·Fumador – 0,010 0,0072 (– 0,024; 0,004) – 1,40 0,16
Pastor-Barriuso R. 225
Regresión lineal múltiple
2,25
2
Colesterol HDL (mmol/l)
1,5
0,5
0,25
20 24 28 32 36
En el mismo modelo,
cada variable
E(Y|x losx2cambios
1 explicativa
+ 1, ) - E(Y|x , x2 ) = β 0 +enβ 1Y(x1al+aumentar
son 1esperados 1) + β 2 x2 por + β 3separado
(x1 + 1)x2una unidad cada
variable explicativa son
En el mismo modelo, los cambios esperados en Y al aumentar por separado una unidad
- (ββ00 ++ββ11(xx11 + 1)
E(Y|x1 + 1, x2 ) − E(Y|x1 , x2 ) = β 2 x+2 β+2 xβ23+
x1βx23)(x=1 +β 11)x
+ 2β 3 x2
cada variable explicativa son − ( β 0 + β 1 x1 + β 2 x2 + β 3 x1 x2 ) = β 1 + β 3 x2
y
y
E(Y|x1 + 1, x2) - E(Y|x1, x2) = β0 + β1(x1 + 1) + β2x2 + β3(x1 + 1)x2
y
E(Y|x1 , x2 + 1) − E(Y |x1 , x2 ) = β 0 + β 1 x1 + β 2 (x2 + 1) + β 3 x1 (x2 + 1)
-−((ββ0 ++ββ1xx1 ++ββ2xx2 ++ββ3xx1xx2))==ββ1 ++ββ3xx2 .
E(Y|x1, x2 + 1) - E(Y|x1, x2) = β00+ β1x1 1 1+ β2(x 2 + 1) + β3x1(x2 + 1)
2 2 3 1 2 2 3 1
y - ( β0 + β1 x1 + β2 x2 + β3 x1 x2 ) = β2 + β3 x1 .
Así, si existe interacción entre X1 y X2, el coeficiente β3 asociado al término producto
226 x2 + 1) - E(Y|x
E(Y|x1,
Pastor-Barriuso R. ) =X2β, 0el+coeficiente
1,Xx12y β1x1 + β2(xβ23 +asociado
1) + β3x1(xtérmino
2 + 1)
seráAsí, si existe
distinto de 0interacción
y el efectoentre
conjunto de ambas variables diferirá al
de la sumaproducto
de sus
(β0ambas
será distinto de 0 y el efecto conjunto- de + β1x1variables
+ β2x2 +diferirá
β3x1x2)de β2suma
= la + β3xde
1. sus
efectos independientes,
será distinto de 0 y el efecto conjunto de ambas
- (β 0 +variables
β 1 x1 + β 2diferirá
x2 + β 3 xde
1 x2 )la=suma
β 2 + βde
3 xsus
1.
E(Y |xde
será distinto 1 +01, y xel2 + 1) - E(Y|x
efecto 1 , x2 )de ambas variables diferirá de la suma de sus
conjunto
Así, si existe interacción entre X1 y X2, el coeficiente β3 asociado al término producto será
distinto 0 y el- {E(Y|x
deindependientes,
efectos + 1, x2 ) - de
efecto 1 conjunto E(Y|x 1 , x2 ) +
ambas E(Y|x1 , xdiferirá
variables 2 + 1) - E(Yde |x x2 )} de sus efectos
la1 , suma
independientes,
+ β 2 +20;
= βŷ1 (28,5; = x1,49
β 3 (x0)1 + 2 + 1) - (β 1 + β 3 x2++0,0029⋅20
- 0,016⋅28,5 β 2 + β 3 x1 )==1,091,
β 3.
E(Y |x1 + 1, x2 + 1) − E(Y|x1 , x2 )
ŷ−(28,5;
{E(Y|x20; 1 + 0)
1, =x21,49 - 0,016⋅28,5
) − E(Y|x + 0,0029⋅20
1 , x2 ) + E(Y|x 1 , x2 + 1)= −1,091,
E(Y |x1 , x2 )}
el de los fumadores actuales con un índice de masa corporal de 25 kg/m2 y un
Ejemplo 11.14=Aβ 1partir + β2 + deβlas (x estimaciones
+ x + 1) − (βdel modelo con el término producto
1 + β 3 x2 + β 2 + β 3 x1 ) = β 3 .
ŷ (28,5; 20; 0)3 = 11,492 - 0,016⋅28,5 + 0,0029⋅20 = 1,091,
el de los fumadores
consumo de alcohol actuales de 20 g/día cones un índice de masa corporal de 25 kg/m2 y un
de la Tabla 11.11, el nivel medio de colesterol HDL de los no fumadores con un
Ejemplo 11.14 A partir de las estimaciones del modelo con el término 2
producto de la
elconsumo
de los
Tabla 11.11, de alcohol
fumadores
el nivel de
medio20 g/día
actuales decon es
un 2índice
colesterol HDLde masa
de los corporal
no de 25 kg/m
fumadores con un yíndice
un de masa
índice de ŷ (25,
masa 20,corporal1) = 1,49 de -25 0,016⋅25
kg/m y+un 0,0029⋅20
consumo+de 0,18 - 0,010⋅25
alcohol de 20=g/día
1,070 es
corporal
Ejemplo de 25 ŷ kg/m
11.14 (28,5; y20;
A partir
2
un0)consumo
de= las
1,49 -de alcohol del
estimaciones
0,016⋅28,5 de
+ 20 g/día con
modelo
0,0029⋅20 es= 1,091,
el término producto
consumo de alcohol de 20 g/día es
ŷ (25, 20, 1) = 1,49 - 0,016⋅25 + 0,0029⋅20 + 0,18 - 0,010⋅25 = 1,070
y elde delalos Tablafumadores ŷ (25, el
11.11, 20,nivel
0) =medio
actuales 1,49
con un − 0,016⋅
deelevado 25 +índice
colesterol 0,0029⋅20
HDL de demasa = 1,148,
los corporal de 28,5
no fumadores con un
2
el de los fumadores ŷ (28,5; actuales
20; con un índice de masa corporal de 25 kg/m y un
el de 2losŷ no (25, 20,
fumadores 1) = 1,49con0) un =elevado
1,49 - 0,016⋅28,5
- 0,016⋅25 +2 0,0029⋅20
índice de masa++ 0,0029⋅20 =
de1,091,
0,18 - 0,010⋅25
corporal 28,5=kg/m
1,070 2
y un consumo
y elíndice
kg/m deylos unde fumadores
consumo
masa deactuales
corporal alcohol
de con
25 un
20 elevado
dekg/m g/día
y un índice dedemasa
esconsumo corporal
alcohol de 20 deg/día
28,52 es
de
el alcohol
de los no de 20
fumadores
consumo de alcohol de 20 g/día es g/día es
con un elevado índice de masa corporal de 28,5 kg/m y un
2los fumadores actuales con un índice de masa corporal de 25 kg/m2 y un
yel eldede
kg/m ylos ŷ (28,5; de
unfumadores
consumo 20; 0) = 1,49
alcohol
actuales con −200,016⋅28,5
de un g/día es índice
elevado + 0,0029⋅20
de masa=corporal1,091, de 28,5
ŷ (28,5;
consumo de 20;alcohol 1) =ŷ de
1,49
(25, - g/día
2020, 0,016⋅28,5
0) =es1,49 +- 0,016⋅25
0,0029⋅20+ +0,0029⋅20 0,18 - 0,010⋅28,5
= 1,148, = 0,978.
el de 2los ŷ (25, 20, 1) = 1,49 - 0,016⋅25
fumadores + 0,0029⋅20 + 0,18 - 0,010⋅25 = 1,070
consumo
kg/m y un alcohol actuales
deconsumo de
de 20 g/día
alcohol conde esun20índice
g/día de es masa corporal de 25 kg/m2 y un consumo
2
eldede ŷ los
(28,5;
alcohol de20;
fumadores 201)g/día =actuales
1,49es - 0,016⋅28,5
con un índice + 0,0029⋅20
de masa +corporal 0,18 - 0,010⋅28,5
de 25 kg/m= 0,978.
y un 2
Tomandoel de los comono fumadoresreferencia con a losunsujetos
elevado noíndice
fumadores de masa concorporal
un índicedede28,5masa kg/m 53 y un
y el de los ŷ (25,fumadores actuales con un elevado índice de masa corporal de 28,5
consumo ŷ (28,5; de 20; 20,1)1)==2de
alcohol 1,49
1,49 20-g/día0,016
−0,016⋅28,5es⋅25 ++0,0029⋅20
0,0029⋅20++0,18 0,18−-0,010 ⋅25 = 1,070
0,010⋅28,5 = 0,978.
Tomando
corporal
consumo decomo 25
de referencia
kg/m
alcohol , losde no a los
20 sujetos
fumadores
g/día es no
confumadores
un elevadocon un índice
índice de masade masa
corporal
2
y el de
kg/m ylos
unfumadores
consumo de actuales
alcoholcon de un20elevado
g/día esíndice de masa corporal de 28,5 kg/m2 y un
deconsumo
ycorporal
el28,5
Tomando de ŷlos de
(25,
de
kg/mcomo alcohol
fumadores
252
20, kg/m1) =2de
presentan
referencia 20
, 1,49
los no
unag/día
actuales con
a- 0,016⋅25es un +elevado
fumadores
disminución
los sujetos 0,0029⋅20
con
no en laíndice
un + 0,18
elevado
media
fumadores de masa
delíndice
con un corporal
-colesterol
0,010⋅25
de masa
índice HDL
de de
= 1,070 28,5
corporal
masa de
53
ŷ 2(28,5; 20; 1) = 21,49 − 0,016⋅28,5 + 0,0029⋅20 + 0,18 − 0,010⋅28,5 = 0,978.
kg/m
de 28,5y kg/m
corporal un
de consumo
2
25ŷpresentan
kg/m de alcohol
una fumadoresde 20 g/día
disminución enesla elevado
media del colesterol HDL de
yTomando
el de loscomo fumadores (28,5;, actuales
los
20; no
0) - con ŷ (25,
un 20, con
0) =un1,091
elevado índice - de índice
1,148
masa
de masa
= corporal
-0,057, corporal
de 28,5
referencia a los sujetos no fumadores con un índice de masa corporal de
25
Tomando
de 28,5 kg/m 2
, los
como 2 no fumadores con un elevado índice de masa corporal de 28,5 kg/m2
kg/m20;ŷpresentan referencia unaa0,016⋅28,5
los sujetos+no
disminución enfumadores con un índice de = masa
kg/m ŷ2(28,5;
y un consumo 1) = 1,49
(28,5; de 20; -0)
alcohol - ŷde(25,20 20,
g/día 0) =la1,091
0,0029⋅20
es
media del colesterol
+- 0,18
1,148 = -0,057,HDL
- 0,010⋅28,5 0,978.
presentan
los fumadores una disminución
actuales con en la media
el mismo del colesterol
índice de masa corporal HDL de de 25 kg/m2 de
corporal de 25 kg/m2, los no fumadores con un elevado índice de masa corporal
ŷ (28,5; 20; 0) − ŷ (25, 20, 0) = 1,091 − 1,148 = − 0,057, 2
Tomando
los fumadores
ŷ (28,5; como
20;actuales referencia
1) = 1,49 con- a0,016⋅28,5
ellos sujetos
mismo +no
índice fumadores
de masa+ corporal
0,0029⋅20 con -un
0,18 índice de =masa
de 25 kg/m
0,010⋅28,5 de
0,978.
2 ŷ (25, 20, 1) - ŷ (25, 20, 0) = 1,070 - 1,148 = -0,078
delos28,5 kg/m presentan
fumadores actuales con unaeldisminución
mismo índice en dela media del colesterol
masa corporal de 25 HDL
kg/m2de de
corporal
los fumadores de 25 actuales kg/m2, los connoelfumadores
mismo con de
índice un masa
elevado índicede
corporal de25masa
kg/m 2
corporal
de
Tomando como ŷ (25,
referencia20, 1)a −
los ŷ (25,
sujetos20, no0) = 1,070
fumadores − 1,148
con =
un − 0,078
índice de masa
y los fumadores actuales con un elevado índice de masa corporal de 28,5 kg/m2 de
2 ŷ (28,5; 20; 0) - ŷ (25, 20, 0) = 1,091 - 1,148 = -0,057,
de
y los28,5 kg/m presentan
fumadores actuales una
condisminución
un elevado índice en la media
de masa delcorporal
colesterol de HDL de 2 de
28,5 kg/m
corporal de 25 kg/m ŷ (25,2 20, 1) - ŷ (25, 20, 0) = 1,070 - 1,148 = -0,078
, los con
no fumadores
y los fumadores actuales un elevadocon un elevado
índice de masaíndice corporal de de
masa corporal
28,5 kg/m2 de
ŷ (28,5; 20; 1) − ŷ (25, 20, 0) = 0,978 − 1,148 = − 0,170. 2
los fumadores2 ŷactuales (28,5; 20; con0)el-mismoŷ (25, índice
20, 0) =de masa-corporal
1,091 1,148 = de 25 kg/m de
-0,057,
de
yAsí, 28,5 kg/m
loslafumadores presentan
actuales una disminución en la media del colesterol de HDL de 2 de
disminución ŷ (28,5; media20;condel-un
1) ŷ elevado
colesterol
(25, 20, HDL índice dede– 0,170
0) = 0,978 masa
- 1,148 corporal
mmol/l 28,5conjuntamente
debida
= -0,170. kg/m a
Así,
fumar la ydisminución
aumentar elmedia
ŷ (25, 20, 1)del
índice - ŷcolesterol
de masa corporal
(25, 20, HDL
0) esdemayor
= 1,070 -0,170
- 1,148enmmol/l
valor debida que la suma de
absoluto
= -0,078 2
los
las fumadores ŷŷactuales con–el0,078mismo índice =de masa corporal decada factor de
25 kg/m
disminuciones (28,5;
– 0,057
(28,5; 20; 1) -- ŷŷ (25,
20; 0) (25, 20,
20, 0)
= – 0,135 1,091
0,978 -- debidas
0) =mmol/l 1,148
1,148 = = a-0,057,
-0,170. por separado.
Así,
En otrasla disminución
conjuntamente palabras, losmedia
a fumar datos del estudio
y aumentar
del colesterol
el EURAMIC
índiceHDL dede -0,170
masa
apuntan mmol/l
corporal es debida
mayor
a un posible en valor
efecto supraaditivo
2
yo los fumadores
sinérgico del ŷactuales
índice
(25, de
20, con
masa
1) - unŷ elevado
corporal
(25, 20, y índice
0)el= tabacode
1,070 masa
sobre
- 1,148 corporal
los= niveles
-0,078de 28,5
de kg/m
colesterol
2
deHDL.
los fumadores
conjuntamente
absoluto
Así, que la asuma
la disminución actuales
fumarmedia con
deylas el
aumentarmismo
disminuciones
del colesterol índice
el índice HDL de masa
dedemasa
-0,057 -0,170corporal
corporal
- 0,078 de 25 kg/m
esdebida
= -0,135
mmol/l mayor
mmol/l de
en debidas
valor
ŷ (28,5; 20; 1) - ŷ (25, 20, 0) = 0,978 - 1,148 = -0,170. 2
ayabsoluto
los fumadores
cada que por
factor
conjuntamente actuales
la aŷsuma de
separado.
fumar
(25, 20, con
ylas - un
1)En elevado
disminuciones
ŷotras
aumentar (25, índice
elpalabras,
índice
20, 0) = dedatos
-0,057
los
de -masa
masa
1,070 -0,078corporal
==
del deEURAMIC
-0,135
estudio
corporal
1,148 28,5enkg/m
mmol/l
es mayor
-0,078 valorde
debidas
Así, la factor
a cada
apuntan
absoluto disminución
aque por
un la
posible
ŷ suma media
separado.
(28,5;efecto
de del
20;las
1)En colesterol
otras
supraaditivo20, HDL
(25,palabras,
disminuciones
-unŷ elevado de -0,170
los datos
o0)sinérgico
-0,057
= 0,978 -del
- 0,078mmol/l
del
índice
1,148 dedebida
=estudio
-0,135
= EURAMIC
masa corporal
mmol/l
-0,170. debidas y
y los fumadores actuales con índice de masa corporal de 28,5 kg/m2 de
conjuntamente
apuntan
ael tabaco
cada asobre
un por
factor alos
fumar
posible y aumentar
efecto
niveles
separado. deEn otraselpalabras,
supraaditivo
colesterolíndice
HDL. delos
masa
o sinérgico corporal
del
datos índice
del esdemayor
estudio masa en valor y
corporal
EURAMIC
Así, la disminución media del colesterol HDL de -0,170 mmol/l
ŷ (28,5; 20; 1) - ŷ (25, 20, 0) = 0,978 - 1,148 = -0,170. debida
absoluto
el tabacoaque
apuntan un la
sobre suma
posible de lasde
los niveles
efecto disminuciones
colesterol HDL.
supraaditivo -0,057 - 0,078
o sinérgico = -0,135
del índice mmol/l
de masa debidas
corporal y
Pastor-Barriuso R. 227
conjuntamente a fumar y aumentar el índice de masa corporal es mayor en valor
aAsí,
elcadala factor
disminución
tabaco porlos
sobre media del
separado.
niveles de colesterol
Encolesterol HDLlos
otras palabras,
HDL. de datos
-0,170delmmol/l
estudiodebida
EURAMIC
absoluto que la suma de las disminuciones -0,057 - 0,078 = -0,135 mmol/l debidas 54
MÚLTIPLE
Según la estructura de la regresión lineal múltiple presentada en el Apartado 11.2, cada
media 0 y varianza constante σ 2. Estas n ecuaciones lineales pueden reescribirse en
11.8
una
Según
Regresión deAPÉNDICE:
las
la
lineal estructura
múltiple
FORMULACIÓN
n observaciones
de la regresión independientes lineal MATRICIAL
(yi, xi1, …,
múltiple xDE
presentada LAenREGRESIÓN
ip) presenta el la LINEAL
relación11.2,
Apartado lineal cada
forma matricial como
MÚLTIPLE
una de las n observaciones independientes (yi, xi1, …, xip) presenta la relación lineal
yi = β 0 + β 1 xi1 + … + β p xip + ε i, i = 1, …, n,
11.8 APÉNDICE: FORMULACIÓN y
1 1 x MATRICIAL
11 x1p DE LA ε REGRESIÓN
1 LINEAL
SegúnMÚLTIPLE yi = β0 + β 1 xi1 + … + β p xip + ε i, i = 1,en
la estructura de la regresión lineal múltiple β
presentada
0 …,el n,
Apartado 11.2, cada
donde los errores aleatorios εi son independientes y están distribuidos
normalmente con
= β1 +
una la
Según las n observaciones
deestructura de la regresión independientes
lineal múltiple (yi, xpresentada
i1, …, xip) presenta
en el Apartado la relación11.2,lineal
cada una de
donde los errores aleatorios ε son 2
independientes yestán
distribuidos normalmente
las media 0 y varianza
n observaciones constante
independientes iσ .(yEstas
i i1 , x , n
…, ecuaciones
x ip ) presenta
β lineales
la pueden
relación
reescribirse
lineal en con
p
yi = β0 y+n β 1 x2i11+ … x n1+ β x i =ε1,n …, n,
p xip +npε i,
media 0 y varianza
forma matricial como constante σ . Estas n ecuaciones lineales pueden reescribirse en
donde los errores aleatorios εi son independientes y están distribuidos normalmente con media
0 ydonde
o,varianza
forma los constante
errorescomo
matricial
abreviadamente, σ2. Estasεi nson
aleatorios independientes
ecuaciones lineales y están
pueden distribuidos
reescribirse normalmente con
en forma matricial
como y1 1 x11 x1 p ε 1
2 β 0
media 0 y varianza constante σ . Estas n ecuaciones pueden
y1 1 x11y = Xβ +x1εp , βlineales1 ε 1
reescribirse en
= β 0 +
forma matricial como
donde y es un vector n × 1 con
=los
valores de lavariable ββ 1 respuesta,
X es una matriz de
y n 1 x n1 x np p + εn
y1 columnas 1 x11sonlos xvalores 1p β ε 1
dimensión n × (p + 1) cuyas de cada variable explicativa más
y n 1 x n1 x np β 0p ε n
o, abreviadamente, β
una primera columna de unos,
o, abreviadamente, =βes un vector (p+1) ×1 1 con + los coeficientes de
o, abreviadamente,
y = Xβ + ε , β
regresión y ε es un vector n × 1 con los errores aleatorios. p El ε nvector
de errores aleatorios
y n 1 x n1 x np
donde y es un vector n × 1 con los valores de β + ε, respuesta, X es una matriz de dimensión
y =laXvariable
ε(psigue
n ×donde+ 1)ycuyases uncolumnas
entonces una ndistribución
vector ×son 1 con losnormal
los valores valoresde cada de la variable
multivariante
variable respuesta,
con
explicativa mediamás 0Xy es una
matriz
una matriz
diagonal
primera de
columna
de unos,
o, β es un vector (p + 1) × 1 con los coeficientes de regresión y ε es un vector n × 1 con
abreviadamente,
asunción de homogeneidad 2de la varianza, todas las varianzas de la diagonal de la
los donde
errores
dimensión
de y aleatorios.
es nun× vector
(p + El
varianzas-covarianzas 1)nvector
× 1σcon
cuyas de, los valores
errores
Icolumnas de
loslavalores
aleatorios
son variable
ε siguederespuesta,
entonces
cada X esexplicativa
una
variable una matrizmás
distribución de
normal
multivariante con media 0 y matriz diagonal de varianzas-covarianzas σ I,
2
matriz de varianzas-covarianzas son iguales y = Xβa + σ ε2 ,y que, por tratarse de observaciones
dimensión n × (p + 1) cuyas columnas son
una primera columna de unos, β es un vector (p 2+ 1) × 1 con los coeficientes los valores de cada variable explicativa
de más
ε ~ N(0, σ I),
independientes, las covarianzas de fuera de la diagonal son iguales a cero.
donde
regresión y esy un
una 0primera
donde denota esvector
el vector
εcolumna ndenulo
un vector × unos,1ncon ×n 1×βlos valores
1escon
con un todos
losvector de sus
errores laaleatorios.
(p variable
1) × 1 respuesta,
+componentes conEl los Xdeeserrores
iguales
vector a una
coeficientes ceromatriz de la
I denota
ealeatorios
de
donde
matriz 0 denota
Aidentidad
partir denesta×elnvector
con unos
formulación nuloenn matricial
× 1diagonal
la con todos sus componentes
dely modelo
ceros fuera de ella.iguales
de regresión Notar amúltiple,
linealque, cero I denota
pore la asunción
resulta
de homogeneidad
dimensión
regresión
ε sigue entoncesynε×es(p de
un+lavector
una 1)varianza,
cuyas
distribución 1todas
n ×columnas con lasson
los
normal varianzas
los valores
errores de ladecon
aleatorios.
multivariante diagonal
cada
Elmedia de0 de
variable
vector ylamatriz
matriz de
explicativa
errores varianzas-
más
aleatorios
diagonal
covarianzas
la son iguales
identidad na× σ n
2
y que, por tratarse de observaciones
sencillo calcular las estimaciones de los coeficientes de regresión por el método de la
matriz con unos en la diagonal y ceros fuera independientes,
de ella. Notar las covarianzas
que, por
de fuera
una
ε sigue
de deentonces
primera la diagonal
columna
varianzas-covarianzas unason de iguales
distribuciónσ 2I, βaescero.
unos, un vector
normal (p + 1) × 1con
multivariante conmedia los coeficientes
0 y matriz de diagonal
55
mínimos
A partir decuadrados.
esta formulaciónEn el Apartado matricial11.3.1, del modelo se comprobó
de regresión quelineal estas múltiple,
estimaciones vienen
resulta sencillo
regresión y ε es un vector
de varianzas-covarianzas
calcular las estimaciones de los
2
σn ×Icoeficientes
,1 con los errores de regresiónaleatorios. por el Elmétodo
vector de errores
mínimos aleatorios
cuadrados.
ε ~ N( 0, σ 2I),
En dadas por la solución
el Apartado 11.3.1, seal comprobó
sistema de que p + 1estas ecuaciones
estimaciones lineales vienen dadas por la solución al
ε sigue
sistema de entonces una distribución
p + 1 ecuaciones lineales normal multivariante 2 con media 0 y matriz diagonal
ε ~ N(0, σ I),
donde 0 denota el vectorn nulo n × 1 con ntodos sus componentes n iguales a cero e I denota
de varianzas-covarianzas σy i I=, nb0 + b1 xi1 + ... + b p xip ,
2
donde
la matriz 0 denota
identidad el vector
n ×n n con
i =1 nulounos n × 1nencon =todos
la i diagonal
1
n
susycomponentes
ceros i =1 fuera de
n
iguales
ella. Notar e I denota
a ceroque, por la
xi1 y i = b0 1 xεlai1 ~+diagonal
la matriz identidad n i×=1 n con unosi =en
b10
N( , σx2i1I),+ ... + b p x i1 x ip ,
i =1
2
la matriz identidad n × n con unos en la diagonal y ceros fuera de ella. Notar que, por la
que puede representarse matricialmente como
55
y 1 x11 x1 p
1 1 1 1 1 b0
x x n1 x11
x n1 b
11R. 1
228 Pastor-Barriuso
=
x np x1 p
b
x1 p x np
y 1 x x p
i =1 i =1 i =1 i =1
n n n n
x
y i = b0 x ip + b1 x i1 x ip + ... + b p x ip2 ,
ip
que puede representarse
i =1 matricialmente
i =1 como i =1 Apéndice: formulación
i =1matricial de la regresión lineal múltiple
ecuación anterior por la matriz inversa (X′X)-1, se obtienen las estimaciones de los
que puede representarse matricialmente y1 como 1 x11 x1 p
1
quecoeficientes
puede representarse 1
matricialmente como
de regresión 1 1 b0
x
x n1 x11
x n1 b
11 y 1 x
11 x 1
1p
1 1 1 = 1 -1 1 b0
b = (X′X) X′y.
x
x111p
xx np
xx111p
xx np bb
1p
ecuación anterior por la matriz
n1
y =
ninversa -1 n1
(X′X) , se obtienen 1las estimaciones
x x de los
n1 np
Deesta formula matricial se desprende que los estimadores
de mínimos cuadrados b
x x x x b
1 p anterior
coeficientes de regresión inversa
np
1 p(X′X) , se obtienen
-1 las estimaciones de los
np
ecuación
o,
por la matriz
y los
n 1 x n1 y, x p
sonabreviadamente,
combinaciones lineales de valores de la variable respuesta cuyosnpcoeficientes
o, abreviadamente,
coeficientes de regresión b = (X′X)-1 X′y.
dependen de
o, abreviadamente, los valores de las variables = X′Xb, X que se asumen constantes. En
X′yexplicativas
-1
donde X' esta
De es laformula
consecuencia, matriz
si el traspuesta
matricialmuestral
tamaño se X yb
dedesprendenbes Xel′Xvector
que X′yestimadores
=es(suficientemente
) los .(p + 1) × 1de
grande, con las estimaciones
mínimos
puede unade
cuadrados
aplicarse b los
donde X′ es
coeficientes. Comola matriz traspuesta
el modelo de X X
de regresión y es=X
y ′blineal Xb
el′múltiple
, (pasume
vector + 1) ×que 1 conlas las estimaciones
variables explicativas
sonecuación
linealmente
son Decombinaciones independientes
estaanterior
generalización formuladelpor lineales
la matriz
teorema
matricial seylos
de quevalores
inversa
central delel límite
desprende (número
X′X de
que)-1para dedemostrar
la,los
se observaciones
variable
obtienen
estimadores respuesta
lasque yn, estimadores
es
estimaciones
de los
mínimos superior
cuyos de losbo igual
coeficientes
cuadrados b al
número de coeficientes
de los coeficientes.
donde X′ es la matriz Comop + 1, la matriz
el modelo
traspuesta de Xde X tiene
y bregresión rango
es el vector lineal p + 1
(p múltiple y, en
+ 1) × 1 asume consecuencia,
con lasque las
estimaciones la matriz
cuadrada
dependen
siguen X'X dees no
los
aproximadamente
coeficientes
son singular.
valores
de regresión
combinaciones linealesde Multiplicando
las
una variables
dedistribución
los valores de ambos
explicativas
normal lados
la variable X deque
multivariante la ecuación
se
respuesta asumen
con anterior
y, media por la
constantes.
cuyos coeficientes Enmatriz
variables
inversa
de los(X'X) explicativas
–1
, se obtienen
coeficientes. Como sonlaslinealmente
modelo deindependientes
el estimaciones linealy múltiple
de los coeficientes
regresión que eldenúmero asumede
regresión que observaciones
las
consecuencia, si
dependen de los valores el tamaño de muestral
las variables n es suficientemente
explicativas X-1 que se asumen constantes.una
grande, puede aplicarse
n es superior o igual E(
al bnúmero
) = E{(de X′X -1
)b X = ′(yX
coeficientes } ′=X)E{(
−1
pX+X .X)la X
′y′1, ′(Xβ +Xεtiene
matriz )} rango p + 1 En y, en
variables explicativas son linealmente independientes y que el número de observaciones
generalización
De esta formula
consecuencia, del teorema
matricial
si el tamaño=se central del
desprende
muestral límite
n)-1esXque para demostrar
los estimadores
suficientemente que
grande, los
de mínimos estimadores
puede aplicarse b
cuadradosuna b son
β + (XX′X ′ X ′E( ) los
= β estimadores
εsingular.
n es superior o igual al número de coeficientes p + 1, la matriz X tiene rango p + 1 y,laen
consecuencia,
De esta
combinaciones la
formula matriz
lineales de cuadrada
matricial
los se
valoresdesprende
de es
la noque
variable Multiplicando
respuesta y, de
cuyos ambos
mínimos lados
cuadrados
coeficientes de b
dependen
siguen
de los aproximadamente
valores de las
generalización delvariables una distribución
teorema explicativas
central del límite normal
X quepara multivariante
se asumen
demostrar constantes.con media
En consecuencia,
que los estimadores b si el
son
tamaño
y combinaciones
muestral
matriz de n es lineales
suficientemente
varianzas-covarianzas de los valores
grande, de la
puede variable
aplicarse
consecuencia, la matriz cuadrada X′X es no singular. Multiplicando ambos lados de la respuesta
una y , cuyos
generalización coeficientes
del teorema
central
siguendel aproximadamente
límite para demostrar
E(b) una que
= E{( Xlos
′X)estimadores
distribución
-1
X′y}normal = E{(bXsiguen
′X)-1 Xaproximadamente
multivariante ′(Xβ + con ε )} media
una distribución
56
dependen
normal de los valores
multivariante con media de las variables explicativas-1 X que se asumen constantes. En
var(b) = E{(b - β )(b - β )′} = E{(X′X) X′εε ′X(X′X)-1 }
-1
β +X (X′X′X)n−)1X X ′E(
} =ε )E{( = βX′X)−1 X′(Xβ + ε )}
consecuencia, si el tamaño E(b) =muestral
E{( es ′ysuficientemente
-1 grande, puede aplicarse una 56
= (X′X)-1 X′E(εε ′)−X ( X ′ X ) -1
= ( X ′ X ) X ′( σ
2
I ) X ( X ′ X) -1
= β + (X′X) 1 X′E(ε ) = β
generalización del teorema
y matriz de varianzas-covarianzas central del límite para demostrar que los estimadores b
y matriz de varianzas-covarianzas= σ 2 (X′X)-1 ,
siguen
y matrizaproximadamente una distribución normal multivariante con media
de varianzas-covarianzas
var(b) = E{(b − β )(b − β2)′} = E{(X′X)−1 X′εε ′X(X′X)−1 }
ya que E(ε) = 0 y E(εε′) = var( ε) = σ I por las asunciones de linealidad, aditividad,
= (X′X)−1 X′E(εε-1′)X(X′X)−1 = (X ′X −1 2
-1) X′(σ I)X (X′X)−1
var(b) E( b) =b E{(
= E{( Xb′X-)β)′}
- β)( X′y=} E{(
= E{( X)′XX
X′X -1 ) ′εε X(βX+′Xε))}}
X′(′X -1
homogeneidad de la varianza
= σ 2 (X′Xe)−independencia.
1
, Cada estimador de mínimos cuadrados bj
= (X′= X)β-1+ X)′)-1XX(′E(
(X′εε
X2′E( X′X ε))-1= =β (X′X)-1X′(σ 2I)X(X′X)-1
ya que E(ε) = 0 y E(εε') = var(ε) = σ I por las
es entonces un estimador insesgado de su correspondienteasunciones de linealidad,
coeficienteaditividad, homogeneidad
de regresión βj y
de la varianza e independencia. Cada 2estimador de mínimos cuadrados b es entonces un
ysigue E(εε = ′) 2= var(ε-1
(X′X) ),= σ I coeficiente
σcorrespondiente por las asunciones de linealidad, aditividad, j
yamatriz
estimador E(de
ε) varianzas-covarianzas
insesgado
= 0 y de su
queaproximadamente la distribución normal de regresión β j y sigue aproximadamente
la distribución normal
homogeneidad
ya 0de
que E(ε) = var(
yb la) εε
E( =varianza
′) = bvar(~βeε)(independencia.
)b=-σβ2)′} Cada-1 estimador
I por las asunciones de-1mínimos
de(Xlinealidad,
′εε…, cuadrados bj
aditividad,
E{( bj -→ N(β j, σ 2 v=jj ),E{(X′jX=) 0,X1, ′X p,′X) }
es entonces
homogeneidad
donde un estimador
vjj es el elemento ′insesgado
de la =varianza
(Xj)-ésimo
(j, εεde
′E(de ′)laXsu
X)-1eXindependencia. (Xcorrespondiente
matriz Cada
′X)-1(X'X)
–1 -1 coeficiente
= (X′estimadorX′(σ 2Ide
X.-1)Además, de)-1regresión
mínimos
los
)X bjβyj ybbkj de
cuadrados
(Xestimadores
′X
distintos vjj es el elemento
dondecoeficientes (j, j)-ésimo
de regresión estánde la matriz (X′X)con
correlacionados . Además, cov(bj, bkb) j=yσ 2vjk.
los estimadores
una covarianza
sigue
Cabe
es aproximadamente
destacar
entonces que
un estimador σ 2la(insesgado
Xdistribución
estas=distribuciones
′X)-1, muestrales
de su normal no requierencoeficiente
correspondiente de la asunción βj y y
de normalidad
de regresión
sonbkválidas
de distintos coeficientes
para cualquier de regresión
distribución están correlacionados
subyacente de la variable conrespuesta,
una covarianza
siempre que el
tamaño muestral sea suficientemente
sigue aproximadamente labdistribución ~ grande. normal j = 0, 1, …, p,
2
j → N(βj,2σ vjj),
ya
cov(b bk)ε)==σ02vyjkE(
quej, E( εε′) =destacar
. Cabe var( ε) =que
σ Iestas por las asunciones muestrales
distribuciones de linealidad,no aditividad,
requieren de la
~ N(β , σ 2v ),
homogeneidad
donde vjj es el elemento (j,bj)-ésimo
de la varianza j →e independencia.
jde la matriz
jj j(X
Cada=′X -1 …, p,
0,estimador
)1, de mínimos
. Además, cuadrados
los estimadores bj y57bj
es
bk entonces
donde vjj es un
de distintos estimador(j,insesgado
coeficientes
el elemento de
de su
de regresión
j)-ésimo correspondiente
laestán coeficiente
correlacionados
matriz con los
(X′X)-1. Además, de regresión bβj jyy
unaestimadores
covarianza
Pastor-Barriuso R. 229
2
sigue
bcov(b aproximadamente
k de distintos vjk. Cabeladestacar
j, bk) = σ coeficientes distribución
de regresiónnormal
que estas distribuciones
están muestrales
correlacionados con unanocovarianza
requieren de la
E( ŷ 0 ) = x′0 E(b) = x′0 β
ŷ 0 = b0 + bde
Una vez estimados los coeficientes 1 x01regresión,
+ … + bpel = x′0 esperado
x0pvalor b de la variable
Regresión lineal múltiple
y varianzaY dados unos valores fijos x0 = (1, x01, …, x0p)′ de las variables explicativas
respuesta
que, al ser una combinación lineal de b, también se distribuye de forma
puede estimarse
Una vez como
estimados ŷlos coeficientes
′0 E{( b - βde)(b
regresión,
- β)′}x0 =elσvalor
2
(esperado demedia
X′X)-1xcon
x′0grandes, 0=σ
la2hvariable respuesta Y
aproximadamentevar( 0 ) = xen
normal muestras suficientemente 0;
dados unos valores fijos x0 = (1, x01, …, x0p)' de las variables explicativas puede estimarse como
es decir,
ŷ 0 = bE(
0+ ŷ 0b)1x=01x+′0 E( ′0 β= x′0 b
bpxx0p
…b+) =
que, al ser una combinación lineal de b, también se distribuye de forma aproximadamente
normal
que, enser
al muestras
y varianza
suficientemente
una combinación linealgrandes,
ŷde b~, también
con media
se2 distribuye de forma
0 → N( x′0 β , σ h0 ),
x′0 (i bŷ
n
=
ŷ0 no depende de la nueva observación y0,bla0 varianza n n E( (de
0
x esta −0 − 0
x )xdiferencia xx′0xes
y ib y i−−β ) − εx i }= yxi ′ E( b − β ) − E(ε 0 ) = 0.
E( b ŷ=0 - y0)==E{ - βy)2i0-)ε=0}E{ ′0(i E( b - β) -0 E(ε0) 0= 0.
var( ŷ 0 − y0 ) = x′0 E{( bEn
10.3.1, −E( ŷ 0 − βyy)′}
el)(bcaso
β10.3.3
Como
=x0E{
0 )10.3.4).
particular + var(xb′01 (Así,
el valor debε 0−)βse
una ) −tiene
predicho
xεi0 } =
única que xx′0 E(
ŷ0variable
noi depende b − β ) x−i E(
explicativa,
y ε 0 ) = 0.
de ila nueva todos los resultados
observación y0, la varianza 58de esta diferencia es
−ynueva i0 ′ i i 0,i βla)′}
Como el= valor
2
σ {1 + x′0 todos
donde
predicho (Xŷ′X )
no
−1
los x sumatorios
}
depende
0 = σ
2
(1
de +la son
h ).
nueva
0 sobre observación
1 var(de i = 1, …, xy n.
2
, laPor y tanto,
varianza − xla
de estimación
estax y
diferencia de la
es
Como el valor 0 predicho ŷ no depende 0 la
ŷregresión 0 ) = xobservación 0 E{(b − β )(by−
i varianza de esta
x0 + var(ε 0 )
anteriores se reducen a los0=obtenidos en 2 −1 lineal simple (véase ,Apartados
de la nueva observación pendiente se
var( esdistribuye
ŷ 0 −by=0 ) =de b
0 x′0forma E{(
n n (
b −normal x
β i)(b −− β(asunción
x x
) i)′} x0 +n = var(x y i 2 i 0 ) i i −1
de y
σi ε{1
− x y
+ x′0 (X′X) x0 } = σ (1 + h0 ).
2
b normal 2= x 2
{1 x0 }n.=
cia ŷ0 – y0 tambiéndiferencia seguirá la distribución
donde 10.3.1,todos 10.3.3 es sumatorios
los y 10.3.4). = 1σAsí,
son se
+ xtiene
sobre ′0i (iX= X1,)x i…,
′que − 1
σ x(1
Por
2 y i+ h ).
i tanto, 0 la estimación de la pendiente es
2 Si además el error ε0 de la nueva2 observación se distribuye de forma normal (asunción d
ŷ 0 − y0 donde ~ N(0, σ (1 los
el error εtodos
+ hsumatorios
0 )).
normalidad), son sobre 1nse idistribuye=ŷ 1,– …, i
n.de
y xtambién Por yformatanto,
i −seguirá normalxlai estimación
laxdistribución
i y(asunción
de lanormal
Si además 0 de la nueva observación=la diferencia ( xi 2−0 x −)(1 0y i − y )
i
, de
ar denormalidad),
una única variable
pendiente es 0 b0= b0 = b
la diferencia explicativa, ŷ – y todos también losnseguirá n( xii=1−la
resultados
1=
n
xdistribución
)xanteriores
i x normal
se
ŷ 0 −yi iyi=
y −
0 ~ r N(0,i
s y x 2 y i
σ (1 + h0 )). 58
s en regresión lineal simple (véase Apartados 10.3.1, 210.3.3
2 y 10.3.4).
xi σ (1 x(+ixh 0−)).x
n
s
ŷ b−
En el0 caso 1 y0 ~ N(0,
particular de una i ) 2 x i yvariable
única i x
explicativa, todos los resultados anteriores s
donde todos los sumatorios son sobre n ii=1= 1, …, n. 2 Por tanto, la estimación de la
En el caso particular
º ª n a los¦obtenidos
ªb0 reducen
−1
x i º ª ¦enyAsí,
dereducen una única
º
a los
=
obtenidos
variable
1 en regresión
explicativa,
( x −
x
)( y i ylos
xtodos
− y
lineal
) simple
i − resultados x i (véase i
Apartados
x i yanteriores
,y 10.3.4).
se 10.3.1, 10.3.3 y 10.3.4
=« »= « iregresión se tiene linealque simple (véase Apartados
nb= ( xi =i1 − x ) n x i y=i −r y x i y i
i 2 i 10.3.1,
s 10.3.3
pendiente » « es »
¬ b1 Así,
¼ ¬se ¦tiene
xi ¦ que x i2 estimación
y la ¼ ¬ ¦ x y de
¼ la constante 1 es n
xsix º ª ¦ y i º
−1
¦
i i
b0(ºx −ª x )n2
ª¦ x i2ª¦ −ª ¦ n x i ¦¦ x i xyii º bnª=¦
− 1 ª
i«=b
1 y»i º
i=
« » « »
1 donde todos b0los ºy i sumatorios son sobre ¬i = ¼ 1, …, ¦ n.x iPor¦ tanto, ¦
x i2 ¼ la¬estimación x i y i ¼ de la
= « b = = «
« bx »y − xx y y( xx 2− x
n » , « 1 n
» ¬
n¦ ( x i − x ) 2 «¬ n¦ ¬ 1 i¼ i ¬¦ ii ¦ ¦ i ii » ¼ i =)¬1 ¦
2( x − x )( y − y )
−ixxi y i ¼( xi i − x )( y i −sy )
1 = r y ª¦ x i ¦ y i − ¦ x i ¦ x i y i º
2
i =1 b =
ypendiente
230 Pastor-Barriuso
la estimación R. es debla =constante es i =1
= y − b x.
y=i −n ¦ »,
1
orios son sobre i = 1, …, n. Por tanto, 0la estimación ª¦ de xnlai2n¦ pendiente xxi ¦
es xxi)sy2xi ««º n x1 y − x
=
1
2 « (
( xi − x i x) − x¦2) 2 (
i − ¬» , ¦ i i ¦ i ¦ yi »¼
n
n¦ ( x i n− x ) «¬ n i =¦ n x y − ¦ i ¦ i »¼ n. Por tanto, la estimación de la pendiente es
x y
¦ ( xi − x )( y i − ydonde ) todos los sumatorios 2
1i =1 i n i
son sobre i = 1, …,
b1 = =r
n
sx
(x
i =1
i − x) 2
y la estimación de la constante es −1
y la estimación b) la
var(de
var(b0 )
= constante es
cov(b0 , b1 )
=σ 2
n xi
cov( b0 n, b1 ) var(b1 ) n xi x i2 −1
(=xi σ−2 x)( y2i − y
var(b0 ) cov(b , b1 ) n x
var(b) = y ( xi − x ) 2 −0 x ) 2i 2
cov(b , b ) var(b1 )i =1=
x i
σ x xi − xi
b0 = i0=1 1 =
i − b x .
y ,
n
n2 ( xi 2− x ) 2 − x2i 1
n
( xi − x )
=
σ xi − xi
,
2
cov(b0 , b1 ) n2 ) x−i x i
i =1 −1
var(b0 ) (nxi − x n
Además, var(
la matriz
de donde b) de
se sigue= que
varianzas-covarianzas de σ estimadores2es
=estos
cov(b0 , b1 ) var(b1 ) xestimadores xi −1 es
Además, la matriz de varianzas-covarianzas de estos i
( xσi −2 x ) = σ 2 σ12 +x x
= n 2(n, − 1) s 2 ,
2 i =1
var(b0 ) = σvar(b
n 1) = n i =1
n( )nx)22 (n− 1) s x x
n 2
x i −(
i =1
xxi )(−2x x+−
i 1 x 2
var(b0) = σ 2 i =1 n i =1 − 2σ 2 x = σ 2 − 2σ+2 x ,
cov(b0, b1) = n σ 2 = σ n (n2 − . 1) s x2
var(b1)n= ( x i − x ) 2 =2 (n − 1)2s,x
i =1 − iσ x2
n ( x − x ) (n −−1)σs 2 x
cov(b0, b1) = i =(n1x i − x ) = x .
(n − 1) s x2
i =1
(x − x)
σ 2 i2
2
σ2 2
Por último, para un valorcov(b var(b
fijo x0, de ) = i =1
− σ
la nvariable explicativa, x = − σ x,
=(n − 1) slax2 varianza del valor predicho
1
0 b1) = n .
( x − x ) 2
(i x i − explicativa,
x) 2
(n − 1) s x 2
ŷPor
0 =último,
b 0 + b para
x
1 0 es un valor fijo x 0 de la i =1variable
i =1
la varianza del valor predicho
1.2 MEDIDAS DE TENDENCIA CENTRAL
Por último,
ŷ 0 = b0 +para es valor fijo x0 de la variable
b1x0un − σ 2 explicativa,
x − σ 2 lax varianza del valor predicho
ŷ0 = b0 + b1x0 es cov(b0, b1) = n −1 = .
var( yˆ ) = σ [1 x ] Las
2
n xi 2 1(n − 1) s x2
( x i medidas
− 2x) de tendencia central informan acerca de cuál es el val
Por último, para un0 valor fijo x00de xii=1 xexplicativa,
la variable −1 x la varianza del valor predicho
n xi i 10
var( yˆ 0 ) = σ [1 2x 0 ]
2
x 2 x
i x − xi 1
xidex una determinada
2 variable
o, dicho de forma equivalente, estos e
ŷ 0 = b0 + b1x0 es =
σ
Por último, para un valor fijo x0 de la2 variable [1 ] i 0
0 explicativa, la varianza del valor predicho
n ( xi 2− x ) − dex2i qué valor n x0
σ alrededor xi − xise agrupan
1 los datos observados. Las medid
ŷ 0 = b0 + b1x0 es = n [1 x 0 ] −1 2
n( x(ix− −x )x n) + n ( x 0x−i x ) x1i n x 0 2
2 2
x0 x2i − xi 1
i =1 2
donde se observa que el leverage nσ 2 del valor
donde se observa que el leverage
=
n ( x
(1xi del
−
−i xvalor
)
x2 )[1
2
+
0
x
n ( ]x
xvariable.
0 −
− xi
0 x )
21
n (xx0 0− x ) 2
donde se observa que= el σ leverage del
2 i=
valor x0 = σ + ,
n n
1 ( x2 0 − x2) 2 n (n − 1) s x2
( xi n−hx0 )(=xi+1.2.1
2 −n+x( x) 0Media
− x ) aritmética
i = 1 n (n − 1) s x2 2 2 1 ( x 0 − x ) 2
=σ 2 i =1
nh =
1 ( x 0 − x ) = σ + ,
2
es una medida estandarizada de su desviación 0 La +media
respecto aritmética, n denotada
2de la media (nmuestral
− 1) spor
x x ,dese la
define como la suma de c
variable
n ( xi n− x ) (n − 1) s x 2
donde
explicativa. se observa que el leverage del
i =1 valor x 0
valores muestrales dividida por el número de observaciones realiz
60
donde se observa que el leverage del valor 1 x(0x 0 − x ) 2
h0 = por + n el tamaño muestral y por xi el valor observado
Pastor-Barriuso para el sujeto
n (n − 1) s x2 60R. 231
1la media( x − vendría x) 2 dada por
h0 = + 0
n (n − 1) s 2
Regresión lineal múltiple
11.9 REFERENCIAS
232 Pastor-Barriuso R.
APÉNDICE
TABLAS ESTADÍSTICAS
Pastor-Barriuso R. 233
Tablas estadísticas
n
Tabla
Tabla Probabilidades P(X = k) = π k (1 − π ) n − k para
1 1Probabilidades para laladistribución
distribución binomial
binomial X con
X con
k
parámetros n = 2, 3, ..., 20 y π = 0,05, 0,10, ..., 0,50.*
parámetros n = 2, 3, ..., 20 y π = 0,05, 0,10, ..., 0,50.*
π
n k 0,05 0,10 0,15 0,20 0,25 π 0,30 0,35 0,40 0,45 0,50
2 0 0,9025 0,8100 0,7225 0,6400 0,5625 0,4900 0,4225 0,3600 0,3025 0,2500
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
1 0,0950 0,1800 0,2550 0,3200 0,3750 0,4200 0,4550 0,4800 0,4950 0,5000
2 02 0,0025
0,9025 0,0100 0,0225 0,6400
0,8100 0,7225 0,0400 0,5625
0,0625 0,4900
0,0900 0,4225
0,1225 0,3600
0,1600 0,3025
0,2025 0,2500
0,2500
1 0,0950 0,1800 0,2550 0,3200 0,3750 0,4200 0,4550 0,4800 0,4950 0,5000
3 0 0,8574 0,7290 0,6141 0,5120 0,4219 0,3430 0,2746 0,2160 0,1664 0,1250
2 0,00250,0100 0,0225 0,0400 0,0625 0,0900 0,1225 0,1600 0,2025 0,2500
1 0,1354 0,2430 0,3251 0,3840 0,4219 0,4410 0,4436 0,4320 0,4084 0,3750
3 02 0,0071
0,8574 0,0270
0,7290 0,0574 0,0960 0,4219
0,6141 0,5120 0,1406 0,3430
0,1890 0,2746
0,2389 0,2160
0,2880 0,1664
0,3341 0,1250
0,3750
13 0,0001
0,1354 0,0010
0,2430 0,0034 0,3840
0,3251 0,0080 0,4219
0,0156 0,4410
0,0270 0,4436
0,0429 0,4320
0,0640 0,4084
0,0911 0,3750
0,1250
2 0,0071 0,0270 0,0574 0,0960 0,1406 0,1890 0,2389 0,2880 0,3341 0,3750
4
30 0,8145
0,00010,6561 0,5220 0,4096 0,3164 0,2401 0,1785 0,1296 0,0915 0,0625
0,0010 0,0034 0,0080 0,0156 0,0270 0,0429 0,0640 0,0911 0,1250
1 0,1715 0,2916 0,3685 0,4096 0,4219 0,4116 0,3845 0,3456 0,2995 0,2500
4 02 0,0135
0,8145 0,0486
0,6561 0,0975 0,1536 0,3164
0,5220 0,4096 0,2109 0,2401
0,2646 0,1785
0,3105 0,1296
0,3456 0,0915
0,3675 0,0625
0,3750
13 0,1715
0,0005 0,2916
0,0036 0,3685
0,0115 0,4096
0,0256 0,4219
0,0469 0,4116
0,0756 0,3845
0,1115 0,3456
0,1536 0,2995
0,2005 0,2500
0,2500
24 0,0135
0,0000 0,0486
0,0001 0,0975
0,0005 0,1536
0,0016 0,2109
0,0039 0,2646
0,0081 0,3105
0,0150 0,3456
0,0256 0,3675
0,0410 0,3750
0,0625
3 0,0005 0,0036 0,0115 0,0256 0,0469 0,0756 0,1115 0,1536 0,2005 0,2500
5 40 0,7738
0,00000,5905 0,4437 0,0016
0,0001 0,0005 0,3277 0,0039
0,2373 0,0081
0,1681 0,0150
0,1160 0,0256
0,0778 0,0410
0,0503 0,0625
0,0313
1 0,2036 0,3281 0,3915 0,4096 0,3955 0,3602 0,3124 0,2592 0,2059 0,1563
5 02 0,7738
0,0214 0,5905
0,4437
0,0729
0,1382 0,3277
0,2048 0,2373
0,2637 0,1681
0,3087 0,1160
0,3364 0,0778
0,3456 0,0503
0,3369 0,0313
0,3125
13 0,2036
0,0011 0,3281
0,3915
0,0081
0,0244 0,4096
0,0512 0,3955
0,0879 0,3602
0,1323 0,3124
0,1811 0,2592
0,2304 0,2059 0,1563
0,2757 0,3125
24 0,0214
0,0000 0,0729
0,1382
0,0005
0,0022 0,2048
0,0064 0,2637
0,0146 0,3087
0,0284 0,3364
0,0488 0,3456
0,0768 0,3369
0,1128 0,3125
0,1563
3 0,0011 0,0081
0,0244 0,0512 0,0879 0,1323 0,1811 0,2304 0,2757 0,3125
5 0,0000 0,0000
0,0001 0,0003 0,0010 0,0024 0,0053 0,0102 0,0185 0,0313
4 0,0000 0,0005 0,0022 0,0064 0,0146 0,0284 0,0488 0,0768 0,1128 0,1563
6 50 0,0000 0,5314
0,7351 0,0000 0,0001
0,3771 0,0003
0,2621 0,0010
0,1780 0,0024
0,1176 0,0053
0,0754 0,0102
0,0467 0,0185
0,0277 0,0313
0,0156
1 0,2321 0,3543 0,3993 0,3932 0,3560 0,3025 0,2437 0,1866 0,1359 0,0938
6 0 0,7351 0,5314
0,3771 0,2621 0,1780 0,1176 0,0754 0,0467 0,0277 0,0156
2 0,0305 0,0984
0,1762 0,2458 0,2966 0,3241 0,3280 0,3110 0,2780 0,2344
1 0,2321 0,3543
0,3993 0,3932 0,3560 0,3025 0,2437 0,1866 0,1359 0,0938
3 0,0021 0,0146
0,0415 0,0819 0,1318 0,1852 0,2355 0,2765 0,3032 0,3125
2 0,0305 0,0984
0,1762 0,2458 0,2966 0,3241 0,3280 0,3110 0,2780 0,2344
34 0,0001
0,0021 0,0012
0,0055
0,0146
0,0415 0,0154
0,0819 0,0330
0,1318 0,0595
0,1852 0,0951
0,2355 0,1382
0,2765 0,1861 0,3125
0,3032 0,2344
45 0,0000
0,0001 0,0001
0,0004
0,0012
0,0055 0,0015
0,0154 0,0044
0,0330 0,0102
0,0595 0,0205
0,0951 0,0369
0,1382 0,0609 0,2344
0,1861 0,0938
56 0,0000
0,0000 0,0001
0,0004
0,0000
0,0000 0,0015
0,0001 0,0044
0,0002 0,0102
0,0007 0,0205
0,0018 0,0369
0,0041 0,0609
0,0083 0,0938
0,0156
6 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0018 0,0041 0,0083 0,0156
7 0 0,6983 0,4783 0,3206 0,2097 0,1335 0,0824 0,0490 0,0280 0,0152 0,0078
7 01 0,2573
0,6983 0,3720
0,4783 0,3960
0,3206 0,3670
0,2097 0,3115
0,1335 0,2471
0,0824 0,1848
0,0490 0,1306
0,0280 0,0872 0,0078
0,0152 0,0547
12 0,2573
0,0406 0,3720
0,1240 0,3960
0,2097 0,3670
0,2753 0,3115
0,3115 0,2471
0,3177 0,1848
0,2985 0,1306
0,2613 0,0872
0,2140 0,0547
0,1641
23 0,0406
0,0036 0,1240
0,0230 0,2097
0,0617 0,2753
0,1147 0,3115
0,1730 0,3177
0,2269 0,2985
0,2679 0,2613
0,2903 0,2140
0,2918 0,1641
0,2734
34 0,0036
0,0002 0,0230
0,0026 0,0617
0,0109 0,1147
0,0287 0,1730
0,0577 0,2269
0,0972 0,2679
0,1442 0,2903
0,1935 0,2918 0,2734
0,2388 0,2734
45 0,0002
0,0000 0,0026
0,0002 0,0109
0,0012 0,0287
0,0043 0,0577
0,0115 0,0972
0,0250 0,1442
0,0466 0,1935
0,0774 0,2388
0,1172 0,2734
0,1641
5 0,0000 0,0002 0,0012 0,0043 0,0115 0,0250 0,0466 0,0774 0,1172 0,1641
6 0,0000 0,0000 0,0001 0,0004 0,0013 0,0036 0,0084 0,0172 0,0320 0,0547
6 0,0000 0,0000 0,0001 0,0004 0,0013 0,0036 0,0084 0,0172 0,0320 0,0547
77 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0001
0,0001 0,0002
0,0002 0,0006
0,0006 0,0016
0,0016 0,0037 0,0078
0,0037 0,0078
8 0 0,6634 0,4305 0,2725 0,1678 0,1001 0,0576 0,0319 0,0168 0,0084 0,0039
8 0 0,6634 0,4305 0,2725 0,1678 0,1001 0,0576 0,0319 0,0168 0,0084 0,0039
1 0,2793 0,3826 0,3847 0,3355 0,2670 0,1977 0,1373 0,0896 0,0548 0,0313
1 0,2793 0,3826 0,3847 0,3355 0,2670 0,1977 0,1373 0,0896 0,0548 0,0313
22 0,0515
0,0515 0,1488
0,1488 0,2376
0,2376 0,2936
0,2936 0,3115
0,3115 0,2965
0,2965 0,2587
0,2587 0,2090
0,2090 0,1569 0,1094
0,1569 0,1094
33 0,0054
0,0054 0,0331
0,0331 0,0839
0,0839 0,1468
0,1468 0,2076
0,2076 0,2541
0,2541 0,2786
0,2786 0,2787
0,2787 0,2568 0,2188
0,2568 0,2188
4 0,0004
0,0004 0,0046
0,0046 0,0185
0,0185 0,0459
0,0459 0,0865
0,0865 0,1361
0,1361 0,1875
0,1875 0,2322
0,2322 0,2627 0,2734
0,2627 0,2734
5 0,0000
0,0000 0,0004
0,0004 0,0026
0,0026 0,0092
0,0092 0,0231
0,0231 0,0467
0,0467 0,0808
0,0808 0,1239
0,1239 0,1719
0,1719 0,2188
0,2188
66 0,0000
0,0000 0,0000
0,0000 0,0002
0,0002 0,0011
0,0011 0,0038
0,0038 0,0100
0,0100 0,0217
0,0217 0,0413
0,0413 0,0703
0,0703 0,1094
0,1094
77 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0001
0,0001 0,0004
0,0004 0,0012
0,0012 0,0033
0,0033 0,0079
0,0079 0,0164 0,0313
0,0164 0,0313
8 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0017 0,0039
234 Pastor-Barriuso R.
2
Tablas estadísticas
Tabla 1 (Continuación)
π
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
9 0 0,6302 0,3874 0,2316 0,1342 0,0751 0,0404 0,0207 0,0101 0,0046 0,0020
1 0,2985 0,3874 0,3679 0,3020 0,2253 0,1556 0,1004 0,0605 0,0339 0,0176
2 0,0629 0,1722 0,2597 0,3020 0,3003 0,2668 0,2162 0,1612 0,1110 0,0703
3 0,0077 0,0446 0,1069 0,1762 0,2336 0,2668 0,2716 0,2508 0,2119 0,1641
4 0,0006 0,0074 0,0283 0,0661 0,1168 0,1715 0,2194 0,2508 0,2600 0,2461
5 0,0000 0,0008 0,0050 0,0165 0,0389 0,0735 0,1181 0,1672 0,2128 0,2461
6 0,0000 0,0001 0,0006 0,0028 0,0087 0,0210 0,0424 0,0743 0,1160 0,1641
7 0,0000 0,0000 0,0000 0,0003 0,0012 0,0039 0,0098 0,0212 0,0407 0,0703
8 0,0000 0,0000 0,0000 0,0000 0,0001 0,0004 0,0013 0,0035 0,0083 0,0176
9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0008 0,0020
10 0 0,5987 0,3487 0,1969 0,1074 0,0563 0,0282 0,0135 0,0060 0,0025 0,0010
1 0,3151 0,3874 0,3474 0,2684 0,1877 0,1211 0,0725 0,0403 0,0207 0,0098
2 0,0746 0,1937 0,2759 0,3020 0,2816 0,2335 0,1757 0,1209 0,0763 0,0439
3 0,0105 0,0574 0,1298 0,2013 0,2503 0,2668 0,2522 0,2150 0,1665 0,1172
4 0,0010 0,0112 0,0401 0,0881 0,1460 0,2001 0,2377 0,2508 0,2384 0,2051
5 0,0001 0,0015 0,0085 0,0264 0,0584 0,1029 0,1536 0,2007 0,2340 0,2461
6 0,0000 0,0001 0,0012 0,0055 0,0162 0,0368 0,0689 0,1115 0,1596 0,2051
7 0,0000 0,0000 0,0001 0,0008 0,0031 0,0090 0,0212 0,0425 0,0746 0,1172
8 0,0000 0,0000 0,0000 0,0001 0,0004 0,0014 0,0043 0,0106 0,0229 0,0439
9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0016 0,0042 0,0098
10 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010
11 0 0,5688 0,3138 0,1673 0,0859 0,0422 0,0198 0,0088 0,0036 0,0014 0,0005
1 0,3293 0,3835 0,3248 0,2362 0,1549 0,0932 0,0518 0,0266 0,0125 0,0054
2 0,0867 0,2131 0,2866 0,2953 0,2581 0,1998 0,1395 0,0887 0,0513 0,0269
3 0,0137 0,0710 0,1517 0,2215 0,2581 0,2568 0,2254 0,1774 0,1259 0,0806
4 0,0014 0,0158 0,0536 0,1107 0,1721 0,2201 0,2428 0,2365 0,2060 0,1611
5 0,0001 0,0025 0,0132 0,0388 0,0803 0,1321 0,1830 0,2207 0,2360 0,2256
6 0,0000 0,0003 0,0023 0,0097 0,0268 0,0566 0,0985 0,1471 0,1931 0,2256
7 0,0000 0,0000 0,0003 0,0017 0,0064 0,0173 0,0379 0,0701 0,1128 0,1611
8 0,0000 0,0000 0,0000 0,0002 0,0011 0,0037 0,0102 0,0234 0,0462 0,0806
9 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0018 0,0052 0,0126 0,0269
10 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0007 0,0021 0,0054
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0005
12 0 0,5404 0,2824 0,1422 0,0687 0,0317 0,0138 0,0057 0,0022 0,0008 0,0002
1 0,3413 0,3766 0,3012 0,2062 0,1267 0,0712 0,0368 0,0174 0,0075 0,0029
2 0,0988 0,2301 0,2924 0,2835 0,2323 0,1678 0,1088 0,0639 0,0339 0,0161
3 0,0173 0,0852 0,1720 0,2362 0,2581 0,2397 0,1954 0,1419 0,0923 0,0537
4 0,0021 0,0213 0,0683 0,1329 0,1936 0,2311 0,2367 0,2128 0,1700 0,1208
5 0,0002 0,0038 0,0193 0,0532 0,1032 0,1585 0,2039 0,2270 0,2225 0,1934
6 0,0000 0,0005 0,0040 0,0155 0,0401 0,0792 0,1281 0,1766 0,2124 0,2256
7 0,0000 0,0000 0,0006 0,0033 0,0115 0,0291 0,0591 0,1009 0,1489 0,1934
8 0,0000 0,0000 0,0001 0,0005 0,0024 0,0078 0,0199 0,0420 0,0762 0,1208
9 0,0000 0,0000 0,0000 0,0001 0,0004 0,0015 0,0048 0,0125 0,0277 0,0537
10 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0008 0,0025 0,0068 0,0161
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010 0,0029
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002
Pastor-Barriuso R. 235
Tablas estadísticas
Tabla 1 (Continuación)
π
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
13 0 0,5133 0,2542 0,1209 0,0550 0,0238 0,0097 0,0037 0,0013 0,0004 0,0001
1 0,3512 0,3672 0,2774 0,1787 0,1029 0,0540 0,0259 0,0113 0,0045 0,0016
2 0,1109 0,2448 0,2937 0,2680 0,2059 0,1388 0,0836 0,0453 0,0220 0,0095
3 0,0214 0,0997 0,1900 0,2457 0,2517 0,2181 0,1651 0,1107 0,0660 0,0349
4 0,0028 0,0277 0,0838 0,1535 0,2097 0,2337 0,2222 0,1845 0,1350 0,0873
5 0,0003 0,0055 0,0266 0,0691 0,1258 0,1803 0,2154 0,2214 0,1989 0,1571
6 0,0000 0,0008 0,0063 0,0230 0,0559 0,1030 0,1546 0,1968 0,2169 0,2095
7 0,0000 0,0001 0,0011 0,0058 0,0186 0,0442 0,0833 0,1312 0,1775 0,2095
8 0,0000 0,0000 0,0001 0,0011 0,0047 0,0142 0,0336 0,0656 0,1089 0,1571
9 0,0000 0,0000 0,0000 0,0001 0,0009 0,0034 0,0101 0,0243 0,0495 0,0873
10 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0022 0,0065 0,0162 0,0349
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0012 0,0036 0,0095
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0016
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
14 0 0,4877 0,2288 0,1028 0,0440 0,0178 0,0068 0,0024 0,0008 0,0002 0,0001
1 0,3593 0,3559 0,2539 0,1539 0,0832 0,0407 0,0181 0,0073 0,0027 0,0009
2 0,1229 0,2570 0,2912 0,2501 0,1802 0,1134 0,0634 0,0317 0,0141 0,0056
3 0,0259 0,1142 0,2056 0,2501 0,2402 0,1943 0,1366 0,0845 0,0462 0,0222
4 0,0037 0,0349 0,0998 0,1720 0,2202 0,2290 0,2022 0,1549 0,1040 0,0611
5 0,0004 0,0078 0,0352 0,0860 0,1468 0,1963 0,2178 0,2066 0,1701 0,1222
6 0,0000 0,0013 0,0093 0,0322 0,0734 0,1262 0,1759 0,2066 0,2088 0,1833
7 0,0000 0,0002 0,0019 0,0092 0,0280 0,0618 0,1082 0,1574 0,1952 0,2095
8 0,0000 0,0000 0,0003 0,0020 0,0082 0,0232 0,0510 0,0918 0,1398 0,1833
9 0,0000 0,0000 0,0000 0,0003 0,0018 0,0066 0,0183 0,0408 0,0762 0,1222
10 0,0000 0,0000 0,0000 0,0000 0,0003 0,0014 0,0049 0,0136 0,0312 0,0611
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0010 0,0033 0,0093 0,0222
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0019 0,0056
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0009
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
15 0 0,4633 0,2059 0,0874 0,0352 0,0134 0,0047 0,0016 0,0005 0,0001 0,0000
1 0,3658 0,3432 0,2312 0,1319 0,0668 0,0305 0,0126 0,0047 0,0016 0,0005
2 0,1348 0,2669 0,2856 0,2309 0,1559 0,0916 0,0476 0,0219 0,0090 0,0032
3 0,0307 0,1285 0,2184 0,2501 0,2252 0,1700 0,1110 0,0634 0,0318 0,0139
4 0,0049 0,0428 0,1156 0,1876 0,2252 0,2186 0,1792 0,1268 0,0780 0,0417
5 0,0006 0,0105 0,0449 0,1032 0,1651 0,2061 0,2123 0,1859 0,1404 0,0916
6 0,0000 0,0019 0,0132 0,0430 0,0917 0,1472 0,1906 0,2066 0,1914 0,1527
7 0,0000 0,0003 0,0030 0,0138 0,0393 0,0811 0,1319 0,1771 0,2013 0,1964
8 0,0000 0,0000 0,0005 0,0035 0,0131 0,0348 0,0710 0,1181 0,1647 0,1964
9 0,0000 0,0000 0,0001 0,0007 0,0034 0,0116 0,0298 0,0612 0,1048 0,1527
10 0,0000 0,0000 0,0000 0,0001 0,0007 0,0030 0,0096 0,0245 0,0515 0,0916
11 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0024 0,0074 0,0191 0,0417
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0004 0,0016 0,0052 0,0139
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010 0,0032
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
16 0 0,4401 0,1853 0,0743 0,0281 0,0100 0,0033 0,0010 0,0003 0,0001 0,0000
1 0,3706 0,3294 0,2097 0,1126 0,0535 0,0228 0,0087 0,0030 0,0009 0,0002
2 0,1463 0,2745 0,2775 0,2111 0,1336 0,0732 0,0353 0,0150 0,0056 0,0018
3 0,0359 0,1423 0,2285 0,2463 0,2079 0,1465 0,0888 0,0468 0,0215 0,0085
236 Pastor-Barriuso R.
Tablas estadísticas
Tabla 1 (Continuación)
π
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
4 0,0061 0,0514 0,1311 0,2001 0,2252 0,2040 0,1553 0,1014 0,0572 0,0278
5 0,0008 0,0137 0,0555 0,1201 0,1802 0,2099 0,2008 0,1623 0,1123 0,0667
6 0,0001 0,0028 0,0180 0,0550 0,1101 0,1649 0,1982 0,1983 0,1684 0,1222
7 0,0000 0,0004 0,0045 0,0197 0,0524 0,1010 0,1524 0,1889 0,1969 0,1746
8 0,0000 0,0001 0,0009 0,0055 0,0197 0,0487 0,0923 0,1417 0,1812 0,1964
9 0,0000 0,0000 0,0001 0,0012 0,0058 0,0185 0,0442 0,0840 0,1318 0,1746
10 0,0000 0,0000 0,0000 0,0002 0,0014 0,0056 0,0167 0,0392 0,0755 0,1222
11 0,0000 0,0000 0,0000 0,0000 0,0002 0,0013 0,0049 0,0142 0,0337 0,0667
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0011 0,0040 0,0115 0,0278
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0008 0,0029 0,0085
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0018
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
17 0 0,4181 0,1668 0,0631 0,0225 0,0075 0,0023 0,0007 0,0002 0,0000 0,0000
1 0,3741 0,3150 0,1893 0,0957 0,0426 0,0169 0,0060 0,0019 0,0005 0,0001
2 0,1575 0,2800 0,2673 0,1914 0,1136 0,0581 0,0260 0,0102 0,0035 0,0010
3 0,0415 0,1556 0,2359 0,2393 0,1893 0,1245 0,0701 0,0341 0,0144 0,0052
4 0,0076 0,0605 0,1457 0,2093 0,2209 0,1868 0,1320 0,0796 0,0411 0,0182
5 0,0010 0,0175 0,0668 0,1361 0,1914 0,2081 0,1849 0,1379 0,0875 0,0472
6 0,0001 0,0039 0,0236 0,0680 0,1276 0,1784 0,1991 0,1839 0,1432 0,0944
7 0,0000 0,0007 0,0065 0,0267 0,0668 0,1201 0,1685 0,1927 0,1841 0,1484
8 0,0000 0,0001 0,0014 0,0084 0,0279 0,0644 0,1134 0,1606 0,1883 0,1855
9 0,0000 0,0000 0,0003 0,0021 0,0093 0,0276 0,0611 0,1070 0,1540 0,1855
10 0,0000 0,0000 0,0000 0,0004 0,0025 0,0095 0,0263 0,0571 0,1008 0,1484
11 0,0000 0,0000 0,0000 0,0001 0,0005 0,0026 0,0090 0,0242 0,0525 0,0944
12 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0024 0,0081 0,0215 0,0472
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0021 0,0068 0,0182
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0004 0,0016 0,0052
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
18 0 0,3972 0,1501 0,0536 0,0180 0,0056 0,0016 0,0004 0,0001 0,0000 0,0000
1 0,3763 0,3002 0,1704 0,0811 0,0338 0,0126 0,0042 0,0012 0,0003 0,0001
2 0,1683 0,2835 0,2556 0,1723 0,0958 0,0458 0,0190 0,0069 0,0022 0,0006
3 0,0473 0,1680 0,2406 0,2297 0,1704 0,1046 0,0547 0,0246 0,0095 0,0031
4 0,0093 0,0700 0,1592 0,2153 0,2130 0,1681 0,1104 0,0614 0,0291 0,0117
5 0,0014 0,0218 0,0787 0,1507 0,1988 0,2017 0,1664 0,1146 0,0666 0,0327
6 0,0002 0,0052 0,0301 0,0816 0,1436 0,1873 0,1941 0,1655 0,1181 0,0708
7 0,0000 0,0010 0,0091 0,0350 0,0820 0,1376 0,1792 0,1892 0,1657 0,1214
8 0,0000 0,0002 0,0022 0,0120 0,0376 0,0811 0,1327 0,1734 0,1864 0,1669
9 0,0000 0,0000 0,0004 0,0033 0,0139 0,0386 0,0794 0,1284 0,1694 0,1855
10 0,0000 0,0000 0,0001 0,0008 0,0042 0,0149 0,0385 0,0771 0,1248 0,1669
11 0,0000 0,0000 0,0000 0,0001 0,0010 0,0046 0,0151 0,0374 0,0742 0,1214
12 0,0000 0,0000 0,0000 0,0000 0,0002 0,0012 0,0047 0,0145 0,0354 0,0708
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0012 0,0045 0,0134 0,0327
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0011 0,0039 0,0117
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0009 0,0031
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006
Pastor-Barriuso R. 237
Tablas estadísticas
Tabla 1 (Continuación)
π
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
18 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
19 0 0,3774 0,1351 0,0456 0,0144 0,0042 0,0011 0,0003 0,0001 0,0000 0,0000
1 0,3774 0,2852 0,1529 0,0685 0,0268 0,0093 0,0029 0,0008 0,0002 0,0000
2 0,1787 0,2852 0,2428 0,1540 0,0803 0,0358 0,0138 0,0046 0,0013 0,0003
3 0,0533 0,1796 0,2428 0,2182 0,1517 0,0869 0,0422 0,0175 0,0062 0,0018
4 0,0112 0,0798 0,1714 0,2182 0,2023 0,1491 0,0909 0,0467 0,0203 0,0074
5 0,0018 0,0266 0,0907 0,1636 0,2023 0,1916 0,1468 0,0933 0,0497 0,0222
6 0,0002 0,0069 0,0374 0,0955 0,1574 0,1916 0,1844 0,1451 0,0949 0,0518
7 0,0000 0,0014 0,0122 0,0443 0,0974 0,1525 0,1844 0,1797 0,1443 0,0961
8 0,0000 0,0002 0,0032 0,0166 0,0487 0,0981 0,1489 0,1797 0,1771 0,1442
9 0,0000 0,0000 0,0007 0,0051 0,0198 0,0514 0,0980 0,1464 0,1771 0,1762
10 0,0000 0,0000 0,0001 0,0013 0,0066 0,0220 0,0528 0,0976 0,1449 0,1762
11 0,0000 0,0000 0,0000 0,0003 0,0018 0,0077 0,0233 0,0532 0,0970 0,1442
12 0,0000 0,0000 0,0000 0,0000 0,0004 0,0022 0,0083 0,0237 0,0529 0,0961
13 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0024 0,0085 0,0233 0,0518
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0024 0,0082 0,0222
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0022 0,0074
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0018
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003
18 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
19 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
20 0 0,3585 0,1216 0,0388 0,0115 0,0032 0,0008 0,0002 0,0000 0,0000 0,0000
1 0,3774 0,2702 0,1368 0,0576 0,0211 0,0068 0,0020 0,0005 0,0001 0,0000
2 0,1887 0,2852 0,2293 0,1369 0,0669 0,0278 0,0100 0,0031 0,0008 0,0002
3 0,0596 0,1901 0,2428 0,2054 0,1339 0,0716 0,0323 0,0123 0,0040 0,0011
4 0,0133 0,0898 0,1821 0,2182 0,1897 0,1304 0,0738 0,0350 0,0139 0,0046
5 0,0022 0,0319 0,1028 0,1746 0,2023 0,1789 0,1272 0,0746 0,0365 0,0148
6 0,0003 0,0089 0,0454 0,1091 0,1686 0,1916 0,1712 0,1244 0,0746 0,0370
7 0,0000 0,0020 0,0160 0,0545 0,1124 0,1643 0,1844 0,1659 0,1221 0,0739
8 0,0000 0,0004 0,0046 0,0222 0,0609 0,1144 0,1614 0,1797 0,1623 0,1201
9 0,0000 0,0001 0,0011 0,0074 0,0271 0,0654 0,1158 0,1597 0,1771 0,1602
10 0,0000 0,0000 0,0002 0,0020 0,0099 0,0308 0,0686 0,1171 0,1593 0,1762
11 0,0000 0,0000 0,0000 0,0005 0,0030 0,0120 0,0336 0,0710 0,1185 0,1602
12 0,0000 0,0000 0,0000 0,0001 0,0008 0,0039 0,0136 0,0355 0,0727 0,1201
13 0,0000 0,0000 0,0000 0,0000 0,0002 0,0010 0,0045 0,0146 0,0366 0,0739
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0012 0,0049 0,0150 0,0370
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0013 0,0049 0,0148
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0013 0,0046
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0011
18 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002
19 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
20 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
* Para π = 0,55, 0,60, ..., 0,95, P(X = k) = P(Y = n – k) donde Y es la distribución binomial con parámetros n y
1 – π.
238 Pastor-Barriuso R.
Tablas estadísticas
e −μ μ k
TablaTabla
2 Probabilidades
2 Probabilidades P(X = k) = parala la
para distribución
distribución X con X con
de Poisson
de Poisson
k!
parámetro μ de 0,5 a 20 en intervalos de 0,5.
parámetro μ de 0,5 a 20 en intervalos de 0,5. μ
k 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0
0 0,6065 0,3679 0,2231 0,1353 0,0821 μ 0,0498 0,0302 0,0183 0,0111 0,0067
1 0,3033 0,3679 0,3347 0,2707 0,2052 0,1494 0,1057 0,0733 0,0500 0,0337
k 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0
2 0,0758 0,1839 0,2510 0,2707 0,2565 0,2240 0,1850 0,1465 0,1125 0,0842
30 0,0126
0,6065 0,0613
0,3679 0,1255
0,2231 0,1804
0,1353 0,2138
0,0821 0,2240
0,0498 0,2158
0,0302 0,1954
0,0183 0,1687
0,0111 0,1404
0,0067
41 0,3033 0,0153
0,0016 0,3679 0,0471
0,3347 0,0902
0,2707 0,2052
0,1336 0,1494
0,1680 0,1057
0,1888 0,0733
0,1954 0,0500
0,1898 0,0337
0,1755
52 0,0758 0,0031
0,0002 0,1839 0,0141
0,2510 0,0361
0,2707 0,2565
0,0668 0,2240
0,1008 0,1850
0,1322 0,1465
0,1563 0,1125
0,1708 0,0842
0,1755
63 0,0126
0,0000 0,0613
0,0005 0,1255
0,0035 0,1804
0,0120 0,2138
0,0278 0,2240
0,0504 0,2158
0,0771 0,1954
0,1042 0,1687
0,1281 0,1404
0,1462
4 0,0016 0,0153 0,0471 0,0902 0,1336 0,1680 0,1888 0,1954 0,1898 0,1755
7 0,0000 0,0001 0,0008 0,0034 0,0099 0,0216 0,0385 0,0595 0,0824 0,1044
5 0,0002 0,0031 0,0141 0,0361 0,0668 0,1008 0,1322 0,1563 0,1708 0,1755
86 0,0000
0,0000 0,0000
0,0005 0,0001
0,0035 0,0009
0,0120 0,0031
0,0278 0,0081
0,0504 0,0169
0,0771 0,0298
0,1042 0,0463
0,1281 0,0653
0,1462
97 0,0000
0,0000 0,0000
0,0001 0,0000
0,0008 0,0002
0,0034 0,0009
0,0099 0,0027
0,0216 0,0066
0,0385 0,0132
0,0595 0,0232
0,0824 0,0363
0,1044
108 0,0000
0,0000 0,0000
0,0000 0,0001
0,0000 0,0009
0,0000 0,0031
0,0002 0,0081
0,0008 0,0169
0,0023 0,0298
0,0053 0,0463
0,0104 0,0653
0,0181
119 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0002
0,0000 0,0009
0,0000 0,0027
0,0002 0,0066
0,0007 0,0132
0,0019 0,0232
0,0043 0,0363
0,0082
10
12 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0002
0,0000 0,0008
0,0001 0,0023
0,0002 0,0053
0,0006 0,0104
0,0016 0,0181
0,0034
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0007 0,0019 0,0043 0,0082
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0006 0,0013
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0006 0,0016 0,0034
14
13 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0001 0,0001
0,0002 0,0002
0,0006 0,0005
0,0013
15
14 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0001 0,0001
0,0002 0,0002
0,0005
15
16 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0001
0,0000 0,0002
0,0000
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
5,5 6,0 6,5 7,0 7,5 8,0 8,5 9,0 9,5 10,0
0
5,5
0,0041
6,0
0,0025
6,5
0,0015
7,0
0,0009
7,5
0,0006
8,0
0,0003
8,5
0,0002
9,0
0,0001
9,5
0,0001
10,0
0,0000
1 0,0225
0 0,0041 0,0149
0,0025 0,0098
0,0015 0,0064
0,0009 0,0041
0,0006 0,0027
0,0003 0,0017
0,0002 0,0011
0,0001 0,0007
0,0001 0,0005
0,0000
21 0,0618
0,0225 0,0446
0,0149 0,0318
0,0098 0,0223
0,0064 0,0156
0,0041 0,0107
0,0027 0,0074
0,0017 0,0050
0,0011 0,0034
0,0007 0,0023
0,0005
32 0,1133
0,0618 0,0892
0,0446 0,0688
0,0318 0,0521
0,0223 0,0389
0,0156 0,0286
0,0107 0,0208
0,0074 0,0150
0,0050 0,0107
0,0034 0,0076
0,0023
43 0,1133 0,1339
0,1558 0,0892 0,1118
0,0688 0,0912
0,0521 0,0389
0,0729 0,0286
0,0573 0,0208
0,0443 0,0150
0,0337 0,0107
0,0254 0,0076
0,0189
54 0,1558 0,1606
0,1714 0,1339 0,1454
0,1118 0,1277
0,0912 0,0729
0,1094 0,0573
0,0916 0,0443
0,0752 0,0337
0,0607 0,0254
0,0483 0,0189
0,0378
6
5 0,1714
0,1571
0,1606
0,1606
0,1454
0,1575
0,1277
0,1490
0,1094
0,1367
0,0916
0,1221
0,0752
0,1066
0,0607
0,0911
0,0483
0,0764
0,0378
0,0631
6 0,1571 0,1606 0,1575 0,1490 0,1367 0,1221 0,1066 0,0911 0,0764 0,0631
7 0,1234 0,1377 0,1462 0,1490 0,1465 0,1396 0,1294 0,1171 0,1037 0,0901
7 0,1234 0,1377 0,1462 0,1490 0,1465 0,1396 0,1294 0,1171 0,1037 0,0901
88 0,0849 0,1033 0,1188 0,1304
0,0849 0,1033 0,1188 0,1304 0,1373
0,1373 0,1396
0,1396 0,1375
0,1375 0,1318
0,1318 0,1232
0,1232 0,1126
0,1126
99 0,0519
0,0519 0,0688
0,0688 0,0858
0,0858 0,1014
0,1014 0,1144
0,1144 0,1241
0,1241 0,1299
0,1299 0,1318
0,1318 0,1300
0,1300 0,1251
0,1251
10
10 0,0285 0,0413
0,0285 0,0413 0,0558
0,0558 0,0710
0,0710 0,0858
0,0858 0,0993
0,0993 0,1104
0,1104 0,1186
0,1186 0,1235
0,1235 0,1251
0,1251
11
11 0,0143
0,0143 0,0225
0,0225 0,0330
0,0330 0,0452
0,0452 0,0585
0,0585 0,0722
0,0722 0,0853
0,0853 0,0970
0,0970 0,1067
0,1067 0,1137
0,1137
12
12 0,0065
0,0065 0,0113
0,0113 0,0179
0,0179 0,0263
0,0263 0,0366
0,0366 0,0481
0,0481 0,0604
0,0604 0,0728
0,0728 0,0844
0,0844 0,0948
0,0948
13 0,0028 0,0052 0,0089 0,0142 0,0211 0,0296 0,0395 0,0504 0,0617 0,0729
13 0,0028 0,0052 0,0089 0,0142 0,0211 0,0296 0,0395 0,0504 0,0617 0,0729
14 0,0011 0,0022 0,0041 0,0071 0,0113 0,0169 0,0240 0,0324 0,0419 0,0521
14
15 0,0011
0,0004 0,0022
0,0009 0,0041
0,0018 0,0071
0,0033 0,0113
0,0057 0,0169
0,0090 0,0240
0,0136 0,0324
0,0194 0,0419
0,0265 0,0521
0,0347
15
16 0,0004
0,0001 0,0003 0,0007 0,0033
0,0009 0,0018 0,0014 0,0057
0,0026 0,0090
0,0045 0,0136
0,0072 0,0194
0,0109 0,0265
0,0157 0,0347
0,0217
17
16 0,0000 0,0003
0,0001 0,0001 0,0007
0,0003 0,0014
0,0006 0,0012
0,0026 0,0021
0,0045 0,0036
0,0072 0,0058
0,0109 0,0088
0,0157 0,0128
0,0217
18
17 0,0000 0,0001
0,0000 0,0000 0,0003
0,0001 0,0006
0,0002 0,0005
0,0012 0,0009
0,0021 0,0017
0,0036 0,0029
0,0058 0,0046
0,0088 0,0071
0,0128
19
18 0,0000 0,0000
0,0000 0,0000 0,0001
0,0000 0,0002
0,0001 0,0002
0,0005 0,0004
0,0009 0,0008
0,0017 0,0014
0,0029 0,0023
0,0046 0,0037
0,0071
20 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0003 0,0006 0,0011 0,0019
19 0,0000 0,0000 0,0000 0,0001 0,0002 0,0004 0,0008 0,0014 0,0023 0,0037
21 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0003 0,0005 0,0009
20
22 0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000 0,0001
0,0000 0,0002
0,0000 0,0003
0,0001 0,0006
0,0001 0,0011
0,0002 0,0019
0,0004
21
23 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0001
0,0000 0,0001
0,0000 0,0003
0,0000 0,0005
0,0001 0,0009
0,0002
24
22 0,0000 0,0000
0,0000 0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0001 0,0000
0,0001 0,0000
0,0002 0,0001
0,0004
25
23 0,0000 0,0000
0,0000 0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0001 0,0000
0,0002
24 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
25 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
Pastor-Barriuso R.
7 239
Tablas estadísticas
Tabla 2 (Continuación)
μ
k 10,5 11,0 11,5 12,0 12,5 13,0 13,5 14,0 14,5 15,0
0 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
1 0,0003 0,0002 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
2 0,0015 0,0010 0,0007 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000
3 0,0053 0,0037 0,0026 0,0018 0,0012 0,0008 0,0006 0,0004 0,0003 0,0002
4 0,0139 0,0102 0,0074 0,0053 0,0038 0,0027 0,0019 0,0013 0,0009 0,0006
5 0,0293 0,0224 0,0170 0,0127 0,0095 0,0070 0,0051 0,0037 0,0027 0,0019
6 0,0513 0,0411 0,0325 0,0255 0,0197 0,0152 0,0115 0,0087 0,0065 0,0048
7 0,0769 0,0646 0,0535 0,0437 0,0353 0,0281 0,0222 0,0174 0,0135 0,0104
8 0,1009 0,0888 0,0769 0,0655 0,0551 0,0457 0,0375 0,0304 0,0244 0,0194
9 0,1177 0,1085 0,0982 0,0874 0,0765 0,0661 0,0563 0,0473 0,0394 0,0324
10 0,1236 0,1194 0,1129 0,1048 0,0956 0,0859 0,0760 0,0663 0,0571 0,0486
11 0,1180 0,1194 0,1181 0,1144 0,1087 0,1015 0,0932 0,0844 0,0753 0,0663
12 0,1032 0,1094 0,1131 0,1144 0,1132 0,1099 0,1049 0,0984 0,0910 0,0829
13 0,0834 0,0926 0,1001 0,1056 0,1089 0,1099 0,1089 0,1060 0,1014 0,0956
14 0,0625 0,0728 0,0822 0,0905 0,0972 0,1021 0,1050 0,1060 0,1051 0,1024
15 0,0438 0,0534 0,0630 0,0724 0,0810 0,0885 0,0945 0,0989 0,1016 0,1024
16 0,0287 0,0367 0,0453 0,0543 0,0633 0,0719 0,0798 0,0866 0,0920 0,0960
17 0,0177 0,0237 0,0306 0,0383 0,0465 0,0550 0,0633 0,0713 0,0785 0,0847
18 0,0104 0,0145 0,0196 0,0255 0,0323 0,0397 0,0475 0,0554 0,0632 0,0706
19 0,0057 0,0084 0,0119 0,0161 0,0213 0,0272 0,0337 0,0409 0,0483 0,0557
20 0,0030 0,0046 0,0068 0,0097 0,0133 0,0177 0,0228 0,0286 0,0350 0,0418
21 0,0015 0,0024 0,0037 0,0055 0,0079 0,0109 0,0146 0,0191 0,0242 0,0299
22 0,0007 0,0012 0,0020 0,0030 0,0045 0,0065 0,0090 0,0121 0,0159 0,0204
23 0,0003 0,0006 0,0010 0,0016 0,0024 0,0037 0,0053 0,0074 0,0100 0,0133
24 0,0001 0,0003 0,0005 0,0008 0,0013 0,0020 0,0030 0,0043 0,0061 0,0083
25 0,0001 0,0001 0,0002 0,0004 0,0006 0,0010 0,0016 0,0024 0,0035 0,0050
26 0,0000 0,0000 0,0001 0,0002 0,0003 0,0005 0,0008 0,0013 0,0020 0,0029
27 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0004 0,0007 0,0011 0,0016
28 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0003 0,0005 0,0009
29 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0003 0,0004
30 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002
31 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001
32 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
33 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
15,5 16,0 16,5 17,0 17,5 18,0 18,5 19,0 19,5 20,0
0 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
1 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
2 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
3 0,0001 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
4 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000
5 0,0014 0,0010 0,0007 0,0005 0,0003 0,0002 0,0002 0,0001 0,0001 0,0001
6 0,0036 0,0026 0,0019 0,0014 0,0010 0,0007 0,0005 0,0004 0,0003 0,0002
7 0,0079 0,0060 0,0045 0,0034 0,0025 0,0019 0,0014 0,0010 0,0007 0,0005
8 0,0153 0,0120 0,0093 0,0072 0,0055 0,0042 0,0031 0,0024 0,0018 0,0013
9 0,0264 0,0213 0,0171 0,0135 0,0107 0,0083 0,0065 0,0050 0,0038 0,0029
10 0,0409 0,0341 0,0281 0,0230 0,0186 0,0150 0,0120 0,0095 0,0074 0,0058
11 0,0577 0,0496 0,0422 0,0355 0,0297 0,0245 0,0201 0,0164 0,0132 0,0106
12 0,0745 0,0661 0,0580 0,0504 0,0432 0,0368 0,0310 0,0259 0,0214 0,0176
240 Pastor-Barriuso R.
Tablas estadísticas
Tabla 2 (Continuación)
μ
k 15,5 16,0 16,5 17,0 17,5 18,0 18,5 19,0 19,5 20,0
13 0,0888 0,0814 0,0736 0,0658 0,0582 0,0509 0,0441 0,0378 0,0322 0,0271
14 0,0983 0,0930 0,0868 0,0800 0,0728 0,0655 0,0583 0,0514 0,0448 0,0387
15 0,1016 0,0992 0,0955 0,0906 0,0849 0,0786 0,0719 0,0650 0,0582 0,0516
16 0,0984 0,0992 0,0985 0,0963 0,0929 0,0884 0,0831 0,0772 0,0710 0,0646
17 0,0897 0,0934 0,0956 0,0963 0,0956 0,0936 0,0904 0,0863 0,0814 0,0760
18 0,0773 0,0830 0,0876 0,0909 0,0929 0,0936 0,0930 0,0911 0,0882 0,0844
19 0,0630 0,0699 0,0761 0,0814 0,0856 0,0887 0,0905 0,0911 0,0905 0,0888
20 0,0489 0,0559 0,0628 0,0692 0,0749 0,0798 0,0837 0,0866 0,0883 0,0888
21 0,0361 0,0426 0,0493 0,0560 0,0624 0,0684 0,0738 0,0783 0,0820 0,0846
22 0,0254 0,0310 0,0370 0,0433 0,0496 0,0560 0,0620 0,0676 0,0727 0,0769
23 0,0171 0,0216 0,0265 0,0320 0,0378 0,0438 0,0499 0,0559 0,0616 0,0669
24 0,0111 0,0144 0,0182 0,0226 0,0275 0,0328 0,0385 0,0442 0,0500 0,0557
25 0,0069 0,0092 0,0120 0,0154 0,0193 0,0237 0,0285 0,0336 0,0390 0,0446
26 0,0041 0,0057 0,0076 0,0101 0,0130 0,0164 0,0202 0,0246 0,0293 0,0343
27 0,0023 0,0034 0,0047 0,0063 0,0084 0,0109 0,0139 0,0173 0,0211 0,0254
28 0,0013 0,0019 0,0028 0,0038 0,0053 0,0070 0,0092 0,0117 0,0147 0,0181
29 0,0007 0,0011 0,0016 0,0023 0,0032 0,0044 0,0058 0,0077 0,0099 0,0125
30 0,0004 0,0006 0,0009 0,0013 0,0019 0,0026 0,0036 0,0049 0,0064 0,0083
31 0,0002 0,0003 0,0005 0,0007 0,0010 0,0015 0,0022 0,0030 0,0040 0,0054
32 0,0001 0,0001 0,0002 0,0004 0,0006 0,0009 0,0012 0,0018 0,0025 0,0034
33 0,0000 0,0001 0,0001 0,0002 0,0003 0,0005 0,0007 0,0010 0,0015 0,0020
34 0,0000 0,0000 0,0001 0,0001 0,0002 0,0002 0,0004 0,0006 0,0008 0,0012
35 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0003 0,0005 0,0007
36 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0003 0,0004
37 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0001 0,0002
38 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001
39 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
40 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
Pastor-Barriuso R. 241
Tablas estadísticas
1,00 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,10 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,20 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,30 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,40 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,50 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,60 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,70 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,80 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,90 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,00 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,10 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,20 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,30 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,40 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,50 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,60 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,70 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,80 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,90 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,00 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,10 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,20 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,30 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,40 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,50 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,60 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,70 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,80 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,90 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
* Para valores z negativos, Φ(z) = P(Z ≤ z) = P(Z ≥ – z) = 1 – P(Z ≤ – z) = 1 – Φ(– z).
242 Pastor-Barriuso R.
Tablas estadísticas
6 81262 04831 92203 25447 65875 71086 12676 42753 79223 63135
7 27510 88900 41437 07409 87437 79309 83499 50721 40752 82801
8 84888 90443 23200 86340 07731 64171 76935 02931 66982 30842
9 92551 42420 29984 87522 19370 30357 33530 58101 59423 91700
10 48644 97274 33475 71381 27387 50740 03176 96910 94049 65052
11 71226 14223 27559 00943 46943 40680 96829 09265 94401 98461
12 59902 65129 28077 80487 79160 56426 47978 08556 20753 10206
13 24973 51863 86605 16991 58423 33341 70147 06005 81833 00868
14 27005 74018 05569 70982 80438 76901 80061 11144 91733 07228
15 25651 65765 98249 24231 32819 26680 17613 29917 47814 92539
16 34255 68331 66861 37285 34606 68167 55636 70101 51328 57528
17 74791 18769 92325 19959 90031 27008 25857 68520 41469 45100
18 63485 89564 62107 80055 08094 85412 33589 71900 05892 63260
19 99762 44503 91645 15352 25957 73662 71146 26161 98418 10195
20 85157 99008 25927 31118 65466 48706 20302 26133 04751 34701
Pastor-Barriuso R. 243
Tablas estadísticas
Grados de Percentil
libertad 0,75 0,80 0,85 0,90 0,95 0,975 0,99 0,995 0,9995
1 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657 636,619
2 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925 31,599
3 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841 12,924
4 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604 8,610
5 0,727 0,920 1,156 1,476 2,015 2,571 3,365 4,032 6,869
244 Pastor-Barriuso R.
Tablas estadísticas
Percentil
d 0,005 0,01 0,025 0,05 0,10 0,25 0,50 0,75 0,90 0,95 0,975 0,99 0,995
1 0,000 0,0002 0,001 0,004 0,02 0,10 0,45 1,32 2,71 3,84 5,02 6,63 7,88
2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 7,38 9,21 10,60
3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,81 9,35 11,34 12,84
4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 11,14 13,28 14,86
5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 12,83 15,09 16,75
6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 14,45 16,81 18,55
7 0,99 1,24 1,69 2,17 2,83 4,25 6,35 9,04 12,02 14,07 16,01 18,48 20,28
8 1,34 1,65 2,18 2,73 3,49 5,07 7,34 10,22 13,36 15,51 17,53 20,09 21,95
9 1,73 2,09 2,70 3,33 4,17 5,90 8,34 11,39 14,68 16,92 19,02 21,67 23,59
10 2,16 2,56 3,25 3,94 4,87 6,74 9,34 12,55 15,99 18,31 20,48 23,21 25,19
11 2,60 3,05 3,82 4,57 5,58 7,58 10,34 13,70 17,28 19,68 21,92 24,72 26,76
12 3,07 3,57 4,40 5,23 6,30 8,44 11,34 14,85 18,55 21,03 23,34 26,22 28,30
13 3,57 4,11 5,01 5,89 7,04 9,30 12,34 15,98 19,81 22,36 24,74 27,69 29,82
14 4,07 4,66 5,63 6,57 7,79 10,17 13,34 17,12 21,06 23,68 26,12 29,14 31,32
15 4,60 5,23 6,26 7,26 8,55 11,04 14,34 18,25 22,31 25,00 27,49 30,58 32,80
16 5,14 5,81 6,91 7,96 9,31 11,91 15,34 19,37 23,54 26,30 28,85 32,00 34,27
17 5,70 6,41 7,56 8,67 10,09 12,79 16,34 20,49 24,77 27,59 30,19 33,41 35,72
18 6,26 7,01 8,23 9,39 10,86 13,68 17,34 21,60 25,99 28,87 31,53 34,81 37,16
19 6,84 7,63 8,91 10,12 11,65 14,56 18,34 22,72 27,20 30,14 32,85 36,19 38,58
20 7,43 8,26 9,59 10,85 12,44 15,45 19,34 23,83 28,41 31,41 34,17 37,57 40,00
21 8,03 8,90 10,28 11,59 13,24 16,34 20,34 24,93 29,62 32,67 35,48 38,93 41,40
22 8,64 9,54 10,98 12,34 14,04 17,24 21,34 26,04 30,81 33,92 36,78 40,29 42,80
23 9,26 10,20 11,69 13,09 14,85 18,14 22,34 27,14 32,01 35,17 38,08 41,64 44,18
24 9,89 10,86 12,40 13,85 15,66 19,04 23,34 28,24 33,20 36,42 39,36 42,98 45,56
25 10,52 11,52 13,12 14,61 16,47 19,94 24,34 29,34 34,38 37,65 40,65 44,31 46,93
26 11,16 12,20 13,84 15,38 17,29 20,84 25,34 30,43 35,56 38,89 41,92 45,64 48,29
27 11,81 12,88 14,57 16,15 18,11 21,75 26,34 31,53 36,74 40,11 43,19 46,96 49,64
28 12,46 13,56 15,31 16,93 18,94 22,66 27,34 32,62 37,92 41,34 44,46 48,28 50,99
29 13,12 14,26 16,05 17,71 19,77 23,57 28,34 33,71 39,09 42,56 45,72 49,59 52,34
30 13,79 14,95 16,79 18,49 20,60 24,48 29,34 34,80 40,26 43,77 46,98 50,89 53,67
35 17,19 18,51 20,57 22,47 24,80 29,05 34,34 40,22 46,06 49,80 53,20 57,34 60,27
40 20,71 22,16 24,43 26,51 29,05 33,66 39,34 45,62 51,81 55,76 59,34 63,69 66,77
45 24,31 25,90 28,37 30,61 33,35 38,29 44,34 50,98 57,51 61,66 65,41 69,96 73,17
50 27,99 29,71 32,36 34,76 37,69 42,94 49,33 56,33 63,17 67,50 71,42 76,15 79,49
60 35,53 37,48 40,48 43,19 46,46 52,29 59,33 66,98 74,40 79,08 83,30 88,38 91,95
70 43,28 45,44 48,76 51,74 55,33 61,70 69,33 77,58 85,53 90,53 95,02 100,43 104,21
80 51,17 53,54 57,15 60,39 64,28 71,14 79,33 88,13 96,58 101,88 106,63 112,33 116,32
90 59,20 61,75 65,65 69,13 73,29 80,62 89,33 98,65 107,57 113,15 118,14 124,12 128,30
100 67,33 70,06 74,22 77,93 82,36 90,13 99,33 109,14 118,50 124,34 129,56 135,81 140,17
Pastor-Barriuso R. 245
Tablas estadísticas
12 0,90 3,18 2,81 2,61 2,48 2,39 2,33 2,24 2,19 2,10 2,06 2,01 1,90
0,95 4,75 3,89 3,49 3,26 3,11 3,00 2,85 2,75 2,62 2,54 2,47 2,30
0,975 6,55 5,10 4,47 4,12 3,89 3,73 3,51 3,37 3,18 3,07 2,96 2,72
246 Pastor-Barriuso R.
Tablas estadísticas
Tabla 7 (Continuación)
d1
d2 Percentil 1 2 3 4 5 6 8 10 15 20 30 ∞
0,99 9,33 6,93 5,95 5,41 5,06 4,82 4,50 4,30 4,01 3,86 3,70 3,36
0,995 11,75 8,51 7,23 6,52 6,07 5,76 5,35 5,09 4,72 4,53 4,33 3,90
14 0,90 3,10 2,73 2,52 2,39 2,31 2,24 2,15 2,10 2,01 1,96 1,91 1,80
0,95 4,60 3,74 3,34 3,11 2,96 2,85 2,70 2,60 2,46 2,39 2,31 2,13
0,975 6,30 4,86 4,24 3,89 3,66 3,50 3,29 3,15 2,95 2,84 2,73 2,49
0,99 8,86 6,51 5,56 5,04 4,69 4,46 4,14 3,94 3,66 3,51 3,35 3,00
0,995 11,06 7,92 6,68 6,00 5,56 5,26 4,86 4,60 4,25 4,06 3,86 3,44
16 0,90 3,05 2,67 2,46 2,33 2,24 2,18 2,09 2,03 1,94 1,89 1,84 1,72
0,95 4,49 3,63 3,24 3,01 2,85 2,74 2,59 2,49 2,35 2,28 2,19 2,01
0,975 6,12 4,69 4,08 3,73 3,50 3,34 3,12 2,99 2,79 2,68 2,57 2,32
0,99 8,53 6,23 5,29 4,77 4,44 4,20 3,89 3,69 3,41 3,26 3,10 2,75
0,995 10,58 7,51 6,30 5,64 5,21 4,91 4,52 4,27 3,92 3,73 3,54 3,11
18 0,90 3,01 2,62 2,42 2,29 2,20 2,13 2,04 1,98 1,89 1,84 1,78 1,66
0,95 4,41 3,55 3,16 2,93 2,77 2,66 2,51 2,41 2,27 2,19 2,11 1,92
0,975 5,98 4,56 3,95 3,61 3,38 3,22 3,01 2,87 2,67 2,56 2,44 2,19
0,99 8,29 6,01 5,09 4,58 4,25 4,01 3,71 3,51 3,23 3,08 2,92 2,57
0,995 10,22 7,21 6,03 5,37 4,96 4,66 4,28 4,03 3,68 3,50 3,30 2,87
20 0,90 2,97 2,59 2,38 2,25 2,16 2,09 2,00 1,94 1,84 1,79 1,74 1,61
0,95 4,35 3,49 3,10 2,87 2,71 2,60 2,45 2,35 2,20 2,12 2,04 1,84
0,975 5,87 4,46 3,86 3,51 3,29 3,13 2,91 2,77 2,57 2,46 2,35 2,09
0,99 8,10 5,85 4,94 4,43 4,10 3,87 3,56 3,37 3,09 2,94 2,78 2,42
0,995 9,94 6,99 5,82 5,17 4,76 4,47 4,09 3,85 3,50 3,32 3,12 2,69
25 0,90 2,92 2,53 2,32 2,18 2,09 2,02 1,93 1,87 1,77 1,72 1,66 1,52
0,95 4,24 3,39 2,99 2,76 2,60 2,49 2,34 2,24 2,09 2,01 1,92 1,71
0,975 5,69 4,29 3,69 3,35 3,13 2,97 2,75 2,61 2,41 2,30 2,18 1,91
0,99 7,77 5,57 4,68 4,18 3,85 3,63 3,32 3,13 2,85 2,70 2,54 2,17
0,995 9,48 6,60 5,46 4,84 4,43 4,15 3,78 3,54 3,20 3,01 2,82 2,38
30 0,90 2,88 2,49 2,28 2,14 2,05 1,98 1,88 1,82 1,72 1,67 1,61 1,46
0,95 4,17 3,32 2,92 2,69 2,53 2,42 2,27 2,16 2,01 1,93 1,84 1,62
0,975 5,57 4,18 3,59 3,25 3,03 2,87 2,65 2,51 2,31 2,20 2,07 1,79
0,99 7,56 5,39 4,51 4,02 3,70 3,47 3,17 2,98 2,70 2,55 2,39 2,01
0,995 9,18 6,35 5,24 4,62 4,23 3,95 3,58 3,34 3,01 2,82 2,63 2,18
35 0,90 2,85 2,46 2,25 2,11 2,02 1,95 1,85 1,79 1,69 1,63 1,57 1,41
0,95 4,12 3,27 2,87 2,64 2,49 2,37 2,22 2,11 1,96 1,88 1,79 1,56
0,975 5,48 4,11 3,52 3,18 2,96 2,80 2,58 2,44 2,23 2,12 2,00 1,70
0,99 7,42 5,27 4,40 3,91 3,59 3,37 3,07 2,88 2,60 2,44 2,28 1,89
0,995 8,98 6,19 5,09 4,48 4,09 3,81 3,45 3,21 2,88 2,69 2,50 2,04
40 0,90 2,84 2,44 2,23 2,09 2,00 1,93 1,83 1,76 1,66 1,61 1,54 1,38
0,95 4,08 3,23 2,84 2,61 2,45 2,34 2,18 2,08 1,92 1,84 1,74 1,51
0,975 5,42 4,05 3,46 3,13 2,90 2,74 2,53 2,39 2,18 2,07 1,94 1,64
0,99 7,31 5,18 4,31 3,83 3,51 3,29 2,99 2,80 2,52 2,37 2,20 1,80
0,995 8,83 6,07 4,98 4,37 3,99 3,71 3,35 3,12 2,78 2,60 2,40 1,93
60 0,90 2,79 2,39 2,18 2,04 1,95 1,87 1,77 1,71 1,60 1,54 1,48 1,29
0,95 4,00 3,15 2,76 2,53 2,37 2,25 2,10 1,99 1,84 1,75 1,65 1,39
0,975 5,29 3,93 3,34 3,01 2,79 2,63 2,41 2,27 2,06 1,94 1,82 1,48
0,99 7,08 4,98 4,13 3,65 3,34 3,12 2,82 2,63 2,35 2,20 2,03 1,60
0,995 8,49 5,79 4,73 4,14 3,76 3,49 3,13 2,90 2,57 2,39 2,19 1,69
120 0,90 2,75 2,35 2,13 1,99 1,90 1,82 1,72 1,65 1,55 1,48 1,41 1,19
0,95 3,92 3,07 2,68 2,45 2,29 2,18 2,02 1,91 1,75 1,66 1,55 1,25
0,975 5,15 3,80 3,23 2,89 2,67 2,52 2,30 2,16 1,94 1,82 1,69 1,31
0,99 6,85 4,79 3,95 3,48 3,17 2,96 2,66 2,47 2,19 2,03 1,86 1,38
0,995 8,18 5,54 4,50 3,92 3,55 3,28 2,93 2,71 2,37 2,19 1,98 1,43
Pastor-Barriuso R. 247
Tablas estadísticas
Tabla 7 (Continuación)
d1
d2 Percentil 1 2 3 4 5 6 8 10 15 20 30 ∞
∞ 0,90 2,71 2,30 2,08 1,94 1,85 1,77 1,67 1,60 1,49 1,42 1,34 1,00
0,95 3,84 3,00 2,60 2,37 2,21 2,10 1,94 1,83 1,67 1,57 1,46 1,00
0,975 5,02 3,69 3,12 2,79 2,57 2,41 2,19 2,05 1,83 1,71 1,57 1,00
0,99 6,63 4,61 3,78 3,32 3,02 2,80 2,51 2,32 2,04 1,88 1,70 1,00
0,995 7,88 5,30 4,28 3,72 3,35 3,09 2,74 2,52 2,19 2,00 1,79 1,00
* Para percentiles inferiores α = 0,005, 0,01, 0,025, 0,05 y 0,10, Fd1,d2,α = 1/ Fd2,d1,1–α.
248 Pastor-Barriuso R.
Tablas estadísticas
Tabla 8 Percentiles de
n1
Pastor-Barriuso R. 249
Tablas estadísticas
Tabla 8 (Continuación)
Percentil 0,99 Percentil 0,995
n1 n1
n2 3 4 5 6 7 8 3 4 5 6 7 8
3 15 15
4 18 26 18 26
5 21 29 38 21 30 39
6 24 32 42 53 24 33 43 54
7 26 36 46 58 70 27 37 48 59 72
8 29 39 50 62 76 90 30 40 52 64 77 92
9 31 42 54 67 81 96 32 44 56 69 83 98
10 34 46 58 72 86 102 35 47 60 74 88 104
11 37 49 62 77 92 108 38 51 64 79 94 110
12 39 52 66 81 97 114 40 54 68 83 99 116
13 42 56 70 86 102 119 43 58 72 88 105 122
14 45 59 74 91 108 125 46 61 77 93 110 129
15 47 62 78 95 113 131 48 64 81 98 116 135
16 50 66 82 100 118 137 51 68 85 103 121 141
17 52 69 86 104 123 143 54 71 89 107 127 147
18 55 72 90 109 129 149 57 75 93 112 132 153
19 58 76 94 114 134 155 59 78 97 117 138 159
20 60 79 98 118 139 161 62 81 101 122 143 165
21 63 82 102 123 144 167 65 85 105 127 149 171
22 66 86 106 128 150 173 67 88 110 131 154 177
23 68 89 110 132 155 179 70 92 114 136 159 184
24 71 92 114 137 160 185 73 95 118 141 165 190
25 73 96 118 141 166 190 75 99 122 146 170 196
26 76 99 122 146 171 196 78 102 126 151 176 202
27 79 102 126 151 176 202 81 105 130 155 181 208
28 81 105 130 155 181 208 84 109 134 160 187 214
29 84 109 134 160 187 214 86 112 138 165 192 220
30 86 112 138 165 192 220 89 116 142 170 197 226
31 89 115 142 169 197 226 92 119 147 174 203 232
32 92 119 146 174 202 232 94 123 151 179 208 238
33 94 122 150 178 208 238 97 126 155 184 214 244
34 97 125 154 183 213 243 100 129 159 189 219 250
35 99 129 158 188 218 249 102 133 163 193 225 256
36 102 132 162 192 223 255 105 136 167 198 230 263
37 105 135 166 197 229 261 108 140 171 203 235 269
38 107 139 170 202 234 267 110 143 175 208 241 275
39 110 142 174 206 239 273 113 146 179 213 246 281
40 112 145 178 211 244 279 116 150 183 217 252 287
41 115 148 182 215 250 285 119 153 188 222 257 293
42 118 152 186 220 255 290 121 157 192 227 263 299
43 120 155 190 225 260 296 124 160 196 232 268 305
44 123 158 194 229 265 302 127 164 200 236 273 311
45 126 162 198 234 271 308 129 167 204 241 279 317
46 128 165 202 238 276 314 132 170 208 246 284 323
47 131 168 205 243 281 320 135 174 212 251 290 329
48 133 172 209 248 286 326 137 177 216 255 295 335
49 136 175 213 252 292 332 140 181 220 260 301 341
250 Pastor-Barriuso R.
Tablas estadísticas
W == ri para
Wilcoxon W para un número
númerode
deparejas
parejascon
condiferencias nono
diferencias nulas n ≤n16.*
nulas ≤ 16.*
i =1
Percentil
Percentil
n 0,95 0,975 0,99 0,995
n 5 0,95 14 0,975 15 0,99 15 0,995 15
6 18 20 21 21
5 7 14 24 15 25 15 27 15 28
6 18 20 21 21
8 30 32 34 35
7 24 25 27 28
8 9 30 36 32 39 34 41 35 43
9 10 36 44 39 46 41 49 43 51
10 11 44 52 46 55 49 58 51 60
11 12 52 60 55 64 58 68 60 70
12 60 64 68 70
13 69 73 78 81
13 14 69 79 73 83 78 89 81 92
14 15 79 89 83 94 89 100 92 104
15 89 94 100 104
16 100 106 112 116
16 100 106 112 116
* Para percentiles inferiores α = 0,005, 0,01, 0,025 y 0,05, wα = n(n + 1)/2 – w1–α.
* Para percentiles inferiores α = 0,005, 0,01, 0,025 y 0,05, wα = n(n + 1)/2 - w1-α.
19
Pastor-Barriuso R. 251