Está en la página 1de 262

Centro Nacional de

Instituto Epidemiología
de Salud
Carlos III

 Roberto Pastor-Barriuso

BIOESTADÍSTICA

Centro Nacional de
Instituto Epidemiología
de Salud
Carlos III

MINISTERIO Centro
DE ECONOMÍA Nacional de
Y COMPETITIVIDAD Instituto
de Salud
Epidemiología
Carlos III
Centro Nacional de Epidemiología
Instituto de Salud Carlos III
Monforte de Lemos, 5
28029 MADRID (ESPAÑA)
Tel.:     91 822 20 00
Fax:  91 387 78 15
http://www.isciii.es

Catálogo general de publicaciones oficiales:


http://publicacionesoficiales.boe.es/
Para obtener este libro de forma gratuita en internet (formato pdf):
http://publicaciones.isciii.es/

http://creativecommons.org/licenses/by-nc-sa/2.1/es/

   
EDITA: CENTRO NACIONAL DE EPIDEMIOLOGÍA – Instituto de Salud Carlos III
Madrid, diciembre de 2012

N.I.P.O. (en línea): 477-11-083-3


I.S.B.N.: 978-84-695-3775-6
Imprime: Agencia Estatal Boletín Oficial del Estado.
Avda. de Manoteras, 54. 28050  –  MADRID
BIOESTADÍSTICA

Roberto Pastor-Barriuso

Científico Titular

Centro Nacional de Epidemiología,


Instituto de Salud Carlos III,
Madrid
Para citar este libro

Pastor-Barriuso R. Bioestadística. Madrid: Centro Nacional de Epidemiología, Instituto de


Salud Carlos III, 2012.
Este texto puede ser reproducido siempre que se cite su procedencia.
A la memoria de Carmen

A Marta, Pablo, Miguel y Antonio


ÍNDICE
1 Estadística descriptiva 1
1.1 Introducción 1
1.2 Medidas de tendencia central 3
1.2.1  Media aritmética 3
1.2.2  Mediana 4
1.2.3  Media geométrica 5
1.3 Medidas de posición: cuantiles 5
1.4 Medidas de dispersión 6
1.4.1  Varianza y desviación típica 6
1.4.2  Rango intercuartílico 7
1.4.3  Coeficiente de variación 7
1.5 Representaciones gráficas 8
1.5.1  Diagrama de barras 8
1.5.2  Histograma y polígono de frecuencias 9
1.5.3  Gráfico de tallo y hojas 10
1.5.4  Diagrama de caja 11
1.6 Referencias 12

2 Probabilidad 13
2.1 Introducción 13
2.2 Concepto y definiciones de probabilidad 14
2.3 Probabilidad condicional e independencia de sucesos 16
2.4 Regla de la probabilidad total 18
2.5 Teorema de Bayes 18
2.6 Referencias 20

3 Variables aleatorias y distribuciones de probabilidad 21


3.1 Introducción 21
3.2 Distribuciones de probabilidad discretas 22
3.2.1  Distribución binomial 24
3.2.2  Distribución de Poisson 26
3.2.3  Aproximación de Poisson a la distribución binomial 29
3.3 Distribuciones de probabilidad continuas 29
3.3.1  Distribución normal 31
3.3.2  Aproximación normal a la distribución binomial 34
3.3.3  Aproximación normal a la distribución de Poisson 36
3.4 Combinación lineal de variables aleatorias 37
3.5 Referencias 39

vii
Índice

4 Principios de muestreo y estimación 41


4.1 Introducción 41
4.2 Principales tipos de muestreo probabilístico 42
4.2.1  Muestreo aleatorio simple 43
4.2.2  Muestreo sistemático 43
4.2.3  Muestreo estratificado 44
4.2.4  Muestreo por conglomerados 46
4.2.5  Muestreo polietápico 47
4.3 Estimación en el muestreo aleatorio simple 49
4.3.1  Estimación puntual de una media poblacional 49
4.3.2  Error estándar de la media muestral 51
4.3.3  Teorema central del límite 53
4.3.4  Estimación de una proporción poblacional 55
4.4 Referencias 58

5 Inferencia estadística 59
5.1 Introducción 59
5.2 Estimación puntual 60
5.3 Estimación por intervalo 62
5.3.1  Distribución t de Student 62
5.3.2  Intervalo de confianza para una media poblacional 63
5.4 Contraste de hipótesis 67
5.4.1  Formulación de hipótesis 67
5.4.2  Contraste estadístico para la media de una población 69
5.4.3  Errores y potencia de un contraste de hipótesis 72
5.5 Referencias 76

6 Inferencia sobre medias 79


6.1 Introducción 79
6.2 Inferencia sobre una media y varianza poblacional 80
6.2.1  Inferencia sobre la media de una población 80
6.2.2  Inferencia sobre la varianza de una población 81
6.3 Comparación de medias en dos muestras independientes 83
6.3.1  Comparación de medias en distribuciones con igual varianza 85
6.3.2  Contraste para la igualdad de varianzas 88
6.3.3  Comparación de medias en distribuciones con distinta varianza 90
6.4 Comparación de medias en dos muestras dependientes 92
6.5 Referencias 95

viii
Índice

7 Inferencia sobre proporciones 97


7.1 Introducción 97
7.2 Inferencia sobre una proporción poblacional 97
7.3 Comparación de proporciones en dos muestras independientes 99
7.4 Asociación estadística en una tabla de contingencia 102
7.5 Test de tendencia en una tabla r×2 106
7.6 Medidas de efecto en una tabla de contingencia 107
7.6.1  Riesgo relativo 108
7.6.2  Odds ratio 111
7.7 Comparación de proporciones en dos muestras dependientes 114
7.8 Apéndice: corrección por continuidad 117
7.9 Referencias 120

8 Métodos no paramétricos 121


8.1 Introducción 121
8.2 Test de la suma de rangos de Wilcoxon 122
8.3 Test de los rangos con signo de Wilcoxon 129
8.4 Test exacto de Fisher 134
8.5 Referencias 138

9 Determinación del tamaño muestral 139


9.1 Introducción 139
9.2 Tamaño muestral para la estimación de un parámetro poblacional 140
9.2.1  Tamaño muestral para la estimación de una media 140
9.2.2  Tamaño muestral para la estimación de una proporción 141
9.3 Tamaño muestral para la comparación de medias 142
9.3.1  Tamaño muestral para la comparación de medias en dos muestras
independientes 143
9.3.2  Tamaño muestral para la comparación de medias en dos muestras
dependientes 146
9.4 Tamaño muestral para la comparación de proporciones 148
9.4.1  Tamaño muestral para la comparación de proporciones en dos muestras
independientes 148
9.4.2  Tamaño muestral para la comparación de proporciones en dos muestras
dependientes 152
9.5 Referencias 154

10 Correlación y regresión lineal simple 155


10.1 Introducción 155
10.2 Coeficiente de correlación 155

ix
Índice

10.2.1  Coeficiente de correlación muestral de Pearson 158


10.2.2  Coeficiente de correlación de los rangos de Spearman 161
10.3 Regresión lineal simple 164
10.3.1  Estimación de la recta de regresión 166
10.3.2  Contraste del modelo de regresión lineal simple 169
10.3.3  Inferencia sobre los parámetros de la recta de regresión 173
10.3.4  Bandas de confianza y predicción para la recta de regresión 175
10.3.5  Evaluación de las asunciones del modelo de regresión lineal simple 178
10.3.6  Observaciones atípicas e influyentes 184
10.3.7  Variable explicativa dicotómica 190
10.4 Referencias 191

11 Regresión lineal múltiple 193


11.1 Introducción 193
11.2 Estructura de la regresión lineal múltiple 194
11.3 Estimación e inferencia de la ecuación de regresión 196
11.3.1  Estimación de los coeficientes de regresión 197
11.3.2  Inferencia sobre los coeficientes de regresión 200
11.3.3  Inferencia sobre la ecuación de regresión 201
11.4 Contrastes de hipótesis en regresión lineal múltiple 203
11.4.1  Contraste global del modelo de regresión lineal múltiple 203
11.4.2  Contrastes parciales 206
11.5 Variables explicativas politómicas 210
11.6 Regresión polinomial 215
11.7 Confusión e interacción en regresión lineal 218
11.7.1  Control de la confusión en regresión lineal 218
11.7.2  Evaluación de la interacción en regresión lineal 221
11.8 Apéndice: formulación matricial de la regresión lineal múltiple 228
11.9 Referencias 232

Apéndice: tablas estadísticas 233

x
TEMA 1

ESTADÍSTICA DESCRIPTIVA

1.1 INTRODUCCIÓN

La estadística es la rama de las matemáticas aplicadas que permite estudiar fenómenos cuyos
resultados son en parte inciertos. Al estudiar sistemas biológicos, esta incertidumbre se debe al
desconocimiento de muchos de los mecanismos fisiológicos y fisiopatológicos, a la incapacidad
de medir todos los determinantes de la enfermedad y a los errores de medida que inevitablemente
se producen. Así, al realizar observaciones en clínica o en salud pública, los resultados obtenidos
contienen una parte sistemática o estructural, que aporta información sobre las relaciones entre
las variables estudiadas, y una parte de “ruido” aleatorio. El objeto de la estadística consiste en
extraer la máxima información sobre estas relaciones estructurales a partir de los datos recogidos.
En estadística se distinguen dos grandes grupos de técnicas:
yy La estadística descriptiva, en la que se estudian las técnicas necesarias para la organización,
presentación y resumen de los datos obtenidos.
yy La estadística inferencial, en la que se estudian las bases lógicas y las técnicas mediante
las cuales pueden establecerse conclusiones sobre la población a estudio a partir de los
resultados obtenidos en una muestra.
El análisis de una base de datos siempre partirá de técnicas simples de resumen de los datos y
presentación de los resultados. A partir de estos resultados iniciales, y en función del diseño del
estudio y de las hipótesis preestablecidas, se aplicarán las técnicas de inferencia estadística que
permitirán obtener conclusiones acerca de las relaciones estructurales entre las variables
estudiadas. Las técnicas de estadística descriptiva no precisan de asunciones para su
interpretación, pero en contrapartida la información que proporcionan no es fácilmente
generalizable. La estadística inferencial permite esta generalización, pero requiere ciertas
asunciones que deben verificarse para tener un grado razonable de seguridad en las inferencias.
A continuación se definen algunos conceptos generales que aparecen repetidamente a lo
largo de la exposición:
yy Población es el conjunto de todos los elementos que cumplen ciertas propiedades y entre
los cuales se desea estudiar un determinado fenómeno.
yy Muestra es un subconjunto de la población seleccionado mediante un mecanismo más o
menos explícito. En general, rara vez se dispone de los recursos necesarios para estudiar a
toda la población y, en consecuencia, suelen emplearse muestras obtenidas a partir de
estas poblaciones.

Ejemplo 1.1  Algunos ejemplos de poblaciones son:


—— Las personas residentes en Washington D.C. a 1 de enero de 2010.
—— Las personas infectadas con el virus de inmunodeficiencia humana en Brasil a día de
hoy.

Pastor-Barriuso R. 1
Estadística descriptiva

Para estas poblaciones, algunas muestras podrían ser:


— 500 residentes en Washington D.C. a 1 de enero de 2010 seleccionados mediante
llamadas telefónicas aleatorias.
—  Todas las personas que acuden a un hospital de Río de Janeiro durante el presente año
para realizarse un test del virus de inmunodeficiencia humana y que resultan ser
positivas.

yy Variables son propiedades o cualidades que presentan los elementos de una población.
Las variables pueden clasificarse en:
ƒƒ Variables cualitativas o atributos son aquellas que no pueden medirse numéricamente
y que, a su vez, pueden ser:
—— Nominales, en las que no pueden ordenarse las diferentes categorías.
—— Ordinales, en las que pueden ordenarse las categorías, pero no puede establecerse
la distancia relativa entre las mismas.
ƒƒ Variables cuantitativas son aquellas que tienen una interpretación numérica y que se
subdividen en:
—— Discretas, sólo pueden tomar unos valores concretos dentro de un intervalo.
—— Continuas, pueden tomar cualquier valor dentro de un intervalo.
En la práctica, todas las variables continuas que medimos son discretas en el sentido de
que, debido a las limitaciones de los sistemas de medida, las variables continuas no
pueden adoptar todos los valores dentro de un intervalo. De cara a los análisis posteriores,
la principal distinción se establece, por tanto, entre variables con relativamente pocas
categorías (como número de hijos) frente a variables con muchas categorías (como
niveles de colesterol en sangre).

Ejemplo 1.2  Algunos ejemplos de variables son:


—— Variables cualitativas nominales: sexo, raza, estado civil (soltero, casado, viudo,
separado, divorciado), religión (católico, protestante, otros), nacionalidad.
—— Variables cualitativas ordinales: salud auto-percibida (buena, regular, mala), severidad
de la enfermedad (leve, moderada, grave). Por ejemplo, para esta última variable
ordinal, podemos establecer un orden de severidad, pero no podemos decir que la
diferencia de severidad entre un paciente moderado y uno leve sea la misma que entre
uno grave y uno moderado.
—— Variables cuantitativas discretas: número de hijos, número de dientes cariados.
—— Variables cuantitativas continuas: edad, peso, altura, presión arterial, niveles de
colesterol en sangre.

yy Estadístico es cualquier operación realizada sobre los valores de una variable.


yy Parámetro es un valor de la población sobre el que se desea realizar inferencias a partir
de estadísticos obtenidos de la muestra, que en este caso se denominan estimadores. Por
convención, los parámetros poblacionales se denotan con letras del alfabeto griego,
mientras que los estimadores muestrales se denotan con letras de nuestro alfabeto.

2 Pastor-Barriuso R.
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia
Medidas de tendencia central
central de la muestra sirven tanto para resumir los resultados observados como para

realizar inferencias acerca de los parámetros poblacionales correspondientes. A


Ejemplo 1.3  Algunos ejemplos de estadísticos incluyen:
1.2 MEDIDAS DE TENDENCIA CENTRAL
—— La media de continuación
los valores desecolesterol
describendelos principales
una muestra. estimadores de la tendencia central de una
—— El valor
Las medidas más variable.
alto de
de tendencia colesterol
central de unaacerca
informan muestra.
de cuál es el valor más representativo
—— La suma de los valores de colesterol de una muestra elevados al cuadrado.
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
Así, por ejemplo,1.2.1 Media
la media colesterol en una población, que se denotaría por μ, es un
delaritmética
parámetro
1.2 MEDIDAS que
DE se estima
TENDENCIA a partir de la media de los valores de colesterol en una muestra
CENTRAL
alrededor de qué valor se agrupan los
La media aritmética,
obtenida de esa población, datos observados.
denotada
que se representaría por x ., Las
por medidas
se define delatendencia
como suma de cada uno de los
Las
En medidas
central
elde detema,
presente tendencia
la muestra sirven
se central
revisan
valores las informan
tanto acerca
para resumir
herramientas
muestrales deresultados
los elcuál
fundamentales
dividida por es elpara
número valor más representativo
observados
de como
la realización
observaciones para
derealizadas.
un análisisSi denotamos
descriptivo de las variables recogidas en una muestra, tanto mediante estimadores de la tendencia
de unaposición
central,
realizar determinada
inferencias variable
y dispersión
acerca de
por n el o,los
como dicho
tamaño de forma
mediante
parámetros
muestral equivalente,
la utilización
por xi el de
ypoblacionales estos
valor estimadores
representaciones
observado indican
gráficas.
correspondientes.
para el A
sujeto i-ésimo, i = 1, ..., n,
alrededor de se
continuación quédescriben
valor se agrupan los dada
los vendría
la media datosestimadores
principales observados. de
por Laslamedidas de tendencia
tendencia central de una
1.2  MEDIDAS DE TENDENCIA CENTRAL
central de la muestra sirven tanto para resumir los resultados observados como para
variable. 1 esn
x1 +más
x 2 +representativo
... + x n
Las medidas de tendencia central informan acerca de cuál xeli =valor de una
determinada variable acerca
realizar inferencias o, dichodedelos
forma equivalente,
parámetros
x=
estosestimadores
poblacionales
n i =1 indican
correspondientes.
n
.
alrededor
A de qué
valor se
1.2.1 agrupan
Media los datos observados. Las medidas de tendencia central de la muestra sirven
aritmética
tanto para resumir
continuación los resultados
se describen observados
los principales como para
estimadores de larealizar
tendencia inferencias
central deacerca
una de los
parámetros poblacionalesLa media es la medida
correspondientes. de tendencia
A continuación central más utilizada
sededescriben yprincipales
de más fácil
La media aritmética, denotada por x , se define como la suma cada unolos de los
estimadores
variable. de la tendencia central de una variable.
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su
valores muestrales dividida por el número de observaciones realizadas. Si denotamos
1.2.1 Media
1.2.1  Media aritmética
principal limitación es que está muy influenciada por los valores extremos y, en este
aritmética
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n,
LaLamedia
mediaaritmética,
aritmética,caso,
denotada
denotada
puede noxser
por ,, seundefine
define como
comode
fiel reflejo lalasuma
lasuma dede
tendenciacada unouno
cada dede
central los
delalos valores
distribución.
muestrales
la divididadada
media vendría el número de observaciones realizadas. Si denotamos por n el tamaño
por por
valores ymuestrales
muestral dividida
por xi el valor por el para
observado número de observaciones
el sujeto i-ésimo, i = 1,realizadas. Si denotamos
..., n, la media vendría dada por
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
por n el tamaño muestral y por 1 valor
n
x1 + x 2 +para... +elx nsujeto i-ésimo, i = 1, ..., n,
x =xi el x i =observado .
utilizarán
n i =los
1 valores del n colesterol HDL obtenidos en los 10 primeros sujetos del
la media vendría dada por
La media es la medida de tendencia
estudio “EuropeancentralStudymás onutilizada y de más
Antioxidants, fácil interpretación.
Myocardial Infarction and Cancer of
Corresponde
La media ales“centro de gravedad”
la medida de tendenciade los datos más
central de lautilizada
muestra. ySudeprincipal
más limitación es que
fácil
está muy influenciada por losthe 1 nextremos
valores x1 +y, xen
2 +este x n puede no ser un fiel reflejo de la
... +caso,
= 
xBreast“ x(EURAMIC),
i =
un estudio. multicéntrico de casos y controles realizado
tendencia centralCorresponde
interpretación. de la distribución. n i =1 de gravedad”
al “centro n de los datos de la muestra. Su
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los
Ejemplo
principal 1.4  En
limitación
antioxidantes es esteestá
el que y de
enmuy
los influenciada
sucesivos ejemploslos sobre
por infarto estimadores
valores extremos muestrales,
y, este se
en en
La media es laen riesgo
medida desarrollar
de tendencia unmás
central primer
utilizada agudo
y de más de miocardio
fácil
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio
caso, “European
puede no
hombres Study
ser unLos
adultos. on valores
fiel Antioxidants,
reflejo de la deMyocardial
tendencia
obtenidos Infarction
fueroncentral
0,89, dedatos
1,58, and 1,29,
la0,79, Cancer
distribución. of 0,84,
1,42, the Breast”
interpretación. Corresponde al “centro gravedad” de los de la muestra. Su
(EURAMIC), un estudio multicéntrico de casos y controles realizado entre 1991 y 1992
en ocho países Europeos e Israel para evaluar el efecto de los antioxidantes en el riesgo
1,06,
principal 0,87, 1,96 yes1,53
limitación que mmol/l.
está muyLa media de los
influenciada porniveles del colesterol
los valores extremos HDL en
y, en este
de desarrollar
Ejemplo un este
1.4 En primer
y eninfarto agudo deejemplos
los sucesivos miocardio en hombres
sobre adultos.
estimadores Los valores
muestrales, se
obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 1,06, 0,87, 1,96 y 1,53 mmol/l. La
caso, puede
estos no ser un fiel es
10 participantes reflejo de la tendencia central de la distribución.
media de los niveles del colesterol HDL en estos 10 participantes es
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
Ejemplo 1.4 xEn 89 + 1,58 +ejemplos
1 10y en los0,sucesivos ... + 1,53sobre estimadores muestrales, se
estudio = esteStudy
“European  x i =on Antioxidants, = 1,223Infarction
Myocardial mmol/l. and Cancer of
10 i =1 10
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado
estudio
La media “European
aritmética Studylas
presenta onsiguientes
Antioxidants, Myocardial Infarction and Cancer
propiedades: of
Pastor-Barriuso R. 3
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los
• the Breast“
Cambio (EURAMIC),
de origen un Si
(traslación). estudio multicéntrico
se suma de casos
una constante y controles
a cada uno de losrealizado
datos
1,06, 0,87,MEDIDAS
antioxidantes 1.2
1,96 y 1,53
de una
en el riesgo DE

mmol/l.
dedeterminada
desarrollar
iLa media de los niveles del colesterol HDL en
10TENDENCIAvariable
un primerCENTRAL
o, dicho de
10 forma
de equivalente,
enestoscorrespondientes.
estimadores indican
realizar i =1
inferencias acercainfarto
de los agudo miocardio
parámetros poblacionales A
estos 10 participantes
alrededor esde qué valor se agrupan los datos observados. Las medidas de tendencia
hombres adultos.
Las Los valores
medidas
Estadística descriptivaobtenidossecentral
de tendencia
continuación fueron
describen 0,89,
informan 1,58,
los 0,79, 1,29,
acerca
principales 1,42,
es el0,84,
de estimadores
cuál valor
de lamás representativo
tendencia central de una
La media aritmética presenta las siguientes propiedades:
1,06, 0,87, 1,96 central 1de10laLamuestra sirven tanto + 1para
delresumir losHDL
resultados observados como para
de yuna
1,53 mmol/l.
determinada media0,89 de
variable +o,1,los
58 niveles
+
dicho ...de ,53
forma colesterol
equivalente, en estimadores
estos indican
• Cambio de origenx =
10
La media aritmética

variable.
i =1
x =
(traslación).
i = 1,223 mmol/l.
Si se suma una constante a cada uno de los datos
10
presenta las siguientes propiedades:
estos 10 participantes realizar inferencias acerca de los parámetros poblacionales correspondientes. A
alrededoresde qué valor se agrupan los datos observados. Las medidas de tendencia
de unayymuestra,
Cambio deMedia
1.2.1la origende
media (traslación).
aritmética Si se sumaesuna
la muestra resultante igualconstante
a la mediaa cada unomás
inicial de los
la datos de una
muestra,
continuación la media
se de
describen la muestra
los resultante
principales es
estimadoresigual adela media
la inicial
tendencia más
central la constante
de una
La mediacentral
aritmética
1 de10 lapresenta
muestra
0 ,89 las 1 siguientes
sirven
+ ,58 + tanto
... + 1,propiedades:
para
53 resumir los resultados observados como para
constante 
x = utilizada;
utilizada;
xLa media =i =xxi i++ c,
si siyiyaritmética, c, entonces
denotada ypor x ,++secc..define
= mmol/l. Un cambio
Un cambio
como de ladesuma
origen
origen dequeque se
cada unorealiza
de loscon
i = = 1,223
10variable.
frecuencia
i =1 es el centrado10 de la variable, que consiste en restar a cada valor de la muestra
• Cambio de origen
realizar (traslación).
inferencias acerca Side se los
suma una constante
parámetros a cada uno
poblacionales de los datos
correspondientes. A
se realiza sucon media.
valores Lamuestrales
frecuencia media decentrado
es el una variable
dividida porlacentrada
de elvariable,
número será, por tanto,enigual
de observaciones
que consiste a 0.a
realizadas.
restar Si denotamos
yy 1.2.1
Cambio
de unacontinuación
muestra, sede
la Media
media escala
aritmética
de
describen (unidades).
la muestra Si seestimadores
resultante
los principales multiplica
es igual a la cada la uno
demedia de losmás
inicial
tendencia datosla de
central deuna
una muestra por
media aritmética
cada presenta porlasmuestra
nsiguientes
el tamaño propiedades:
muestral por xide
ymedia el una
valorvariable
observado por i-ésimo, i = 1, ..., n,
valor
unade la
constante, la su
media media. Lamuestra
de la resultante es igual a para
centrada el sujeto
será,
la media inicial por la constante
constante utilizada;
utilizada;
La
variable. media i =yx
si i +cx
si yaritmética,
i = ci,, entonces
denotadaypor
entonces == cxx .,+sec.define
Un cambio
comode la origen
suma de que
cada uno de los
Cambio de origen
tanto, (traslación).
igual ala0.media Si se suma
vendría una constante
dada por a cada uno de los datos
yy Cambio simultáneo de origen y escala. Si se multiplica cada uno de los datos de una
se realiza con valores
frecuencia
muestra muestrales
por esuna dividida
el constante
centrado depor el número
laresultado
variable, de
que observaciones
consiste enmás realizadas.
restar a la mediaSi denotamos
de una muestra,1.2.1
• Cambio
la Media
media
de escaladearitmética
la muestra
(unidades). Si seymultiplica
resultante ales igual
1
lanse
acada le suma
media
uno x
otra
inicial
de + los
x
constante,
datos
+ ... +
la
de
x una de la muestra
resultante es igual a la media inicial por la primera constante, más. la segunda constante; si
cada valor por
desi n=c el tamaño
lay=iaritmética,
muestra su muestral
media. La ymedia
por xse
i eluna
de 
x =valor xi =
observado
variable
1 2
paraque
centrada elcada
n
por i-ésimo,
sujeto
será, de los i = 1, ..., n,
constante utilizada;
La mediay
muestra por i x
una +
+ c
c , , entonces
entonces
1 ii constante,
2 denotada la media1 de la2muestra resultante esnde
y =
=
porcx x +,+ c c. .
Un ncambio
define i =como
1 dela origen
suma igual a launo
media
tanto, igual
valores ala0.media vendría dada por
muestrales dividida
se realiza coninicial
frecuenciaEjemplo
por laes el 1.5 
Lacentrado
constante media Para
esde lapor
utilizada; la el
si número
transformar
variable,
medida los
quedevalores
yi =decxtendencia observaciones
consiste
i, entonces ydel x realizadas.
colesterol
en= restar
central cmás a HDLSi
. utilizada denotamos
y de
de mmol/l
más fácila mg/dl se
multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del cambio de
• Cambio de escala (unidades). Si se multiplica cada n uno de los datos de una
por
cada valor• deCambio n elescala,
la muestra tamaño
su lamuestral
media. media
deLa del
media xde
yCorresponde
por i el
colesteroluna valorHDL observado
1alse
variable x +para
encentrada
mg/dl xcada
se +el sujeto
+por
...uno
calcularía
2 será, ndei-ésimo,
xde datosi de
=de1,la...,
directamente n,
amuestra.
partir de
Susu
interpretación.
simultáneo origen y escala. x=  Si “centro
x i = 1de gravedad”
multiplica los
. los datos
media en mmol/l como 1,223·38,8 = 47,45 mg/dl.
n i =1 resultante esnigual a la media
muestrala por
mediaunavendría
constante, dada lapor
media de la muestra
tanto, igual auna
0. muestra principal
por una constante limitacióny es que está muy
al resultado se leinfluenciada
suma otra constante, por los valores
la media extremos y, en este
inicial por la constante
1.2.2 Mediana
La media utilizada;
es multiplicasi yi =de
la medida cxtendencia
i, entoncescentral y = c más x . utilizada y de más fácil
Cambio de escala (unidades).
de la muestra caso, Si
resultante se
puede noigual
es ser un acada
1la uno de
fielnmedia
reflejo los
+ xladatos
x1 de
inicial la+deprimera
tendencia
por
+ ... xuna central de la distribución.
constante, más la
x =  xi = 2 n
.
• Cambio
La mediana
simultáneo es origen
interpretación.
de el valor y de
Corresponde un variable
escala. n al
Si que deja
=1 “centro
i se multiplica por
n encima
deesgravedad”
cada unolade de ellos50%
los datos
datos dede losladatos
de muestra. de laSumuestra
muestra por una y constante,
segunda debajolaelmedia
por constante; si yi de
otro cla
=50%. muestra
1 xi + c2, entonces
Para resultante
calcular = c1igual
lay mediana, x + aces media
2. necesario ordenar los valores de la
muestra de menor Ejemplo
a mayor. 1.4 En Si el este y en los
tamaño sucesivos
muestral ejemplos la
nconstante,
es sobre estimadores muestrales, se
unalamuestra
inicial por constante principal
por una limitación
constante
utilizada; si yi =y de esi,resultado
al
cx que está
entonces muy
sey le=influenciada
suma
c xmás. otra porimpar,
los valores
la mediana
media extremosviene dada
y, en estepor el
La media es la medida tendencia central utilizada
valor (n + 1)/2-ésimo. Si n es par, la mediana viene dada por la media aritmética de los y de más fácil
Ejemplo
valores 1.5 Para
(n/2) utilizarán
transformar
y (n/2 +ser loslosvalores
1)-ésimos. valores
La inicialdeldelcolesterol
principal colesterol
ventaja HDLHDL
de laobtenidos
dede
medianammol/l en
es los
aque 10 primeros
mg/dl sujetos del
se influenciada
de la muestra caso,
interpretación.
puede
resultante esnoigual
Corresponde
un fiel
a laal reflejo
media
“centro
de lapor
de
tendencia
gravedad” la primera
de
central
los constante,
datos de lamás lano está
la distribución.
muestra. Su
Cambio simultáneo de origen y escala. Si se multiplica cada uno
por los valores extremos. No obstante, se utiliza menos que la media como medida de de los datos de
multiplica porcentral estudio de “European Study on Antioxidants, la Myocardial Infarction and Cancer of
segunda tendencia
constante;
principal sielyfactor
limitación
porque
es que
conversión
su tratamiento
i = c1xi + c2, entonces y = c1 x + c2.
está muy
38,8. estadístico
Así,
influenciada
utilizando
por
es más
los
propiedad
valores
complejo.del
extremos y, en muestrales,
este
una muestra por una constante y al resultado se le suma otra constante,
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores la media se
cambio de escala, themedia
la Breast“ del (EURAMIC),
colesterol HDL unen estudio
mg/dl multicéntrico
se calcularía de casos y controles realizado
Ejemplo 1.6  Para obtener la mediana del colesterol HDL en la muestra del estudio
de la muestra caso, puedeesno
resultante ser un
igual
utilizarán a lafiel
media reflejo de
inicial lapor
tendencia
la primera central de la distribución.
constante, másenala
Ejemplo 1.5 Para EURAMIC,
transformar se los
ordena
los valores
valores del
en primer
del colesterol
lugar los
colesterol HDLvalores
HDL obtenidos
de de
mmol/lmenor los 10 primeros
a mayor; esto es, sujetos
0,79, del
0,84,
directamente a partirentrede 1991
su mediay 1992 en en ochocomo
mmol/l países1,223 Europeos
⋅ 38,8 = Israelmg/dl
e 47,45 para
mg/dl.
se
evaluar el efecto de los
0,87, 0,89, 1,06, 1,29, 1,42, 1,53, 1,58 y 1,96 mmol/l. Como el tamaño muestral es par
segunda constante; si yi = estudio
c1xi + c2“European
, entonces yStudy = c1on x + c2 .
multiplica por (n
el=factor
Ejemplo 10), 1.4la
deEnmediana
este yserá
conversión la media
38,8.
en los Así,Antioxidants,
sucesivos de los
utilizando
ejemplos la Myocardial
dos valores propiedad
sobre centrales Infarction
del
estimadores (en este and Cancer
caso,
muestrales, el se of 6º),
5º y el
que corresponde a (1,06 + 1,29)/2 = 1,175 mmol/l. 6 5
cambio de escala, themedia
la Breast“ del (EURAMIC),
colesterol HDL unen estudio
mg/dl multicéntrico
se calcularía de casos y controles realizado
utilizarán los
Ejemplo 1.5 Para transformar losvalores
valoresdel delcolesterol
colesterolHDL HDLobtenidos
de mmol/lena mg/dl los 10 se primeros sujetos del
Comparación de la media aritmética y la mediana. En las distribuciones simétricas
(ambas
directamente entre
colas
a partir dedesu1991
lamediay 1992
distribución
en Así,en ocho
mmol/l soncomo países Europeos
semejantes),
1,223 ⋅38,8 la =emedia
Israeles
47,45 para evaluar el efectoigual
aproximadamente
mg/dl. de losa la
multiplica por el estudio
factor “European
de conversión Study
38,8. on Antioxidants,
utilizando Myocardial
la propiedad delInfarction and Cancer of
mediana. En distribuciones sesgadas positivamente (la cola superior de la distribución es mayor
cambio de escala, quelathe
lamedia
inferior),
Breast“ la media HDL
(EURAMIC),
del colesterol tiende unenaestudio
ser mayor
mg/dl que la mediana;
multicéntrico
se calcularía de casosmientrasy controlesquerealizado
en distribuciones 5
6
sesgadas negativamente (la cola inferior de la distribución es mayor que la superior), la media
tiende a ser menor que en la mediana. LaEuropeos
comparación de laparamedia y la mediana permite evaluar,
directamente a partirentrede su 1991
media y 1992en mmol/l ocho comopaíses 1,223 ⋅38,8 = e47,45 Israel mg/dl.evaluar el efecto de los
por tanto, la asimetría de una distribución.

Ejemplo 1.7  En la muestra del estudio EURAMIC la media 6 del colesterol 5HDL es
ligeramente superior a la mediana (1,223 y 1,175 mmol/l, respectivamente). En
consecuencia, la distribución de estos 10 valores del colesterol HDL es aproximadamente
simétrica con un leve sesgo positivo.

4 Pastor-Barriuso R.
 de estos 
x G =  ∏
consecuencia, la distribución x i  10
= nvalores del
x1 x 2 ⋅ ... ⋅ xcolesterol
n .
HDL es
 i =1 
aproximadamente simétrica con un leve sesgo positivo. Medidas de posición: cuantiles
1.2.3 Media geométrica
En la práctica, la forma más sencilla de calcular la media geométrica consiste en
La1.2.3
media geométrica, denotada por xG , se define como la raíz n-ésima del producto de
1.2.3  Media
calcular Mediageométrica
primero geométrica
el logaritmo de cada valor muestral, hallar a continuación la media de
los
La
La
los
valores
media
logaritmos
de una muestra
mediageométrica,
geométrica,
y deshacer
de tamaño
denotada
denotada
finalmentepor laxGn, ,, se define
define como
transformación como raízn-ésima
lalaraíz
logarítmica. n-ésima
Paradeldelproducto losdede los
producto
calcular
valores de una muestra de tamaño n,
los valores
logaritmos se de una muestra
puede de tamaño
usar cualquier base, n, 1 / n y cuando el logaritmo y el
 n siempre 
x G =  ∏ x i  = n x1 x 2 ⋅ ... ⋅ x n .
antilogaritmo estén en la misma base.  i =Notar
1  1que
/n la media geométrica sólo puede
 n 
En la práctica, la forma más xsencilla G = ∏de x i calcular
= n x1lax 2media
⋅ ... ⋅ x ngeométrica
. consiste en calcular
emplearse
primero como
el medida
logaritmo de de
cada tendencia
valor  central
muestral,  en variables
hallar a que
continuación
En la práctica, la forma más sencilla de calcular la media geométrica consiste
i =1 tomanla valores
media de positivos.
losenlogaritmos y
deshacer finalmente la transformación logarítmica. Para calcular los logaritmos se puede usar
cualquier
calcular base, siempre
primero
En la práctica, laelforma ymás
logaritmocuando el logaritmo
de cada
sencilla devalor y ellaantilogaritmo
muestral,
calcular mediahallar estén en
a continuación
geométrica la misma
consiste laen base.deNotar
media
Ejemplo 1.8 Para calcular la media geométrica del colesterol
que la media geométrica sólo puede emplearse como medida de tendencia central en variables HDL en la muestra
que
los tomanprimero
calcular valores
logaritmos elpositivos.
y deshacer
logaritmofinalmente
de cadalavalor transformación
muestral, hallar logarítmica. Para calcular
a continuación la medialos de
del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los
Ejemplo
los logaritmos
logaritmos 1.8  Para
y deshacer
se puede calcular labase,
finalmente
usar cualquier media geométrica
la transformación
siempre y cuandodel colesterol
logarítmica. HDL
Para
el logaritmo en la muestra
ycalcular
el los del
valores
estudio yEURAMIC,
a continuación se se calcula
halla primero suelmedia aritmética,
logaritmo natural de cada uno de los valores ya
consecuencia, la distribución de estos 10 valores del colesterol HDL es
continuación
logaritmos
antilogaritmo seestén
puede se calcula
enusar
la misma su media
cualquier
base.base, aritmética,
Notarsiempreque lay cuando el logaritmosólo
media geométrica y elpuede
aproximadamente simétrica 1 10 con un leve log(0sesgo
,89) +positivo.
... + log(1,53)
antilogaritmo estén enlog
la
emplearse como medida deGtendencia x =
misma 
base.
10 i =1
log x
Notar
central i =que
en la media geométrica
variables sólo puede
10que toman valores positivos.
emplearse como medida de tendencia − 0,117central
+ ... + 0en ,425
variables que toman valores positivos.
1.2.3 Media geométrica= = 0,155.
Ejemplo 1.8 Para calcular la media 10geométrica del colesterol HDL en la muestra
LaLa mediageométrica,
media
Ejemplo geométrica es, porlatanto,
denotada ,=seexp(0,155)
por xGgeométrica define delcomo=colesterol
1,168
la raízmmol/l.
n-ésimaendel producto de
del estudio1.8 Para calcular
EURAMIC, media
se halla primero el logaritmo naturalHDL de cada la muestra
uno de los
La media geométrica es, por tanto, xG = exp(0,155) = 1,168 mmol/l.
Allos
igual que la
valores
del demediana,
estudio la media
una muestra
EURAMIC, dehalla
se geométrica
tamaño n, eleslogaritmo
primero útil comonatural medidade decada
tendencia
uno decentral
los para
valores
variables muyyasimétricas,
a continuación
en lasseque
calcula su media
un pequeño aritmética,
grupo de observaciones extremas tienen una
excesiva
Al igual influencia sobre la la
que ylaamediana,
valores media
continuación se aritmética.
media geométrica
calcula La1 /media
su media es
n útil
geométrica
como medida
aritmética, tienedelatendencia
ventaja adicional de
presentar un tratamiento estadístico 10  sencillo
más n
 que la mediana.
1
log xG = x G= log  ∏x x i= log(=0n,89 x1)x 2+ ⋅...
...+⋅ xlog(
n .
1,53)
central para variables muy asimétricas, 10
1 i10=1
en lasi
que un pequeño
 i =1  log(0,89) + 10 grupo
... + log(1,53 de) observaciones
log x G =  log x i =
− 0,i117 + ... + 0,425
1.3  MEDIDAS
extremas tienen unaDE POSICIÓN:
excesiva = 10 CUANTILES
influencia =1
sobre la media 0,15510 .
= aritmética. La media geométrica
En la práctica, la forma más sencilla de calcular
− 0,117 +10... + 0,425 la media geométrica consiste en
Los cuantiles indican la posición=relativa de una observación = 0,155con . respecto al resto de la muestra.
8
10
calcular primero
A continuación el logaritmo
se describen de cadamás
los cuantiles valor muestral, hallar a continuación la media de
utilizados:
La media geométrica es, por tanto, xG = exp(0,155) = 1,168 mmol/l.
yy Percentiles son los valores de una variable que dejan un determinado porcentaje de los
losLalogaritmos y deshacer
media geométrica por tanto, laxGtransformación
es,finalmente = exp(0,155) =logarítmica.1,168 mmol/l. Para calcular los
datos por debajo de ellos. Así, por ejemplo, el percentil 10 es el valor superior al 10% de
las observaciones,
Allogaritmos
igual que se pero inferior
la mediana, media al 90% restante. Lacomomediana corresponde, por tanto, al
puede usarlacualquier geométrica
base, siempre es útil
y cuando medida de tendencia
el logaritmo y el
percentil 50. En una muestra de tamaño n, previamente ordenada de menor a mayor, el
Al igual que la mediana, la media geométrica es útil como medida de tendencia
percentil
central p-ésimo
para variables
antilogaritmo esténseendefine
muy la como:
asimétricas,
misma base.enNotar
las que que unlapequeño grupo de observaciones
media geométrica sólo puede
central np/100
ƒƒ Sipara es un número
variables entero, la media
muy asimétricas, deque
en las las observaciones
un pequeño grupo(np/100) y (np/100 + 1)-ésimas.
de observaciones
emplearse
extremas tienen como
una medida de
excesiva tendenciasobre
influencia central
la en variables
media que toman
aritmética. La valores
media positivos.
geométrica
ƒƒ Si np/100 no es un número entero, el valor k-ésimo de la muestra, siendo k el menor
extremas tienen
entero una excesiva
superior a np/100.influencia sobre la media aritmética. La media geométrica
8
Ejemplo
yy Deciles, 1.8 Para acalcular
corresponden la media10,
los percentiles geométrica
20, ..., 90.del
Loscolesterol HDL
deciles se en lapara
utilizan muestra
dividir
8
la muestra en 10 grupos de igual tamaño.
del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los
yy Quintiles, corresponden a los percentiles 20, 40, 60 y 80, y dividen la muestra en 5 grupos
de igual tamaño.
valores y a continuación se calcula su media aritmética,

Pastor-Barriuso R. 5
1 10 log(0,89) + ... + log(1,53)
log x G =  log x i =
10 i =1 10
− 0,117 + ... + 0,425
mmol/l. De igual forma, como 10p/100 = 2,5 no es un número entero para p = 25,
Estadística descriptiva
el percentil 25 es el tercer valor de la muestra, que corresponde a 0,87 mmol/l.

yy Cuartiles, corresponden a los percentiles 25, 50 y 75, y dividen la muestra en 4 grupos de


Es importante recordar que, para calcular cuantiles, los valores de la muestra deben
igual tamaño.
yy Terciles,
estar corresponden
previamente a los
ordenados. Sipercentiles 33,3 y 66,7,
el tamaño muestral y dividen
es grande, la laforma
muestra
másenrápida
3 grupos
de de
igual tamaño.
obtener los cuantiles manualmente es realizando un gráfico de tallo y hojas (ver más
Ejemplo 1.9  Los 10 valores del colesterol HDL ordenados de menor a mayor son 0,79,
0,84, 0,87, 0,89, 1,06, 1,29, 1,42, 1,53, 1,58 y 1,96 mmol/l. Dado que 10p/100 = 1 es un
adelante).
número entero para p = 10, el percentil 10 es la media de la primera y segunda observación,
que corresponde a (0,79 + 0,84)/2 = 0,815 mmol/l. De igual forma, como 10p/100 = 2,5
no es un número
1.4 MEDIDAS entero para p = 25, el percentil 25 es el tercer valor de la muestra, que
DE DISPERSIÓN
corresponde a 0,87 mmol/l.
Las medidas de dispersión indican el grado de variabilidad de los datos y se
1.2 MEDIDAS DE Es importante
TENDENCIA recordar que, para calcular cuantiles, los valores de la muestra deben estar
CENTRAL
previamente ordenados. Si el tamaño muestral es grande, la forma más rápida de obtener los
complementan
cuantiles con lasesmedidas
manualmente de un
realizando tendencia
gráfico central
de tallo en la descripción
y hojas de una muestra.
(ver más adelante).
Las medidas de tendencia central informan acerca de cuál es el valor más representativo
En este apartado se presentan las principales medidas de dispersión.
de una determinada variable o, dicho
1.4  MEDIDAS de forma equivalente, estos estimadores indican
DE DISPERSIÓN
1.4.1
Las
alrededor de qué Varianza
medidas
valor y desviación
de dispersión
se agrupan los datos típica
indican el grado Las
observados. de variabilidad
medidas de de los datos y se complementan con
tendencia
las medidas de tendencia central en la descripción
2
de una muestra. En este apartado se presentan
La varianza
las principales
central de la muestra muestral,
medidas
sirven tanto denotada
paraderesumir por
dispersión. s , se define como la suma
los resultados observados como para de los cuadrados de las

diferencias
realizar inferencias
1.4.1  acerca entrey cada
de los
Varianza valor de
parámetros
desviación la muestra ycorrespondientes.
poblacionales
típica su media, dividida
A por el tamaño muestral

semenos
continuación La 1, muestral,
varianza
describen denotada
los principales por s2, se define
estimadores como la suma
de la tendencia de los
central cuadrados de las diferencias
de una
entre cada valor de la muestra y su media, dividida por el tamaño muestral menos 1,
variable. media, el número de valores independientes de la muestra (denominado “grados de
1 n 1  n 2 
2
s =  2
( xi − x ) =   x i − nx 2  .
libertad”) para el cálculo denla−varianza
1.2.1 Media aritmética
1 i =1 n − 1  i =1 la media y n - 1 valores, el
es n - 1 (conocida
Como puede apreciarse, cuanto más dispersos estén los datos, mayores serán los cuadrados de
valor restante se(x
deduciría automáticamente). sumaUna .justificación más formal paradeesta
La media aritmética,
las
Como denotada
desviaciones i – x ), se
por
puede apreciarse, define
y cuanto
mayor comola
será
más lavarianza
dispersos des2cada
estén uno
Notar
los de las
que
datos, los desviaciones
mayores serán loscada valor
2

respecto de la media se elevan al cuadrado para evitar que se compensen las desviaciones
definición
positivas de por
la varianza
(valores se aaporta en el2Tema 5.
valores muestrales dividida
cuadrados de lassuperiores
el número
desviaciones delaobservaciones
media)
(x i - x )con lasrealizadas.
y mayor negativas
será la(valores
Si denotamos
varianza inferiores
s2. Notaraquela media).
las Cabe
destacar también que, en la fórmula de la varianza muestral, el denominador es n – 1 en lugar de n.
por n el tamaño
Esto Lasevarianza
muestral
debey por
ademuestral
xcada
que,i eluna
valores observado
vez difícil de interpretar
calculada para el como
sujeto
lalamedia, medida
elsei-ésimo,
número ide=de1,dispersión,
valores ya que sus
..., n, independientes
desviaciones valor respecto de media elevan al cuadrado para evitar quedesela
muestra (denominado “grados de libertad”) para el cálculo de la varianza es n – 1 (conocida la
unidades
la media vendría
mediadada son
y npor las
– 1las de la el
valores, variable originalse
valorpositivas
restante al deduciría
cuadrado.automáticamente).
La medida de dispersión más
compensen desviaciones (valores superiores a la media)Una con justificación
las negativasmás
formal para esta definición de la varianza se aporta en el Tema 5.
utilizada es la desviación típica o desviación estándar s, que se define como la raíz
(valores inferiores
La varianza 1a nlaesmedia).
muestral x +de
difícil Cabe + ...destacar
x 2interpretar
+ x n comotambién que,
medida deen la fórmula
dispersión, yade
quelasus
varianza
unidades
x =  xi = 1 .
son las de la variable
cuadrada de la varianza original
n i =1 al cuadrado.
n La medida de dispersión más utilizada es la desviación
muestral,
típica el denominador
o desviación estándar es n - 1seen
s, que lugarcomo
define de n.laEsto raízse debe a que,
cuadrada de launa vez calculada la
varianza

La media es la medida de tendencia central más utilizada 10


1 yn de más fácil
s=  ( xi − x )
n − 1 i =1
2

interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su


y, en consecuencia, presenta las mismas unidades que la variable original. Al igual que la media,
principal limitación es que típica
lay,desviación está muy
en consecuencia, estáinfluenciada
influenciada
presenta por
porlos
las mismas valores
valores
unidades extremos
muy extremos
que y, (gran
en este
la variable desviación
original. respecto
Al igual que de la

caso, puede nolaser un fiel


media, lareflejo de la típica
desviación tendencia
está central de la distribución.
influenciada por valores muy extremos (gran
6 Pastor-Barriuso R.

desviación respecto de la media), que inflarían la estimación resultante, no siendo un


Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
desviación respecto de la media), que inflarían la estimación resultante, no siendo un
buen reflejo de la dispersión global de los datos.
realizar
bueninferencias
reflejo de acerca de los parámetros
la dispersión poblacionales
global de los datos. correspondientes. A
Medidas de dispersión
continuación Ejemplo 1.10 Conocida
se describen los principales la media del colesterol
estimadores de laHDL tendenciaen loscentral
10 primeros
de una
mbio de origen
Ejemplo
(traslación).
1.10 Conocida
Si se suma una constante
la mediaa del colesterol
cada xuno
HDL
de los mmol/l,
en los 10 primeros
datos la varianza vendría dada
variable. participantes del estudio EURAMIC, = 1,223
media), que inflarían la estimación resultante, no siendo un buen reflejo de la dispersión global
de losparticipantes
datos. del estudio EURAMIC, x = 1,223 mmol/l, la varianza vendría dada
na muestra, la varianza pory la desviación típica no cambian; si yi = xi + c,
1.2.1 Media aritmética
por
nces s y = s x2 y sy = sEjemplo
2
x.
1.10  Conocida la media del colesterol HDL en los 10 primeros participantes
La media aritmética,
del estudiodenotada EURAMIC, 1 10 por x ,=se1,223 define como
(mmol/l,
0,89 − 1,la 223suma
) 2 + de
varianza ... +cada
(1,53uno
vendría 1de
−dada
,223 los
por
)2
s =  ( xi − x ) =
2 2

mbio de escala (unidades). Si se multiplica 19 10i =1cada uno 2de los (0,89 − 1,223
datos de una) 2 + ...9 + (1,53 − 1,223) 2
valores muestrales dividida s 2 = por 
90,111
el ( xnúmero
− x )
+i ... + 0,094
de
= observaciones realizadas.
92
Si denotamos
DE TENDENCIA CENTRAL = i =1
= 0,156 (mmol/l)
stra por una porconstante,
n el tamaño la varianza
muestralresultante
y por
0,111 xi el +es 9igual
valor
... a la varianza
+ 0,observado
094 parainicial
el sujeto pori-ésimo, i = 1, ..., n,
= = 0,156 (mmol/l) 2
tendencia central 9 valor
onstante mediainforman
allacuadrado acerca
y la desviación
vendría dada porde cuáles
típica esigual
el a lamás representativo
desviación típica
yy la desviación típica por s = 0,156 = 0,395 mmol/l.
la desviación
nada
ial porvariable o, dicho
dicha constante; y ladesidesviación
forma
yi = cxequivalente,
i, entonces
típica por sestos
2
y ns==c s0
2estimadores
2
y sy == cs
x ,156 xindican
0,395. Unmmol/l.
cambio
Algunas propiedadesxde= la varianza 1 x + x + ... + x
 x i = y la desviación .típica son:
1 2 n
é valor se agrupanAlgunas los datos observados.deLas
propiedades n
la medidas
varianza de
y latendencia
n valores
desviación típica son:
scala que se realizayy con Cambio frecuencia
de origen es (traslación).
la división i =1 de todos
Si se suma losuna constante de una
a cada uno de los datos de una muestra,
Algunas
la varianza propiedades de la varianza
y la desviación típica noycambian; la desviación si yi = típica
xi + c, son:
entonces sy2 = sx2 y sy = sx.
uestra sirven tanto para resumir los resultados observados como para
stra por su desviación
La media típica. La desviación
es la medida de (unidades).
tendencia típicacentral
de la variable
más utilizadaresultantey de
yy Cambio de escala Si se multiplica cada unomás de fácil
los datos de una muestra por
cias acerca de los parámetros una constante, la varianza
poblacionales resultante es igual
correspondientes. A a la varianza inicial por la constante al
, por tanto,interpretación.
igual a 1. Corresponde al “centro de gravedad”
cuadrado y la desviación típica es igual a ladedesviación
los datos de la muestra.
típica inicial porSu dicha constante;
11
e describen los principales cxi, entoncesde
si yi = estimadores sy2la = ctendencia
2 2
sx y sy =central csx. Undecambiouna de escala que se realiza con frecuencia
edades delprincipalcambio de origen
limitación y escala
es que se emplean
está muy para la estandarización de
es la división de todos los influenciada
valores de una pormuestra
los valorespor su extremos y, entípica.
desviación este La desviación
11
típica de la variable resultante será, por tanto, igual a 1.
que consiste caso,en puede
restarlenoa ser los un
valores de unadevariable
fiel reflejo la tendenciasu media centraly dividirlos por
de la distribución.
Las propiedades del cambio de origen y escala se emplean para la estandarización de variables,
itmética
ción que consiste
típica. La variable en restarle
estandarizada a los valores
resultante de una0variable
tiene media y desviación su media y dividirlos por su desviación
1.2típica.
MEDIDAS
Ejemplo La 1.4 DE
variable TENDENCIA
En este estandarizada
y en los sucesivos CENTRAL
resultante tiene media
ejemplos sobre 0estimadores
y desviación típica 1; essedecir, si zi =
muestrales,
sética, si zi = (x(x
decir,denotada por
-
ii – x x)/,s
)/s se
xx,, define
entonces
entonces comoz =
= la
00 ysuma
y sszz == de
1.
1. cada uno de los
utilizarán los valores
Las medidas de tendencia central informan del colesterol HDLacerca obtenidos de cuál en loses el10valor
primeros sujetos del
más representativo
ales dividida por el número de observaciones realizadas. Si denotamos
go intercuartílico 1.4.2  Rango intercuartílico
estudio
de una “European
determinada Study o,
variable ondicho
Antioxidants,
de formaMyocardial
equivalente,Infarction and Cancer
estos estimadores of
indican
muestral y porEl xi rango
el valor observado
intercuartílico para el
se define sujeto i-ésimo, i = 1, ..., n,
ntercuartílico se define como la diferencia entrecomo el tercer la diferencia
y el primer entre el tercer y el primer cuartil (percentiles
cuartil
the
alrededor
75 y 25,Breast“ (EURAMIC),
derespectivamente).
qué valor se agrupan un estudio
El rangolos datos multicéntrico
observados.indica
intercuartílico de casos layamplitud
Las medidas controles realizado
de tendencia
del 50% central de la
a dada por muestra y se usa como medida de dispersión cuando la variable presenta valores extremos. En
es 75 y 25, respectivamente). El rango intercuartílico indica la amplitud del
entre
central 1991
de lasuele
tal caso, y 1992
muestra en ocho
sirven tantode
ir acompañado países para Europeos
resumir los
la mediana e Israel
como para
resultados evaluar
medida observados el efecto
de tendenciacomo de los
para
central.
al de la muestra y1se usa como n
x +medida
x 2 + ... +dexdispersión cuando la variable
x= 
realizar x i = 1 1.11 
inferencias
Ejemplo acercaAde
n
los. parámetros
partir de los poblacionales
10 valores correspondientes.
del colesterol HDL ordenados A
n i =1 n 5de menor a
alores extremos. En tal mayor,caso,los percentiles
suele ir acompañado 25 y 75de vienen determinados
la mediana como por la tercera (0,87 mmol/l) y octava
continuación observaciónse describen(1,53los principales
mmol/l), estimadores El
respectivamente. de rango
la tendencia central de
intercuartílico se una
calcula entonces
latendencia
medida de tendencia central más utilizada y de más
central. como la diferencia entre ambos percentiles, 1,53 – 0,87 = 0,66 mmol/l.fácil
variable.
Corresponde al “centro de gravedad” de los datos de la muestra. Su
1.4.3  Coeficiente de variación
mplo 1.11 A 1.2.1 partirMedia
de los 10 valores del colesterol HDL ordenados de menor a
aritmética
ción es que estáElmuy influenciada
coeficiente de variación por lossevaloresdefine como extremos y, en este
el cociente entre la desviación típica y la media aritmética,
or, los percentiles media25 yaritmética,
Laexpresado 75comovienen determinados
denotada
porcentaje, por xpor
100s/ seladefine
.,Este tercera
estimador (0,87
como nolammol/l)
suma
está dey cada
afectado poruno de losde escala ya que,
cambios
ser un fiel reflejo de la tendencia central de la distribución.
al multiplicar los valores de una variable por un mismo factor, tanto la media como la desviación
va observación (1,53muestrales
típica
valores mmol/l),por
cambian respectivamente.
dicho por
dividida factor El
su rango
el ynúmero de intercuartílico
cociente se
permanece inalterable.
observaciones realizadas.El Si coeficiente
denotamosde variación
relaciona la desviación típica con la media y es útil para comparar la variabilidad de diferentes
1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
n el tamaño
porvariables con distintas y por xiAsí,
muestralmedias. por ejemplo,
el valor unapara
observado desviación i-ésimo,
típica
el sujeto de 10i kg n, muestra de
= 1,en...,una
adultos con un peso medio de 70 kg indicaría un mismo grado de dispersión que una desviación
los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
la media vendría dada por 12
Pastor-Barriuso R. 7
European Study on Antioxidants, Myocardial Infarction and Cancer of
1 n x + x 2 + ... + x n
x = 
t“ (EURAMIC), un estudio multicéntrico de casos
n i =1
xyi controles
= 1
nrealizado
.
realizar inferencias acerca de los parámetros poblacionales correspondientes. A
Estadística descriptiva
continuación se describen los principales estimadores de la tendencia central de una

variable.
típica de 0,5 kg en una muestra de recién nacidos con un peso medio de 3,5 kg (ambos coeficientes
de variación son 100·10/70 = 100·0,5/3,5 = 14,3%).
1.2.1 Media aritmética
Ejemplo 1.12  El coeficiente de variación de los 10 primeros valores del colesterol HDL
en
Laelmedia
estudio EURAMIC
aritmética, denotada por x ,=se
sería 100s/ 100·0,395/1,223
define como la =suma
32,3%; es decir,
de cada uno la
dedesviación
los
típica es aproximadamente un tercio de la media.
valores muestrales dividida por el número de observaciones realizadas. Si denotamos
1.5  REPRESENTACIONES
por n el tamaño muestral yGRÁFICAS
por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n,
En el análisis e interpretación de los datos de un estudio, es importante no limitarse a realizar medidas
la media vendría dada por
de resumen numéricas. Las medidas de tendencia central y dispersión deben completarse con gráficos
que permitan observar directamente las características y relaciones de las variables estudiadas. En
esta sección se revisan los principales métodos
1 n gráficos
x +para
x 2 +presentar
... + x n y resumir una variable.
x =  xi = 1 .
n i =1 n
1.5.1  Diagrama de barras
La media
Los diagramas es la medida
de barras de tendencia
son adecuados para central más utilizada
representar variables ycualitativas
de más fácily cuantitativas
discretas. En estos diagramas se representan las categorías de la variable en el eje horizontal y sus
interpretación.
frecuencias (absolutas Corresponde
o relativas) enalel“centro de gravedad”
eje vertical. Para cada de los datos
categoría devariable
de la la muestra. Su
se construye
un rectángulo de anchura constante y altura proporcional a la frecuencia. Los rectángulos están
principal
separados limitación
unos de otros poresla que estádistancia
misma muy influenciada porlalos
para reflejar valores extremos
discontinuidad y, en este
de la variable.
caso, puede no ser un fiel reflejo de la tendencia central de la distribución.
Ejemplo 1.13  La representación del diagrama de barras del hábito tabáquico en el grupo
control del estudio EURAMIC se ilustra en la Figura 1.1. De los 700 controles del estudio que
no habían padecido
Ejemplo 1.4 un
Eninfarto
este y agudo
en los de miocardio,
sucesivos todos salvo
ejemplos sobreuno presentaban
estimadores información
muestrales, se
sobre el consumo de tabaco. De éstos, un 27,2% (190/699) eran nunca fumadores, un 35,3%
(247/699) eran exlos
utilizarán fumadores, y elcolesterol
valores del restante 37,5%
HDL (262/699)
obtenidoseran fumadores
en los actuales.
10 primeros sujetos del

estudio
40 “European Study on Antioxidants, Myocardial Infarction and Cancer of

the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado

entre
30 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los
Frecuencia relativa (%)

5
20

10

Nunca Ex fumador Fumador


fumador actual

Figura 1.1  Diagrama de barras del hábito tabáquico en el grupo control del estudio EURAMIC.Figura 1.1

8 Pastor-Barriuso R.
Representaciones gráficas

1.5.2  Histograma y polígono de frecuencias

El histograma es el principal método gráfico para la representación de variables cuantitativas


continuas. En primer lugar, los valores de la variable continua se agrupan en categorías
exhaustivas (cubren todo el rango de la variable) y mutuamente excluyentes (no se solapan). En
el eje horizontal del histograma se representan las categorías o intervalos y en el eje vertical las
frecuencias (absolutas o relativas) de cada intervalo. Posteriormente, se construye un rectángulo
para cada categoría, cuya anchura es igual a la longitud del intervalo y cuyo área es proporcional
a la frecuencia (si los intervalos tienen distinta longitud, las alturas de los rectángulos del
histograma no serán proporcionales a las frecuencias).
El polígono de frecuencias se construye uniendo con líneas rectas los puntos medios de las bases
superiores de los rectángulos que conforman un histograma. Tanto el histograma como el polígono
de frecuencias sirven para representar gráficamente la distribución de una variable continua.

Ejemplo 1.14  El histograma de la distribución del colesterol HDL en el grupo control


del estudio EURAMIC se presenta en la Figura 1.2. En este caso, se representa la
frecuencia absoluta en el eje vertical e intervalos de distinta longitud en el eje horizontal.
Para los intervalos de menor longitud (0,2 mmol/l), la altura de los rectángulos es igual a
la frecuencia; así, por ejemplo, la altura del rectángulo en el intervalo 1,2-1,4 mmol/l es
igual a los 86 sujetos con niveles del colesterol HDL dentro de este rango. Sin embargo,
para los intervalos de mayor longitud, la altura de la barra es igual a la frecuencia dividida
por el incremento relativo de la longitud del intervalo; así, por ejemplo, para el intervalo
1,4-1,7 mmol/l, cuya frecuencia es 55 y su longitud es 1,5 veces la longitud mínima, la
altura de la barra es 55/1,5 = 36,7. La Figura 1.2 se completa con el polígono de frecuencias,
que muestra una distribución del colesterol HDL aproximadamente simétrica con la cola
superior ligeramente mayor que la inferior.

150

125

100
Frecuencia absoluta

75

50

25

0 0,3 0,6 0,8 1 1,2 1,4 1,7 2 2,5

Colesterol HDL (mmol/l)


Figura 1.2

Figura 1.2  Histograma y polígono de frecuencias del colesterol HDL en el grupo control del estudio
EURAMIC.

Pastor-Barriuso R. 9
Estadística descriptiva

1.5.3  Gráfico de tallo y hojas


Este gráfico tiene la ventaja de reflejar los datos originales de la muestra, a la vez que permite
visualizar la distribución de frecuencias. En primer lugar, para cada observación de la variable,
se separa el último dígito significativo (hoja) de los restantes dígitos del valor de la variable
(tallo). A continuación, todos los posibles tallos se colocan ordenados en una misma columna.
Finalmente, para cada valor de la variable, se coloca su hoja a la derecha del tallo correspondiente.
Las hojas de un mismo tallo suelen colocarse en orden creciente. El resultado se conoce con el
nombre de gráfico de tallo y hojas.

Ejemplo 1.15  La Figura 1.3 muestra el gráfico de tallo y hojas del colesterol HDL en los
100 primeros controles del estudio EURAMIC con datos para esta variable. Los 2 valores
más bajos del colesterol HDL son 0,21 y 0,26 mmol/l, cuyo tallo común es 0,2 y sus
respectivas hojas son 1 y 6, que aparecen a la derecha de la primera línea del gráfico. El
siguiente tallo es 0,3, que no tiene ninguna hoja ya que no hay valores entre 0,30 y 0,39
mmol/l, y lo mismo sucede con el tallo 0,4. En el tallo 0,5 hay una hoja igual a 7, que
corresponde al valor 0,57 mmol/l. En el tallo 0,6 hay 5 hojas (35558), que corresponden a
los 5 valores del colesterol HDL entre 0,60 y 0,69 mmol/l y que son 0,63, 0,65, 0,65, 0,65 y
0,68 mmol/l. El resto de los tallos se interpreta de la misma manera. A partir de este gráfico
resulta sencillo calcular los cuantiles; así, por ejemplo, la mediana se obtendría como la
media de los valores ordenados en las posiciones 50 y 51, (1,10 + 1,12)/2 = 1,11 mmol/l.

Frecuencia Tallo Hoja

2 0,2 16
0 0,3
0 0,4
1 0,5 7
5 0,6 35558
3 0,7 467
12 0,8 002344455579
13 0,9 0013334566779
13 1,0 0111123455559
9 1,1 023456789
15 1,2 000023356689999
7 1,3 1223778
6 1,4 345789
6 1,5 133689
2 1,6 44
2 1,7 34
2 1,8 36
1 1,9 0
1 2,0 9

Figura 1.3  Gráfico de tallo y hojas del colesterol HDL en los 100 primeros controles del estudio EURAMIC.

Figura 1.3

10 Pastor-Barriuso R.
Representaciones gráficas

1.5.4  Diagrama de caja

El diagrama de caja permite evaluar la tendencia central, la dispersión y la simetría de la


distribución de una variable, así como identificar valores extremos. Los límites inferior y
superior de la caja corresponden a los percentiles 25 y 75; es decir, la altura de la caja representa
el rango intercuartílico e indica la dispersión de la muestra. La línea horizontal dentro de la caja
corresponde a la mediana y representa la tendencia central de la muestra. El gráfico se completa
con barras verticales a ambos lados de la caja de longitud 1,5 veces el rango intercuartílico. Los
valores extremos, aquellos distanciados de los límites de la caja entre 1,5 y 3 veces el rango
intercuartílico, se representan con un círculo y los valores muy extremos, aquellos alejados de
la caja más de 3 veces el rango intercuartílico, se denotan mediante un asterisco.
En este gráfico, si la distribución es simétrica, los límites superior e inferior de la caja estarán
aproximadamente a la misma distancia de la mediana, mientras que si la distribución está sesgada
positivamente, el límite superior estará más alejado de la mediana que el inferior y si la distribución
está sesgada negativamente, el límite inferior estará más alejado de la mediana que el superior.

Ejemplo 1.16  La Figura 1.4 muestra el diagrama de caja del colesterol HDL en el grupo
control del estudio EURAMIC. Como puede observarse, esta distribución presenta un
leve sesgo positivo ya que el límite superior de la caja está ligeramente más alejado de la
mediana que el límite inferior.

2,5

2
Colesterol HDL (mmol/l)

1,5

0,5

Figura 1.4  Diagrama de caja del colesterol HDL en el grupo control del estudio EURAMIC. Figura 1.4

Pastor-Barriuso R. 11
Estadística descriptiva

1.6  REFERENCIAS

1.  Colton T. Estadística en Medicina. Barcelona: Salvat, 1979.


2.  Glantz SA. Primer of Biostatistics, Fifth Edition. New York: McGraw-Hill/Appleton &
Lange, 2001.
3.  Pagano M, Gauvreau K. Principles of Biostatistics, Second Edition. Belmont, CA: Duxbury
Press, 2000.
4.  Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press,
2006.

12 Pastor-Barriuso R.
TEMA 2

PROBABILIDAD

2.1 INTRODUCCIÓN

Se denominan experimentos estocásticos, aleatorios o no determinísticos a aquellos en los


que pueden obtenerse resultados distintos cuando se repiten en idénticas circunstancias. Los
fenómenos biológicos tienen en este sentido una componente aleatoria importante. La
herramienta matemática que constituye la base para el estudio de fenómenos con una componente
aleatoria es la teoría de la probabilidad, que proporciona modelos teóricos aplicables a la
frecuencia de los distintos resultados de un experimento.
A continuación, se revisan algunos conceptos previos que van a ser necesarios para
sistematizar la noción de probabilidad.
yy Espacio muestral, denotado por W, es el conjunto de los posibles resultados de un
experimento aleatorio.
yy Se denomina suceso a cualquier subconjunto del espacio muestral W. Los sucesos pueden
ser elementos simples de W o conjuntos de elementos. Dos sucesos particulares son el
suceso seguro W, que contiene todos los elementos del espacio muestral, y el suceso
imposible o conjunto vacío ∅, que no contiene ningún elemento.

Ejemplo 2.1  Si el experimento consiste en observar el número de supervivientes a


los 6 meses de 4 pacientes con cáncer sometidos a tratamiento, el espacio muestral
será W = {0, 1, 2, 3, 4}. Si el experimento consiste en medir los niveles de colesterol HDL
de una persona, el espacio muestral será W = (0, ∞).
En el primer experimento, algunos sucesos podrían ser: no observar ningún superviviente
A = {0}, observar 1 ó 2 supervivientes B = {1, 2} u observar al menos 2 supervivientes
C = {2, 3, 4}. En el segundo experimento, algunos de los posibles sucesos incluirían:
tener un colesterol HDL ≤ 1 mmol/l A = (0, 1] o tener un colesterol HDL > 1,5 mmol/l
B = (1,5, ∞).

yy El suceso unión A∪B es el evento constituido por los elementos que pertenecen a A o B, o
a ambos a la vez.
yy El suceso intersección A∩B es el evento formado por los elementos que pertenecen
simultáneamente a A y B.
yy Sucesos disjuntos, incompatibles o mutuamente excluyentes son aquellos que no pueden
ocurrir simultáneamente; es decir, su intersección es el conjunto vacío, A∩B = ∅.
yy El suceso complementario del suceso A, denotado por Ac, es el evento que ocurre cuando
no se realiza A.
Estos sucesos están representados en los diagramas de la Figura 2.1. En general, las
operaciones entre sucesos se rigen por la teoría de conjuntos, de la cual pueden derivarse algunas
propiedades importantes como A∪(B∩C) = (A∪B)∩(A∪C), A∩(B∪C) = (A∩B)∪(A∩C),
(A∪B)c = Ac∩Bc y (A∩B)c = Ac∪Bc.

Pastor-Barriuso R. 13
Probabilidad

B B

A B∩C = {2}. Al medir los niveles deAcolesterol HDL de una


su intersección es

(a)AA∪B
persona, los sucesos = (0, 1] y B = (1,5, ∞) son mutuamente
(b) A∩Bexcluyentes ya que

A∩B = ∅. Asimismo, en este experimento el complementario de A es el suceso Ac

= (1, ∞).
B

En este tema se define el concepto de probabilidad y se introducen las reglas básicas


A A
para operar con probabilidades. Estas reglas constituyen la base para el cálculo e
(c) A∩B = ∅ (d) Ac
interpretación de los procedimientos de inferencia estadística (por ejemplo, el valor P
Figura 2.1  Diagramas de los sucesos unión (a), intersección (b), sucesos mutuamente excluyentes
Figura 2.1(c) y
de un complementario
suceso contraste de hipótesis
(d). –véase Tema 5–) y permiten también evaluar la

sensibilidad,
Ejemplola 2.2 
especificidad y los valoresdepredictivos
En el experimento de lasa pruebas
supervivencia diagnósticas.
los 6 meses de 4 pacientes con
cáncer, la unión de los sucesos B = {1, 2} y C = {2, 3, 4} es B∪C = {1, 2, 3, 4} y su
intersección es B∩C = {2}. Al medir los niveles de colesterol HDL de una persona, los
2.2 CONCEPTO Y 1]
sucesos A = (0, DEFINICIONES
y B = (1,5, ∞) sonDE PROBABILIDAD
mutuamente excluyentes ya que A∩B = ∅. Asimismo,
en este experimento el complementario de A es el suceso Ac = (1, ∞).
El concepto de probabilidad es intuitivo, tal y como se refleja en el lenguaje cotidiano:
En este tema se define el concepto de probabilidad y se introducen las reglas básicas para
operar con probabilidades.
la probabilidad de un sucesoEstas reglas
refleja constituyen la
la verosimilitud debase paraocurra,
que éste el cálculo e interpretación
de forma que de
los procedimientos de inferencia estadística (por ejemplo, el valor P de un contraste de hipótesis
–véase Tema
los sucesos más5–)probables
y permiten también
se darán con evaluar la sensibilidad,
mayor frecuencia que loslamenos
especificidad y los
probables. Sinvalores
predictivos de las pruebas diagnósticas.
embargo, para abordar la probabilidad de forma sistemática, es necesaria una definición
2.2  CONCEPTO Y DEFINICIONES DE PROBABILIDAD
rigurosa, a la vez que compatible con nuestra intuición. Dos definiciones de
El concepto de probabilidad es intuitivo, tal y como se refleja en el lenguaje cotidiano: la
probabilidad de
probabilidad de un
usosuceso
comúnrefleja
son: la verosimilitud de que éste ocurra, de forma que los sucesos
más probables se darán con mayor frecuencia que los menos probables. Sin embargo, para
• Definición frecuentista (von Mises). Al repetir un experimento indefinidamente,
abordar la probabilidad de forma sistemática, es necesaria una definición rigurosa, a la vez que
compatible con nuestra intuición. Dos definiciones de probabilidad de uso común son:
la probabilidad de un suceso es el límite del cociente entre el número de veces que
yy Definición frecuentista (von Mises). Al repetir un experimento indefinidamente, la
probabilidad
ocurre dicho de un suceso
suceso es el límite
y el número del cocienterealizados,
de experimentos entre el número de veces que ocurre
dicho suceso y el número de experimentos realizados,
#A
P(A) = lim ,
n →∞ n

donde #A es el número de veces que se realiza A en los n experimentos.


donde #A es el número de veces que se realiza A en los n experimentos.
14 Pastor-Barriuso R.
indefinidamente los registros anuales, el límite de estos cocientes 0,4850, 0,4845,

0,4845, ... determinaría la probabilidad de ser mujer. En la práctica, sin embargo,


Concepto y definiciones de probabilidad

no es posible realizar infinitos experimentos y las probabilidades teóricas se


Ejemplo 2.3  Supongamos que se desea conocer la probabilidad de ser mujer entre todos
estiman mediante
los recién nacidos probabilidades
vivos en España.empíricas
Según losobtenidas
datos dela Instituto
partir de Nacional
un número definito
Estadística,
se registraron 226.170 niñas de 466.371 nacimientos en 2005, 233.773 de 482.957 en
de experimentos.
2006 y 238.632 deAsí, utilizando
492.527 losLa
en 2007. datos disponibles
proporción de nacimientos
acumulada en226.170/466.371
de niñas es 2005–
= 0,4850 en 2005, 459.943/949.328 = 0,4845 en 2005-2006 y 698.575/1.441.855 = 0,4845
2007, se estimaría
en 2005-2007. una probabilidad
Aumentando de ser mujerlosderegistros
indefinidamente 0,4845. anuales, el límite de estos
cocientes 0,4850, 0,4845, 0,4845, ... determinaría la probabilidad de ser mujer. En la
práctica, sin embargo, no es posible realizar infinitos experimentos y las probabilidades
• Definición
teóricas se axiomática (Kolmogorov).
estiman mediante La probabilidad
probabilidades empíricas es una función
obtenidas quede
a partir asigna
un número
finito de experimentos. Así, utilizando los datos disponibles de nacimientos en 2005‑2007,
asecada posible
estimaría unasuceso de un experimento
probabilidad de ser mujerundevalor numérico, de tal forma que se
0,4845.

cumplan losaxiomática
yy Definición siguientes axiomas:
(Kolmogorov). La probabilidad es una función que asigna a cada
posible suceso de un experimento un valor numérico, de tal forma que se cumplan los
negatividad: P(A) ≥ 0,
(i) Noaxiomas:
siguientes
(i) (ii)No negatividad: P(
Normatividad: P(A) Ω) ≥= 0, 1,
(ii) Normatividad: P(W) = 1,
Aditividad:SiSiAA, 1A, A, 2...
(iii) (iii)Aditividad: , ...son
sonsucesos
sucesosmutuamente
mutuamenteexcluyentes,
excluyentes,entonces
entonces
1 2

axiomática se derivan
 ∞ algunas propiedades importantes de la función ∞ de
P  Ai  = P( A1 ∪ A2 ∪ ...) = P( A1 ) + P( A2 ) + ... =  P( Ai ) .
axiomática se derivan algunas propiedades importantes de la función de
probabilidad:  i =1  i =1

Notar que esta definición de probabilidad tan sólo especifica las propiedades generales
probabilidad:
- P(
Notar
que ∅
debe ) tener
que =esta
0, una
definición
función de probabilidad,
probabilidad tan
perosólo especifica
no permite las propiedades
la asignación de probabilidades
a- un
P(∅suceso
) = 0, concreto. No obstante, de la definición axiomática se derivan algunas
- P(Ac) =que
generales
propiedades P(A),tener de
1importantes
- debe unalafunción
funciónde
deprobabilidad,
probabilidad:pero no permite la
c
- P(AP(∅)
(iv) ) = 1=-0,P(A),
asignación
- Si A estádeincluido
probabilidades a un
en B, A ⊂ B, suceso concreto.
entonces No obstante, de la definición
P(A) ≤ P(B),
P(A
-(v) Si A
c
1 – P(A),
) =incluido
está en B, A ⊂ B, entonces P(A) ≤ P(B),
- 0 ≤ P(A) ≤ 1,
(vi) Si A está incluido en B, A ⊂ B, entonces P(A) ≤ P(B),
- 0 ≤ P(A) ≤ 1,
0 ≤ P(A) ≤ 1, Para cualquier colección de sucesos A1, A2, ...,
- Sub-aditividad:
(vii)
4
- Sub-aditividad: Para cualquier colección de sucesos A1, A2, ...,
(viii) Sub-aditividad: Para cualquier colección de sucesos A1, A2 , ...,
∞  ∞
P  Ai  ≤  P( Ai ) ,
 i∞=1  i∞=1
P  Ai  ≤  P( Ai ) ,
 i =1  i =1
- Principio
(ix)  Principio de de
inclusión-exclusión:
inclusión-exclusión: Sean
SeanA1,AA,2A
, ..., AkAsucesos
, ..., sucesoscualesquiera,
cualesquiera,
1 2 k
- Principio de inclusión-exclusión: Sean A1, A2, ..., Ak sucesos cualesquiera,
 k  k
P  Ai  =  P ( Ai ) −  P( Ai ∩ A j ) + ...
 ik=1  ik=1
P  Ai  =  P(k A ) −  P( Ai ∩ A j ) + ...
1≤ i < j ≤ k
+1i
 i =1  + i(=−1 1) P( A1≤1 i <∩j ≤Ak 2 ∩ ... ∩ Ak ).

+ (−1) k +1 P( A1 ∩ A2 ∩ ... ∩ Ak ).
Del tercer axioma de la probabilidad se deduce que, si dos sucesos son mutuamente
Del tercer axioma
excluyentes, de la probabilidad
la probabilidad se deduce
de la unión es la que,
sumasi de
dossus
sucesos son mutuamente
probabilidades por separado. El
Del tercer de
principio axioma de la probabilidad
inclusión-exclusión se deduceeste
generaliza que,resultado
si dos sucesos son mutuamente
para sucesos no necesariamente
excluyentes, la probabilidad de la unión es la suma de sus probabilidades por separado.
excluyentes, la probabilidad de la unión es la suma de sus probabilidades por separado.
El principio de inclusión-exclusión generaliza este resultado para sucesos no Pastor-Barriuso R. 15

El principio de inclusión-exclusión generaliza este resultado para sucesos no


necesariamente excluyentes: la probabilidad de la unión de dos sucesos cualesquiera es
El principio de
excluyentes, inclusión-exclusión
la probabilidad generaliza
de la unión este resultado
es la suma para sucesospor
de sus probabilidades no separado.

necesariamente
El excluyentes: la probabilidad
principio de inclusión-exclusión
Probabilidad generalizadeeste
la unión de dos
resultado sucesos
para cualesquiera
sucesos no es
Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada
la suma de sus probabilidades
necesariamente excluyentes: lapor separado, menos
probabilidad la probabilidad
de la unión de lacualesquiera
de dos sucesos intersección,es
población de adultos es 0,20, la probabilidad de ser diabético es 0,03 y la
excluyentes: la probabilidad de la unión de dos sucesos cualesquiera es la suma de sus
la suma de sus probabilidades
P(Apor
∪B)separado,
= P(A) +menos
P(B)de-la probabilidad
P(A ∩B). de la intersección,
probabilidades por separado,
probabilidad menos la probabilidad
de ser simultáneamente bebedor yladiabético
intersección,
es 0,01. Si se denota por

B al suceso
Este principio puede P(Aya∪por
ser aplicarse
bebedor B) D
= P(A)
colecciones P(B)
+con
al suceso
- P(A∩B).
ser
másdiabético, la probabilidad
de dos sucesos. Así, por de que un
ejemplo,
Este principio puede aplicarse a colecciones con más de dos sucesos. Así, por ejemplo, para tres
individuo
para principio
Este tres sucesosdecualesquiera,
puedeesta población sea bebedor,
quecondiabético
asecolecciones
cumple o ambos a laAsí,
vez por
viene
sucesos cualesquiera, se aplicarse
cumple que más de dos sucesos. ejemplo,
Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada
determinada
para tres por
sucesos cualesquiera,
P(A∪B∪se C)cumple
= P(A) que
+ P(B) + P(C)
población de adultos es 0,20, la probabilidad de ser diabético es 0,03 y la
- P(A∩B) - P(A∩C) - P(B∩C)
P(B∪D)P(A=∪P(B)
B∪C)+ =P(D)P(A)- P(B ∩D)+ =P(C)
+ P(B) 0,20 + 0,03 - 0,01 = 0,22.
probabilidad de ser simultáneamente bebedor
+ P(A∩B∩C). y diabético es 0,01. Si se denota por
- P(A∩B) - P(A∩C) - P(B∩C)
B al suceso ser bebedor y por D al suceso ser diabético, la probabilidad de que un
Ejemplo 2.4  Supongamos que la probabilidad de ser bebedor en una determinada
2.3población
PROBABILIDAD
de adultos CONDICIONAL E INDEPENDENCIA DE SUCESOS
individuo de esta es 0,20, lasea
población probabilidad
+ P(A de ser diabético
∩B∩diabético
bebedor, C). o ambos aesla0,03 y la probabilidad5 de
vez viene
ser simultáneamente bebedor y diabético es 0,01. Si se denota por B al suceso ser bebedor
D al suceso
La yprobabilidad de un
pordeterminada sersuceso
por puede
diabético, la depender de laderealización
probabilidad de otrode
que un individuo suceso. Así, por sea
esta población
5
bebedor, diabético o ambos a la vez viene determinada por
ejemplo, la probabilidad de tener un infarto de miocardio es diferente en los hombres
P(B∪D) = P(B) + P(D) - P(B∩D) = 0,20 + 0,03 - 0,01 = 0,22.
que en las mujeres; es decir, la probabilidad del suceso tener un infarto de miocardio

2.3 depende
PROBABILIDAD
2.3 del suceso serCONDICIONAL
PROBABILIDAD hombre
CONDICIONAL EE INDEPENDENCIA
o ser mujer. DESUCESOS
El concepto matemático
INDEPENDENCIA DE SUCESOS
que permite

La probabilidad
formalizar de un
cómo sesuceso puede
modifica la depender de de
probabilidad la realización defunción
unrealización
suceso en otro suceso. Así,espor
de otro la ejemplo,
La probabilidad de un suceso puede depender de la de otro suceso. Así,
la probabilidad de tener un infarto de miocardio es diferente en los hombres que en las mujeres; por
es decir, la probabilidad
probabilidad del suceso
condicional. Entenertener un
general, lainfarto de miocardio
probabilidad depende
delessuceso del suceso ser hombre
B condicionada
ejemplo, la probabilidad de un infarto de miocardio diferente en los hombresal
o ser mujer. El concepto matemático que permite formalizar cómo se modifica la probabilidad
de un suceso
suceso
que enAlasenmujeres;
se función
define esdedecir,
como otro la
esprobabilidad
la probabilidad condicional.
del suceso tener unEninfarto
general, la probabilidad del
de miocardio
suceso B condicionada al suceso A se define como
depende del suceso ser hombre o ser mujer. El
P(concepto
A ∩ B) matemático que permite
P(B|A) = .
formalizar cómo se modifica la probabilidad dePun
( Asuceso
) en función de otro es la
De forma intuitiva, condicionar por el suceso A es equivalente a seleccionar por este suceso.
probabilidad condicional. En general, la probabilidad del suceso B condicionada al
Así,DeP(infarto|hombre) es equivalente
forma intuitiva, condicionar por el suceso A es equivalente
a seleccionar en primer lugar a los
a seleccionar porhombres
este y
posteriormente determinar
suceso A se define como su probabilidad de tener un infarto de miocardio.
no suceso.
expuestos y RR
Así, = P(D|E)/P(D|Eesc) equivalente
P(infarto|hombre) es el riesgo arelativo de la en
seleccionar enfermedad entre
primer lugar los
a los
El concepto de probabilidad condicional tiene numerosas aplicaciones en epidemiología y
salud pública. Por ejemplo, si D es el sucesoP(tener A ∩ Buna
) deenfermedad y E es el suceso estar
expuestos
hombres y ylosposteriormente
no expuestos.
expuesto a un factor de riesgo,determinar
P(D|E) es su
P(B|A) probabilidad
la =probabilidad
P ( A)
tener
. de la un infartoentre
enfermedad de miocardio.
los expuestos,
P(D|E ) es la probabilidad de la enfermedad entre los no expuestos y ψ = P(D|E)/P(D|Ec) es el
c
El concepto
riesgoEjemplo
relativo de deenfermedad
probabilidad condicional tiene ynumerosas aplicaciones en
2.5laContinuando entre
con ellos expuestos
ejemplo anterior,loslanoprobabilidad
expuestos. de que un
De forma intuitiva, condicionar por el suceso A es equivalente a seleccionar por este
epidemiología y salud pública. Por ejemplo, si D es el suceso tener una enfermedad y E
Ejemplo
bebedor 2.5 diabético
sea Continuando con como
se calcula el ejemplo anterior, la probabilidad de que un bebedor
suceso. Así, P(infarto|hombre)
sea diabético se calcula comoes equivalente a seleccionar en primer lugar a los
es el suceso estar expuesto a un factor de riesgo, P(D|E) es la probabilidad de la
hombres y posteriormente determinarPsu( Bprobabilidad
∩ D) 0,01 de tener un infarto de miocardio.
P(D|B) = c =
enfermedad entre los expuestos, P(D|E ) es la probabilidad = 0,05
de la enfermedad entre los
P( B) 0,20
El concepto de probabilidad condicional tiene numerosas aplicaciones en
6
epidemiología y salud
y la probabilidad de pública.
que un noPorbebedor si Ddiabético
ejemplo,sea es el suceso
comotener una enfermedad y E

16 es el suceso
Pastor-Barriuso R. estar expuesto a un factor de riesgo, P(D|E) es la probabilidad de la
c P( B c ∩ D) P( D) − P( B ∩ D) 0,03 − 0,01
P(D|B ) = = c = de la enfermedad
= 0,025.
P( B c ) P(D|E ) es
enfermedad entre los expuestos, 1 −laPprobabilidad
( B) 1 − 0,20 entre los
Así, el riesgo de diabetes es el doble en los bebedores que en los no bebedores,
P( B ∩ D) 0,01
c (B c ∩ D
PP(D|B) = ) P( D) − P = ( B ∩ D=)0,05 0,03 − 0,01
P(D|B ) c=
RR = P(D|B)/P(D|B ) = 0,05/0,025 ==P2.( B) =
0,20Probabilidad = 0,025.
c
P( B ) 1 − P( B) − 0,20 e independencia de sucesos
1condicional

Se ydice
la probabilidad
queeldos
Así, riesgo
de que
sucesos sonun
de diabetes
no bebedor seasidiabético
independientes comode uno no afecta a la
la bebedores
es el doble en los ocurrenciaque en los no bebedores,
y la probabilidad de que un no bebedor sea diabético como
probabilidad c A y B son independientes si P(B|A) = P(B|Ac) = P(B) o,
RR =del otro;
P(D|B)/P(D|B
c
es decir,
P( B )c = ∩0,05/0,025
D) P( D)=−2.P( B ∩ D) 0,03 − 0,01
P(D|B ) = = = = 0,025.
P( B ) c
c 1 − P( B) 1 − 0,20
de forma equivalente, si P(A|B) = P(A|B ) = P(A). En consecuencia, si dos sucesos son
Se dice
Así, que dos
el riesgo desucesos
diabetesson es el independientes
doble en los sujetos si la ocurrencia
bebedoresdeque unoennolos afecta a la
no bebedores,
independientes,
Así, el riesgo
ψ = P(D|B)/P(D|Bpuede probarse
de diabetes
c esque
) = 0,05/0,025 el doble = 2.en los bebedores que en los no bebedores,
probabilidad del otro; es decir, A y B son independientes si P(B|A) = P(B|Ac) = P(B) o,
RR = P(D|B)/P(D|Bc) = 0,05/0,025 = 2.
Se dice que dos sucesos son P(A∩B) = P(A)P(B|A)
independientes P(A)P(B).de uno no afecta a la probabilidad
si la=ocurrencia
de forma equivalente, si P(A|B) = P(A|Bc) = P(A). En consecuencia, si dos sucesos son
del otro; es decir, A y B son independientes si P(B|A) = P(B|Ac) = P(B) o, de forma equivalente,
es=que
decir, c riesgo relativo es distinto de la unidad, RR = 2 ≠ 1. Esta dependencia
si P(A|B)
PorSe dice
tanto,
P(A|B dosel)sucesos
dos sucesos
independientes,
= P(A). son
puedetambién
En consecuencia,
probarse independientes
pueden
si doslasucesos
que definirse sicomo ocurrencia son independientes,
independientes de unosinolaafecta puede
a la probarse
probabilidad
que
se refleja también en elAhecho y B son de que la probabilidad de ser= simultáneamentec
probabilidad
de su intersección del otro; es decir,
es igual al producto la probabilidad sideP(B|A)
de independientes cada suceso P(B|A por) = P(B) o,
separado.
P(A∩B) = P(A)P(B|A) = P(A)P(B).
de bebedor y diabético P(A|B) no = esP(A|B
el producto
c
) = P(A). de susEn probabilidades,
Porforma
tanto,equivalente,
dos sucesossitambién pueden definirse como consecuencia,
independientes si dossi lasucesos son de su
probabilidad
PorEjemplo
tanto,
intersección dos2.6
es igual
es decir, A partir
sucesos
al producto
el riesgo de
tambiénlos
relativo resultados
pueden
de es del
definirse
la probabilidad ejemplo
distinto de la de como anterior, puede
independientes
cada suceso
unidad, RR = 2 por concluirse
si
≠ 1.separado. la que
probabilidad
Esta dependencia
independientes, puede probarse que = 0,01 ≠ 0,20⋅0,03 = P(B)P(D).
P(B∩D)
los sucesos
de Ejemplo
su intersección
se refleja padecer
es diabetes
igual al y serde
el producto bebedor
de
quelala no son independientes
probabilidad dedecada
ser suceso dadopor queseparado.
la
2.6 tambiénA partirende hecho
los resultados del probabilidad
ejemplo anterior, simultáneamente
puede concluirse que los
sucesos padecer diabetes P(A∩B) y ser= bebedor
P(A)P(B|A) no son independientes dado que la probabilidad
= P(A)P(B).
probabilidad
Notar que lael de ser diabético
yprobabilidad node esintersección
la diferente ende bebedores
dos que en no bebedores,
bebedor
es
de ser decir,
diabético diabético
riesgo relativo
es diferente esen el
es producto
distinto dede
bebedores lasus
que unidad,
en nosucesos
RR = 2cualesquiera
probabilidades,
bebedores, ≠ 1. Esta dependencia
Ejemplo 2.6 A partir de los resultados del ejemplo anterior, puede concluirse que
es decir,
Por tanto, el riesgotambién
dos sucesos relativopuedenes distinto de la como
definirse unidad, RR =c2 ≠ 1. Esta
independientes si ladependencia
probabilidad
se refleja también en el P(D|B)
hecho
P(B∩D)y=ser = de
P(A∩B) 0,05
que
0,01 ≠
= 0,025
la =
probabilidad
P(A)P(B|A)
≠ 0,20⋅0,03 P(D|B );
de ser
P(B)P(D). simultáneamente
los sucesos padecer diabetes bebedor no son=independientes dado que la
se refleja
de su intersección también
es igual en el hecho
al producto de que
de lade la probabilidad
probabilidad de ser simultáneamente
es decir,
bebedor el riesgo relativo
y diabético no eses distinto
el producto ladeunidad, ψde= cada
sus probabilidades,2 ≠ 1.suceso por separado.se refleja
Esta dependencia
probabilidad
no equivale
también en al producto de ser
el hecho de sus diabético es
que probabilidades, diferente
la probabilidad salvo en bebedores
de serque que en
ambos sucesosbebedor
simultáneamente no bebedores,
sean y diabético
bebedor
Notar que y diabético
la probabilidadno es el de producto
la de sus de
intersección probabilidades,
dos sucesos cualesquiera
no es el producto de sus probabilidades, 7
Ejemplo 2.6 A
independientes. Enpartir
general, de P(B∩D)
los
para resultados
= 0,01del
cualquier ejemplodeanterior,
≠ 0,20⋅0,03
conjunto = c puede
P(B)P(D).
sucesos A1, A2,concluirse
..., Ak, la que
P(D|B) = 0,05 ≠ 0,025 = P(D|B );
P(B∩D) =P(A∩B) 0,01 ≠ 0,20⋅0,03
= P(A)P(B|A) = P(B)P(D).
los sucesosdepadecer
probabilidad diabetes es
su intersección y ser bebedor no son independientes dado que la
Notar que la probabilidad de la intersección de dos sucesos cualesquiera
Notar que la al
noprobabilidad
equivale probabilidad
producto dede la probabilidades,
intersección
es diferente de en dos sucesos cualesquiera
Notar que
P(Ala ∩A
de ser diabético
probabilidad
∩...∩A ) = desus
P(Ala intersección
)P(A ∩...∩A de |A
salvo
bebedores
dos
)
que ambos
sucesos que ensucesos
no bebedores,
cualesquiera sean
7
1 2 k 1 2 k 1

independientes. En general, para P(A∩B) P(A)P(B|A)


cualquier= conjunto de sucesos A1, A2, ..., Ak, la
= P(D|B)
P(A P(A∩B) = 0,05
1)P(A2|A
≠ 0,025
P(A)P(B|A)
=1)P(A = P(D|Bc);
3∩...∩Ak|A1∩A2) = ...
no equivale al producto de sus probabilidades, salvo que ambos sucesos sean independientes. En
probabilidad
no equivale alde su intersección
producto de susde es
probabilidades,
general, para cualquier conjunto sucesos A1, A2salvo , ..., Aque ambos sucesos sean
k, la probabilidad de su intersección es
= P(A )P(A |A
no equivale al producto de sus probabilidades, salvo que ambos sucesos
1 2 1 )P(A 3 |A 1 ∩A 2 )⋅…⋅P(A k|A1∩A2sean ∩...∩Ak-1).
independientes.
P(A1∩A2En general, para cualquier conjunto de sucesos A1, A2, ..., Ak, la 7
∩...∩A k) = P(A1)P(A2∩...∩Ak|A1)
independientes. En general, para cualquier conjunto
En el caso de que estos sucesos sean mutuamente independientes, las probabilidades de sucesos A 1 , A 2 , ..., A k, la
probabilidad de su intersección = P(Aes 1)P(A2|A1)P(A3∩...∩Ak|A1∩A2) = ...

probabilidad
condicionales de su deintersección es )P(A
la fórmula= anterior
P(A se2|Areducen a probabilidades no condicionales y, en
1 1)P(A3|A1∩A2)⋅…⋅P(Ak|A1∩A2∩...∩Ak 1). –

P(A1∩A2∩...∩Ak) = P(A1)P(A2∩...∩Ak|A1)
Enconsecuencia,
el P(A
caso–1∩A la
de2∩...∩A
que probabilidad
estos
k) = P(A sucesosde la sean
1)P(A2∩...∩A
intersección
mutuamente
k|A1)
es igualindependientes,
al producto de sus las probabilidades
condicionales de la fórmula= anterior P(A )P(Ase 1)P(A3∩...∩A
2|Areducen k|A1∩A2) = ... no condicionales y, en
a probabilidades
En el caso de que estos sucesos 1sean mutuamente
probabilidades, independientes, las probabilidades
consecuencia, la probabilidad de la intersección
= P(A1)P(A2|A1)P(A3∩...∩Ak|A1∩A es igual al producto
2) = ...
de sus probabilidades,
condicionales de la fórmula = P(A 1)P(A2|A1)P(A3|A1∩A2)⋅…⋅P(Ak|A1∩A2∩...∩Ak-1).
anterior se reducen a probabilidades no condicionales y, en
 k
 = P(A1)P(A2|A1)P(A3|A1∩A2)⋅…⋅P(Ak|A1∩A2∩...∩A k
k-1).
P  Ai  = P(A1∩A2∩...∩Ak) = P(A1)P(A2)⋅…⋅P(Ak) = ∏ P( Ai ) .
consecuencia,
En el caso de que i =la
1 probabilidad
 sucesosdesean
estos la intersección
mutuamenteesindependientes,
igual al producto lasi =1de sus
probabilidades
En el caso de que estos sucesos sean mutuamente independientes, las probabilidades
probabilidades,
condicionales de la fórmula anterior se reducen a probabilidades no condicionales y, en
condicionales
2.4 REGLAdeDE la fórmula anterior se reducen
LA PROBABILIDAD a probabilidades no condicionales y, en
TOTAL
consecuencia, lak probabilidad de la intersección es igual al producto de sus Pastor-Barriuso R. 17
  k
Pprobabilidad
consecuencia, la  Ai  = P(Ade
1∩A ∩...∩Ak) = P(A
la2intersección )P(A2al)⋅…⋅P(A
es 1igual de∏
k) =
producto susP( Ai ) .
La
probabilidades, i =1 
probabilidad no condicional de un suceso B se relaciona con su probabilidad
i =1
 
 i =1  i =1
espacio muestral; es decir, A y Ac son sucesos exhaustivos A∪Ac = Ω y mutuamente
Probabilidad
excluyentes A∩Ac = ∅.
2.4 REGLA DE LA PROBABILIDAD TOTAL
Así,
En la probabilidad
general, para unnoconjunto
condicional de B esAla
de sucesos 1, Amedia ponderada
2, ..., A k globalmentede lasexhaustivos
probabilidades
y
2.4 LaREGLA DE LA PROBABILIDAD TOTAL
probabilidad no condicional de un suceso B se relaciona con su probabilidad
condicionales de B dadoque Ac. Estauna
A yformen descomposición de la probabilidad sedel sucesoqueB en
Lamutuamente
probabilidadexcluyentes
no condicional de un suceso partición
B se relacionadel espacio muestral,
con su verifica
probabilidad condicionada
condicionada en la ocurrencia o no de otro suceso A mediante la fórmula
en la ocurrencia o nocde otro suceso A mediante la fórmula
términos de A y A es aplicablek porque estos sucesos k
constituyen una partición del
P(B) =P(B) = +PP(A
P(A∩B) ( Ai c∩
∩B) 
B) == P(A)P(B|A)
P( Ai ) P( B Ai )c,)P(B|Ac).
+ |P(A
espacio muestral; es decir, A y A son sucesos exhaustivos A∪Ac = Ω y mutuamente
i =1
c
i = 1

Así, la probabilidad no condicional de B es la media ponderada de las probabilidades


c
excluyentes
condicionales
conocida deA∩A
como Bregla
dado ∅.
= de
A ylaAprobabilidad
c
. Esta descomposición
total. Esta de la probabilidad
fórmula del sucesoútil
es particularmente 8
B enentérminos
de A y A es aplicable porque estos sucesos constituyen una partición del espacio muestral; es
c

decir, En
A ygeneral,
epidemiología, para un
Ac son sucesos
donde conjunto
emplean de
seexhaustivos con sucesos
A∪A c
= WA1y, A
frecuencia 2, ...,
mutuamente
las Ak globalmente
particiones.excluyentes exhaustivos
A∩Aal
Por ejemplo, c
y
=dividir
∅.
En general, para un conjunto de sucesos A1, A2, ..., Ak globalmente exhaustivos y mutuamente
mutuamente
la población excluyentes que formen unaestán
partición del espacio muestral, se verifica que
excluyentes queenformen
gruposuna
de edad y sexo
partición delseespacio empleando categorías
muestral, se globalmente
verifica que
exhaustivas y mutuamente excluyentes. k En general,k siempre que se divide la población
P(B) =  P( Ai ∩ B) =  P( Ai ) P( B | Ai ) ,
en estratos se aplica una partición i =1
a esa población.i =1

conocida como regla de la probabilidad total. Esta fórmula es particularmente útil en


conocida como
epidemiología, reglasedeemplean
donde la probabilidad total. Esta
con frecuencia lasfórmula es particularmente
particiones. Por ejemplo, útil en
al dividir la
Ejemplo 2.7 En una población de mayores de 65 años, los individuos
población en grupos de edad y sexo se están empleando categorías globalmente exhaustivas y con edades
epidemiología,
mutuamente donde se
excluyentes. Enemplean
general,con frecuencia
siempre que selasdivide
particiones. Por ejemplo,
la población al dividir
en estratos se aplica
entre 65–74, 75–84
una partición a esa población.y ≥ 85 años constituyen el 60, 30 y 10% de la población. La
la población en grupos de edad y sexo se están empleando categorías globalmente
prevalencia de la enfermedad de Alzheimer en estos grupos de edad es
Ejemplo 2.7  En una población de mayores de 65 años, los individuos con edades entre
exhaustivas y mutuamente
65-74, 75-84 y ≥ 85 añosexcluyentes.
constituyen En general,
el 60, 30 y 10% siempre
de laque se divideLa
población. la prevalencia
población de
respectivamente de 20, 75 y 300 casos por 1000. La prevalencia global de la
la enfermedad de Alzheimer en estos grupos de edad es respectivamente de 20, 75 y 300
en casos
estratos
porse1000.
aplicaLauna partición aglobal
prevalencia esa población.
de la enfermedad de Alzheimer en esta población
enfermedad de Alzheimer en esta población de mayores de 65 años se calcularía
de mayores de 65 años se calcularía
Ejemplo 2.7 En una3población de mayores de 65 años, los individuos con edades
P(A) =  P( E i ) P( A | E i )
entre 65–74, 75–84i =y1 ≥ 85 años constituyen el 60, 30 y 10% de la población. La
2.5 TEOREMA DE BAYES = 0,60⋅0,020 + 0,30⋅0,075 + 0,10⋅0,300 = 0,0645,
prevalencia de la enfermedad de Alzheimer en estos grupos de edad es
resultando 64,5 casos por 1000 personas.
El teorema de Bayes permite obtener la probabilidad condicional de A dado B a partir
respectivamente
resultando de 20,
64,5 casos por75 y 300
1000 casos por 1000. La prevalencia global de la
personas.
de la probabilidad de A y de las probabilidades condicionales inversas de B dado A y Ac.
2.5  TEOREMA
enfermedad DEdeBAYES
Alzheimer en esta población de mayores de 65 años se calcularía
Aplicando
El teorema delaBayes
definición de probabilidad
permite condicionalcondicional
obtener la probabilidad y la regla dedelaAprobabilidad total,de la
dado B a partir
3
probabilidad de A y de las probabilidades condicionales inversas de B dado A y A . Aplicando
c
se obtienede P(A) =  P( E i ) P( A | E i )
queprobabilidad 9
la definición condicional
i =1
y la regla de la probabilidad total, se obtiene que

P( A ∩ B) 0,30⋅0,075P(+A0,10⋅0,300
) P( B | A) = 0,0645,
P(A|B) == 0,60⋅0,020 +
= .
P( B) P( A) P( B | A) + P( A c ) P( B | A c )
resultando
El teorema 64,5secasos
de Bayes porfrecuencia
usa con 1000 personas.
en la evaluación de pruebas diagnósticas. Cuando
El teorema
se desarrolla una de Bayesdiagnóstica
prueba se usa con yfrecuencia en lasus
se comparan evaluación de con
resultados pruebas diagnósticas.
los de un patrón oro
(método de referencia en el diagnóstico de la enfermedad), suelen determinarse los siguientes
Cuando se
parámetros desarrolla una propias
o características prueba diagnóstica
de la pruebaydiagnóstica:
se comparan sus resultados con los de un

patrón oro (método de referencia en el diagnóstico de la enfermedad), suelen 9


18 Pastor-Barriuso R.

determinarse los siguientes parámetros o características propias de la prueba


Teorema de Bayes

yy Sensibilidad es la probabilidad de obtener un resultado positivo de la prueba diagnóstica


entreVP
los P( D) PS(+=| P(+|D).
D) PS
+ =sujetos
P ( D | realmente
+) = enfermos, = ,
P( D) P(+ | D) + P( D ) P(+ | D ) PS + (1 − P)(1 − E )
c c
yy Especificidad es la probabilidad P( D)deP(+obtener
| D) un resultado negativo
PS entre los sujetos
VP + = P ( D | + ) =
realmente sanos, E = P(–|D = ,
P( D) P).(+ | D) + P( D ) P(+ | D ) PS + (1 − P)(1 − E )
c c c

En la aplicación clínica de una pruebaPdiagnóstica ( D c ) P(− | Dac una ) determinada población (1 − P ) E interesa conocer,
c
VP − los
sin embargo, = Psiguientes
( D | −) = parámetros: = .
| D)c P(− | D ) P(1 − S )PS + (1 − P) E
c c
P( D) P (−P| (DDc))+P(P+( D
yy Valor VP + = P ( Dc | +positivo
VP −predictivo
)=
= P( D | −) = P( Des laPprobabilidad
( D ) P(− | D de ) tener la = enfermedad (1 − Pentre
) E las personas
, que
) P(+ | D) + P( D cc ) P(+ | D cc ) = PS P ( 1
+ (1 − P)(1 − E ) .
− S ) + (1 − P ) E
P ( D )
tienen un resultado positivo, VP+ = P(D|+). P ( − | D ) + P ( D ) P ( − | D )
P( D) P(+ | D) PS
yy ValorVPpredictivo
Ejemplo P( D
+ =2.8 negativo
La| +sensibilidad
)= es de la probabilidad
la prueba ELISA de nopara tener = la enfermedad entre,las personas
c detectar seropositividad
P(negativo,
D) P(+ | DVP– ) + P( D c
) Pc (+ | D ) PS + (1 − P)(1 − E )
que tienen un resultado
c P ( D c ) P= (−P(D | D c |–).) (1 − P ) E
VP −al=virus
Ejemplo
frente P( D
2.8 La de −inmunodeficiencia
)=
|sensibilidad de la prueba
humana ELISA
c es del para = y su especificidad
c detectar
99% seropositividad es. del de la
Aplicando el teorema de Bayes, P( D) Ppueden (− | D) +calcularse
P( D ) P(− los| Dvalores) P(1predictivos
− S ) + (1 − en P) Efunción
prevalencia de la enfermedad en la población c y de la sensibilidad y especificidad de la prueba
frente
96%. al
En virus
una cde inmunodeficiencia
población con una P( D )P (− | D c de
humana
prevalencia )es infección
del 99% ypor − P ) Ede es del
el(1virus
su especificidad
diagnóstica,
VP − = P( D | −) = = .
P( D) P (− | D) + P( D ) P(− | D ) P(1 − S ) + (1 − P) E
c c

Ejemplo
96%. 2.8 La
En una
inmunodeficiencia sensibilidad
población con del de0,3%,
una la
P (prueba
prevalencia(+ |ELISA
D) Púnicamente Dde ) infección para detectar
por elseropositividad
virus
PS de con un
VP + = P ( D | + )humana = el 6,9% = de las personas ,
P( D) P(+ | D) + P( D c ) P(+ | D c ) PS + (1 − P)(1 − E )
frente al virus
inmunodeficiencia
resultado positivode inmunodeficiencia
humana
del test ELISA del 0,3%, humana
únicamente
estarán realmentees del el 99%
6,9%yde
infectadas, sulas especificidad
personas con es un del
Ejemplo 2.8 La sensibilidad de la prueba ELISA para detectar seropositividad
c P ( D c ) P(− | D c ) (1 − P ) E
96%.VPEn
resultado P( D
− =una | −del
población
positivo ) =test conELISAuna prevalencia
estarán realmente de infección = por el virus de
infectadas, .
frente al virus de inmunodeficienciaP(PS D) P (− | D)humana + P( D )es c
0P,003 −| D
(del ⋅ 0,)99y Psu(1especificidad
99% c
− S ) + (1 − P)es E del
VP+ = = = 0,069,
inmunodeficiencia PShumana
+ (1 − Pdel )(1 −0,3%,E ) únicamente
0,003 ⋅ 0,99 el + 06,9% ,997 ⋅de 0,04
las personas con un
96%. En una PS una prevalencia de 0,003 ⋅ 0,99 por el virus de
VP+población
= con = infección = 0,069,
Ejemplo 2.8  LaPS sensibilidad
+ test P)(1de
(1 − ELISA − Elaestarán
) prueba
0,003 ELISA
⋅ 0,99 +para detectar
⋅ 0,04 seropositividad frente al
0infectadas,
,997
resultado positivo del realmente
virus de inmunodeficiencia
mientras que prácticamente
inmunodeficiencia humana del humana
todas 0,3%, las es del 99%
personas
únicamente conyelresultado
su 6,9%especificidad
de negativo
las personasesestarán
delcon
96%. un En una
Ejemplo 2.8 La sensibilidad de la prueba ELISA
población con una prevalencia de infección por el virus de inmunodeficiencia humana del para detectar seropositividad
mientras
0,3%,
libres de
resultado que
únicamente
la prácticamente
infección,
positivo el testPS
del6,9% de todas
ELISA las
las personas personas
estarán con
realmente un0con
,003 resultado
⋅infectadas,
resultado 0,99 positivo negativo del estarán
test ELISA estarán
frente alVP+
virus =de inmunodeficiencia = humana es del 99% y su = 0,069, es del
especificidad
realmente infectadas, PS + (1 − P)(1 − E ) 0,003 ⋅ 0,99 + 0,997 ⋅ 0,04
libres de la infección,
96%. EnVP- una población (1 −PS P) Euna prevalencia 00de
con ,,997
003 ⋅⋅ 00,,99
infección 96 por el virus de
VP+ == =
= =
= 1,000.
0,069,
PPS
mientras que prácticamente +(1S(1)−−+PP()1todas
(1 − )( −1 −P)EE las
) 00,,003
personas
003 ⋅⋅ 00,,con
01 +
99 + 00,,997
resultado
997 ⋅⋅ 00,,negativo
96
04 estarán
E 0,997 ⋅ 0,96
inmunodeficiencia
VP- = humana del 0,3%, = únicamente el 6,9% de las=personas 1,000. con un
mientras
libres de que P(1 − S ) + (1todas
prácticamente
la infección, − P) las E personas
0,003 ⋅ 0con ,01 +resultado
0,997 ⋅ 0,negativo96 estarán libres de la
Sin embargo,
mientras
infección, que en una
prácticamente población todas de alto
las riesgo
personas
resultado positivo del test ELISA estarán realmente infectadas, concon una
resultadoprevalencianegativo del virus
estaránde

Sin embargo, en unahumana


inmunodeficiencia
libres de la población
(1 − Pdel de altoelriesgo
) E 10%, 73,3%con0de,997 una
los ,prevalencia
⋅ 0sujetos
96 del virus de
con resultado
VPinfección,
−= = ,99 ⋅ 0,96 1,000.
=
VP+ = P(1 − S ) +PS (1 − P) E =0,003 ⋅ 0,001 + 0⋅ ,0997
,003
= 0,069,
inmunodeficiencia humana
positivo estarán realmente
PS del
P)(110%,
+ (1 −infectados, − E )el 73,3%0,003 ⋅de 0,99 los+sujetos
0,997 ⋅ con 0,04resultado
Sin embargo, en una(1 −población P) E de alto riesgo0,997 ⋅ con 0,96 una prevalencia del virus de
VP- = = = 1,000.
inmunodeficiencia
Sin embargo,
positivo (1humana
enrealmente
estarán Puna −población (del
1 −10%, el 073,3%
Pde) Ealto
S ) + infectados, ,003 ⋅ 0de
riesgo con
,01 losuna
+ sujetos
0,997 ⋅ con
0,96resultado
prevalencia positivo
del virus de estarán
mientras infectados,
realmente que prácticamente PS 0 ,10 ⋅ 0 ,
todas las=personas con resultado negativo99
VP+ = = 0,733,estarán
inmunodeficienciaPS + (1 − del
humana P)(110%,− E ) el 73,3%
0,10 ⋅ 0,de 99los+ 0sujetos
,90 ⋅ 0,04 con resultado
Sin embargo, en=una población PS de alto riesgo con 0,10una ⋅ 0,99 prevalencia del virus de
libres de VP+
la infección, = = 0,733,
PS + (1 − P
positivo estarán realmente infectados, )(1 − E ) 0 ,10 ⋅ 0 , 99 + 0 , 90 ⋅ 0 , 04
siendo muy improbable
inmunodeficiencia humana la infección
del 10%,entre el 73,3%aquellos
de los sujetos
sujetos con conresultado
resultadonegativo,
siendo muy improbable(1la−infección P) E entre aquellos 0,997 sujetos
⋅ 0,96 con resultado negativo,
siendo VP- = = aquellos sujetos con resultado = 1,000.
positivomuy improbable
estarán
VP+ = P (1 −
realmente Sla) PS
infección
+ (1 −
infectados,
(1 − P) E P ) Eentre
= 0 , 003 ⋅ 00,10
, 01 ⋅+0,099
0,90 ⋅ 0,96 ,997 ⋅ 0,96= 0,733,
negativo,
VP− = PS + (1 − P)(1 − E ) = 0,10 ⋅ 0,99 + 0,90 ⋅ 0,04 = 0,999.
P(1 − S ) + (1 − P) E 0,10 ⋅ 0,01 + 0,90 ⋅ 0,96
(1 −PS P) E 0,,9010 ⋅⋅una
00,,96
Sin embargo,
VP- == una población
VP+
en de alto == riesgo0con 99prevalencia del virus de
== 0,999.
0,733,
P
siendo muy improbable (1 − S ) + (
PS + (1la−infección1 − P ) E
P)(1 − E )entre 0 ,10
0,10 ⋅ 0 ,
aquellos01 +
⋅ 0,99 +sujetos0 , 90 ⋅
0,90 ⋅ 0con0 ,96
,04 resultado negativo,
inmunodeficiencia humana del 10%, el 73,3% de los sujetos con resultado

siendo muy improbable P) E


(1la−infección entre 0,90 ⋅ 0,96
= aquellos sujetos con resultado
= 0,999. negativo, 11 R.
Pastor-Barriuso 19
positivo estarán
VP- = realmente infectados,
P(1 − S ) + (1 − P) E 0,10 ⋅ 0,01 + 0,90 ⋅ 0,96
11
(1 − PPS)E ,10⋅ 0⋅ ,096
0,090 ,99
Como puede apreciarse, el valor predictivo positivo de esta prueba varía
Probabilidad
enormemente
Como puede en función de
apreciarse, la prevalencia
el valor predictivopoblacional
positivo dedeesta
la infección.
prueba varía

enormemente en función de la prevalencia poblacional de la infección.


EnComo
general,
puede , A2, ..., Ak el
si A1apreciarse, son sucesos
valor globalmente
predictivo positivoexhaustivos y mutuamente
de esta prueba varía enormemente en
función de la prevalencia poblacional de la infección.
excluyentes, el teorema
En general, si A1, A2de
, ...,Bayes
Ak sonpuede generalizarse
sucesos globalmentecomo
exhaustivos y mutuamente
En general, si A1, A2, ..., Ak son sucesos globalmente exhaustivos y mutuamente excluyentes,
elexcluyentes, el teorema
teorema de Bayes puede degeneralizarse
BayesPpuede generalizarse
( Ai ∩como
B) P ( Ai )como
P( B | Ai )
P(Ai|B) = = k .
P( B)
P( Ai ∩ B) 
P( A ) P( B | A )
P ( Aij) P( B | Ai j)
P(Ai|B) = = k
j =1
.
P( B)
 P( A j ) P( B | A j )
j =1

Ejemplo 2.9 Continuando con el Ejemplo 2.7, la distribución de los casos de la


Ejemplo 2.9  Continuando con el Ejemplo 2.7, la distribución de los casos de la
enfermedad deContinuando
Ejemplo 2.9
enfermedad de Alzheimer por
Alzheimer por grupo
congrupo de edad
edad
el Ejemplo
de viene
2.7, dada por
por de los casos de la
la distribución
viene dada

enfermedad de Alzheimer Ppor ( E1grupo


) P( A |deE1edad
) viene
0,60 ⋅ dada
0,020por
P(E1|A) = 3 = = 0,186,
0,0645
PP((EE1i))PP((AA|| EE1i)) 0,60 ⋅ 0,020
P(E1|A) = i =13 = = 0,186,
0,0645
P( EP2()EPi () P
A(| A
E |2 E
) i ) 0,30 ⋅ 0,075
P(E2 |A) = i =1 = = 0,349,
3
0,0645
 P( E i ) P( A | E i )
i =1
P( E 2 ) P( A | E 2 ) 0,30 ⋅ 0,075
P(E2|A) = 3 = = 0,349,
P( E 3 ) P( A | E 3 ) 0,100,⋅0645
0,300
P(E3|A) = 3 P ( E i ) P( A | E i )= = 0,465.
0,0645
 P( E i ) P( A | E i )
i =1

i =1

Esto es, el 18,6, P(E


34,93|A)
y 46,5%P( E 3 ) P( A | E 3 ) 0,10 ⋅ 0,300
= 3 de los casos de la = enfermedad =de0,465.
Alzheimer tienen edades
entre 65-74, 75-84 y ≥ 85 años, (respectivamente. 0,0645
Esto es, el 18,6, 34,9 y 46,5% PdeElos
i =1
i ) Pcasos
( A | Ede
i ) la enfermedad de Alzheimer tienen

2.6 REFERENCIAS
edades entre
Esto es, 65–74,
el 18,6, 75–84
34,9 y ≥ 85
y 46,5% de años, respectivamente.
los casos de la enfermedad de Alzheimer tienen
1.  Billingsley P. Probability and Measure, Third Edition. New York: John Wiley & Sons, 1995.
edades entre 65–74, 75–84 y ≥ 85 años, respectivamente.
2.  Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury Press, 2002.
2.6 REFERENCIAS
3.  Feller W. An Introduction to Probability Theory and Its Applications, Volume 1, Third
Edition. New York: John Wiley & Sons, 1968.
2.6 REFERENCIAS
4.  1.Rosner
Billingsley P. Probability
B. Fundamentals and Measure,
of Biostatistics, Third
Sixth Edition.
Edition. New York:
Belmont, John Wiley
CA: Duxbury & 2006.
Press,

1. Sons, 1995. P. Probability and Measure, Third Edition. New York: John Wiley &
Billingsley

Sons, 1995.

12

12

20 Pastor-Barriuso R.
TEMA 3

VARIABLES ALEATORIAS Y
DISTRIBUCIONES DE PROBABILIDAD

3.1 INTRODUCCIÓN

En el tema de estadística descriptiva se revisaron las técnicas necesarias para la realización de un


análisis descriptivo de las variables recogidas en una muestra. El presente tema se centra en describir
algunos modelos teóricos de probabilidad que permiten caracterizar la distribución poblacional de
determinadas variables y que, a su vez, son aplicables a múltiples situaciones prácticas.
Cuando se realiza un estudio o un experimento aleatorio, es frecuente asignar a los resultados
del mismo una cantidad numérica. A la función que asocia un número real a cada resultado de un
experimento se le denomina variable aleatoria. Aunque el concepto de variable se ha introducido
con anterioridad, una definición más formal de variable aleatoria es, por tanto, la de una función
definida sobre el espacio muestral W que asigna a cada posible resultado de un experimento un
valor numérico. Aunque en general pueden definirse múltiples variables aleatorias para un mismo
experimento, es aconsejable seleccionar en cada caso aquellas variables que recojan las
características fundamentales del experimento. Las variables aleatorias suelen denotarse por
letras mayúsculas del final del alfabeto, tales como X, Y o Z, mientras que los valores que pueden
tomar se representan por sus correspondientes letras minúsculas, x, y o z.

Ejemplo 3.1  A continuación se definen algunas variables aleatorias para los experimentos
del Ejemplo 2.1 del tema anterior. En el experimento consistente en observar la
supervivencia a los 6 meses de 4 pacientes con cáncer sometidos a tratamiento, una
variable aleatoria X podría ser el número de supervivientes, que tomaría los valores X =
0, 1, 2, 3 ó 4 en función del número de pacientes que hayan sobrevivido a los 6 meses.
Alternativamente, podría definirse otra variable aleatoria Y como el número de muertes,
cuyos valores serían Y = 0, 1, 2, 3 ó 4 en función del número de muertes observadas. Para
el experimento de medir el colesterol HDL de una persona, la variable aleatoria X más
natural sería el nivel de colesterol HDL en mmol/l, que podría tomar cualquier valor
positivo. Si el interés se centra en saber si los niveles de colesterol HDL son superiores o
inferiores al umbral de 0,90 mmol/l, otra variable aleatoria Y podría definirse como Y = 0
si el nivel observado es inferior a 0,90 mmol/l y 1 en caso contrario. La elección de los
valores 0 y 1 es arbitraria, bastaría con asignar dos valores distintos para diferenciar
ambos tipos de resultados.

Como las variables aleatorias son funciones definidas sobre el espacio muestral, sus posibles
valores tendrán asociada una probabilidad, que corresponderá a la probabilidad del suceso
constituido por aquellos resultados del experimento que toman dichos valores. Los diferentes
valores de una variable aleatoria y las probabilidades asociadas constituyen la distribución de
probabilidad de la variable.

Ejemplo 3.2  En el primer experimento del ejemplo anterior, el número de supervivientes


es una variable aleatoria que toma los valores X = 0, 1, 2, 3 ó 4. La probabilidad asociada
al valor 0 P(X = 0) sería la probabilidad del suceso “ninguno de los 4 pacientes sobrevive

Pastor-Barriuso R. 21
Variables aleatorias y distribuciones de probabilidad

a los 6 meses”, la probabilidad asociada al valor 1 P(X = 1) sería la probabilidad del


suceso “sólo 1 de los 4 pacientes sobrevive a los 6 meses”, y así sucesivamente. En el
segundo experimento, el nivel de colesterol HDL es una variable aleatoria X que puede
tomar cualquier valor en el intervalo (0, ∞). En este caso no tiene sentido preguntarse, por
ejemplo, cuál es la probabilidad de tener exactamente un nivel de colesterol HDL de 1
mmol/l, ya que si esta variable se pudiera determinar con una precisión infinita, la
probabilidad P(X = 1) = 0. En tal caso, deberíamos preguntarnos por la probabilidad de
un determinado intervalo de valores. Así, por ejemplo, la probabilidad P(X ≤ 1) sería la
probabilidad del suceso “tener niveles de colesterol HDL menores o iguales a 1 mmol/l”.

En general, se distinguen dos grandes grupos de variables aleatorias:


yy Variables aleatorias discretas son aquellas que tan sólo puede tomar un número discreto
(finito o infinito) de valores. Cada uno de estos valores lleva asociada una probabilidad
positiva, mientras que la probabilidad de los restantes valores es 0.
yy Variables aleatorias continuas son aquellas que pueden tomar cualquier valor dentro de
un intervalo.
valor xi, i = 1, 2,En...,este caso,
de la la probabilidad
variable discreta X desu obtener un valor
probabilidad P(Xconcreto
= xi) se es 0, porcomo
conoce lo que las
probabilidades se asignan a intervalos de valores.
función
valor
A xi, de
i = masa
continuación dede
1, 2,se..., probabilidad.
la variable
describen Esta función
discreta
las principales debe cumplir
X su probabilidad
características P(X
de las las=siguientes
xi) sealeatorias
variables conoce como
discretas
y continuas, así como algunas distribuciones teóricas de probabilidad que serán aplicables a
propiedades:
función
muchas la probabilidad
de variables
de las masa de aleatorias deutilizadas
cadaEsta
probabilidad. valorfunción
enhalade estar
debeentre 0 y las
cumplir
práctica. < P(X = xi) ≤ 1, y la
1, 0siguientes

suma de las probabilidades


propiedades: la probabilidadpara todosvalor
de cada los valores
ha de estardebeentre
ser igual a 1,
0 y 1, 0 < P(X = xi) ≤ 1, y la
3.2  DISTRIBUCIONES DE PROBABILIDAD DISCRETAS
valor xi, i = 1, 2, ..., de la variable discreta X su probabilidad P(X = xi) se conoce como
suma de las probabilidades para todos Plos ( Xvalores =debe
1. ser igual a 1,
Las variables aleatorias discretas toman un = x i )discreto
número de valores con probabilidad no nula
función de masa de probabilidad. Esta
i ≥1
función debe cumplir las siguientes
y, en consecuencia, estarán completamente caracterizadas si se conoce la probabilidad asociada
a cada uno de estos valores. La función  P( Xasigna
que = x i ) a= cada
1. posible valor x , i = 1, 2, ..., de la
i
propiedades:
variableUna la probabilidad
vez conocida
discreta X su deP(X
la función
probabilidad cada
= valor
de masa
i ≥1 ha de estar
deconoce
xi) se probabilidad,
comoentre
función < P(Xde
la 0probabilidad
y 1,de0 masa de xprobabilidad.
i) ≤una
= que 1, y la
Esta función debe cumplir las siguientes propiedades: la probabilidad de cada valor ha de estar
variable
suma
entre yde
0Una aleatoria
las
1,vez P(X discreta
probabilidades 1,Xpara
yesté
= xi)la≤función
0 <conocida comprendida
todos
la suma
de masa losde
de las en cualquier
valores
probabilidades
probabilidad, subconjunto
debe serlaigual
para atodos
1, los
probabilidad Adese calcula
valores
que debe ser
una
igual a 1,
como la suma
variable de las
aleatoria probabilidades
discreta de aquellosenvalores
X esté comprendida xi incluidos dentro de calcula
A se ese
P( X = x ) =cualquier
 1.i
subconjunto
i ≥1
subconjunto,
como la suma de las probabilidades de aquellos valores xi incluidos dentro de ese
Una vez conocida la función de masa de probabilidad, la probabilidad de que una variable
Unadiscreta
aleatoria vez conocida
subconjunto, X esté la función de masa
comprendida de probabilidad,
en cualquier subconjunto la probabilidad
A se calculade que la
como unasuma de
P(X ∈A) = 
las probabilidades de aquellos valores xi incluidos
xi ∈ A
P ( X =
dentro x ) .
ide ese subconjunto,

variable aleatoria discreta X esté comprendida en cualquier subconjunto A se calcula


P(X ∈A) =  P( X = x i ) .
como la suma la
En particular, defunción
las probabilidades de aquellos
de distribución
xi ∈ A
F(x) devalores xi incluidos
una variable dentro
aleatoria dedefine
X se ese
En particular, la función de distribución F(x) de una variable aleatoria X se define como la
subconjunto,
como la probabilidad
probabilidad de observar
En particular, de
la funciónunobservar
valor un valor
menor menor
o igual
de distribución F(x) x, ouna
a de igual a x, aleatoria X se define
variable

F(x)P(X
como la probabilidad de observar P(X
= un valor
∈A) = P( XPo=( igual
≤=x)menor Xx =) .xai )x,.
i
xi ∈ A
xi ≤ x

La función de distribución de una F(x)variable x) = será


= P(X ≤discreta P ( Xuna
= xfunción
i ). escalonada creciente con
La
saltos función
en los de distribución
valores x con de una variable
probabilidad no discreta
nula. xi ≤ x será una función escalonada
En particular, la función
i de distribución F(x) de una variable aleatoria X se define
creciente
La funcióncon
desaltos en los valores
distribución xi con probabilidad
de una variable nouna
discreta será nula.
función escalonada
como la probabilidad de observar un valor menor o igual a x,
22 Pastor-Barriuso R.
creciente con saltos en los valores xi con probabilidad no nula.
Ejemplo 3.3 Supongamos F(x) que
= P(X x) =  previos
por≤estudios P ( X = xse
i ) .estima que, después de 6
xi ≤ x

meses de tratamiento en 4 pacientes con cáncer, la probabilidad de que sobrevivan


0, 1, 2, 3 y 4 con probabilidad no nula.

Distribuciones de probabilidad discretas

[Tabla 3.1 aproximadamente aquí]


Ejemplo 3.3  Supongamos que por estudios previos se estima que, después de 6 meses
de tratamiento en 4 pacientes con cáncer,
[Figura la probabilidadaquí]
3.1 aproximadamente de que sobrevivan 0, 1, 2, 3 ó 4
pacientes viene determinada por la segunda columna de la Tabla 3.1. Estos valores y sus
probabilidades constituyen la función de masa de probabilidad de la variable número de
supervivientes,
En el primer temaquedeseestadística
muestra endescriptiva,
la Figura 3.1(a). Los valores
se definieron de la función
la media de distribución
y la varianza
en 0, 1, 2, 3 y 4 aparecen en la tercera columna de la Tabla 3.1; así, por ejemplo, la función
de distribución
muestral en 1 esdeF(1)
como medidas = P(X ≤central
tendencia 1) = P(X = 0) + P(Xde= una
y dispersión 1) =variable
0,1296 +en0,3456
una = 0,4752.
La función de distribución de esta variable se representa en la Figura 3.1(b). Notar que
F(x) está
muestra. definida sobre
A continuación, cualquier
se definen número
medidas real, aun
análogas cuando
para la variable
la distribución tome sólo los
poblacional
valores 0, 1, 2, 3 y 4 con probabilidad no nula.
de una variable aleatoria. La esperanza o media poblacional de una variable aleatoria
En el primer tema de estadística descriptiva, se definieron la media y la varianza muestral
como medidas
discreta de tendencia
X, denotada por μcentral y dispersión
o E(X), de unalavariable
se define como suma deenlosuna muestra.de
productos A continuación,
cada
se definen medidas análogas para la distribución poblacional de una variable aleatoria. La
esperanza o media
valor xi por poblacional
su probabilidad P(X xi),variable aleatoria discreta X, denotada por μ o E(X), se
de=una
define como la suma de los productos de cada valor xi por su probabilidad P(X = xi),

μ = E(X) =  x P( X = x ) .
i ≥1
i i

Tabla
La esperanza es la media3.1  Función
de los valores xde masa de probabilidad y
i ponderados por su probabilidad y representa
función de distribución del número de supervivientes
a los de
así el valor promedio 6 meses de 4aleatoria.
la variable pacientesNotar
con cáncer sometidos
que la media a se puede
muestral
tratamiento.
calcular de forma similar, multiplicando cada
Número valor observado
Función de la variable por su
Función
de supervivientes de masa de distribución
frecuencia relativa. (x) P(X = x)una
La varianza poblacional de F(x) = aleatoria
variable P(X ≤ x) discreta X,
0 0,1296 0,1296
abreviada por σ o var(X), 1se define
2
como 0,3456
la esperanza del 0,4752
cuadrado de la desviación de
2 0,3456 0,8208
3 0,1536 0,9744
la variable respecto de su media,
4 0,0256 1,0000

0,4
σ 2 = var(X) = E(X - μ)2 =  (x
i ≥1
i − μ ) 2 P( X = xi )
1

0,8
0,3 = x
i ≥1
2
i P( X = x i ) − μ 2 = E(X2) - μ2.
0,6
P(X = x) 0,2 F(x)
0,4
5
0,1
0,2

0 0

0 1 2 3 4 0 1 2 3 4
x x

(a) (b)

Figura 3.1  Función de masa de probabilidad (a) y función de distribución (b) del número de supervivientes
a los 6 meses de 4 pacientes con cáncer sometidos a tratamiento.
Figura 3.1
Pastor-Barriuso R. 23
así el valor promedio de la variable aleatoria. Notar que la media muestral se puede
Variables aleatorias y distribuciones de probabilidad
calcular de forma similar, multiplicando cada valor observado de la variable por su

frecuencia relativa. La varianza poblacional de una variable aleatoria discreta X,


La esperanza
sí, la varianza resulta es la ponderada
ser la media media de los del valores
cuadradoxi ponderados por su probabilidad
de las desviaciones en los y representa así el
valor promedio de la2variable aleatoria. Notar que la media muestral se puede calcular de forma
abreviada por σ o var(X), se define como la esperanza del cuadrado de la desviación de
lores xi. La raízsimilar,
cuadradamultiplicando
de la varianzacadaes lavalor observado
desviación típica de la variable
poblacional por su frecuencia relativa. La
σ, que
Así, la varianza
varianza resulta
poblacional deser
unalavariable
media ponderada del cuadrado
aleatoria discreta de las desviaciones
X, abreviada en los
por σ 2 o var(X), se define
la variable respecto de su media,
como ladeesperanza
presenta la dispersión la variable delaleatoria
cuadrado de la desviación
respecto de su mediadepoblacional.
la variable respecto de su media,
Así, la varianza
valores resulta
x . La raíz ser lade
cuadrada media ponderada
la varianza es ladel cuadradotípica
desviación de laspoblacional
desviaciones σ, en
quelos
i
σ 2 = var(X) = E(X − μ)2 =  ( xi − μ ) 2 P( X = xi )
valores x . La raíz cuadrada de la varianza esi ≥la desviacióndetípica poblacional σ, que
Ejemplo 3.4 representa
A partir delalosdispersión
datos del de la variable aleatoria respecto su
delmedia poblacional.
i
ejemplo anterior, el 1valor esperado
=  xrespecto
representa la dispersión de la variable aleatoria i P( X = x
de
2
− μmedia
i ) su = E(X )−μ . 2
poblacional.
2 2
número de supervivientes a los 6 meses de 4 pacientes coni ≥1 cáncer sometidos a
Ejemplo 3.4 A partir de los datos del ejemplo anterior, el valor esperado del
tratamiento Así,
seríalaEjemplo
varianza3.4resulta
A partir ser lademedia ponderada
losadatos del del cuadrado
ejemplo anterior,de las
elcon desviaciones
valor esperado en los valores
del
xi. La raíznúmero de supervivientes
cuadrada de la varianza loses6la
meses de 4 pacientes
desviación cáncer
típica poblacional sometidos a
σ, que representa5la
dispersión
4 de ladevariable
número aleatoriaa respecto
supervivientes de su
los 6 meses demedia poblacional.
4 pacientes con cáncer sometidos a
tratamiento sería
μ =  kP( X = k ) = 0⋅0,1296 + 1⋅0,3456 + ... + 4⋅0,0256 = 1,60,
k = 0 Ejemplo 3.4  A partir de los datos del ejemplo anterior, el valor esperado del número de
tratamiento sería
supervivientes a4 los 6 meses de 4 pacientes con cáncer sometidos a tratamiento sería
μ =  kP( X = k ) = 0⋅0,1296 + 1⋅0,3456 + ... + 4⋅0,0256 = 1,60,
y la varianza 4k = 0
μ =  kP( X = k ) = 0⋅0,1296 + 1⋅0,3456 + ... + 4⋅0,0256 = 1,60,
k =0
y 4la varianza
σ =y 
2
la
(k − μ ) 2 P( X = k )
varianza
k =0
y la varianza
4
2 σ 2 =+ 
= (0 - 1,60) 0,1296 −μ
... (+k(4 ) 2 P( X
- 1,60) 2 = k)
0,0256 = 0,96.
4k = 0
σ 2 ==  − μ )220,1296
(k1,60)
(0 − P( X =+k )... + (4 − 1,60)20,0256 = 0,96.
Es decir, el número esperado de supervivientes
k =0 a los 6 meses es 1,60 y la
Es decir, el número esperado 2de supervivientes a los 62meses es 1,60 y la desviación típica
desviación típica σEs
= decir, = (0 - 1,60) 0,1296 + ... + (4 - 1,60) 0,0256 = 0,96.
0,96 el=número
0,98. esperado de supervivientes a los 6 meses es 1,60 y la

Es decir, el número esperado de supervivientes a los 6 meses es 1,60 y la


3.2.1  desviación
Distribución típica σ = 0,96 = 0,98.
binomial
2.1 Distribución binomial
La distribución
desviaciónbinomial
típica σes=un 0modelo teórico de distribución de probabilidad discreta aplicable
,96 = 0,98.
distribución binomial es un modelo teórico de distribución denprobabilidad
a aquellos experimentos en los que se realizan pruebas independientes,
discreta cada una de ellas con
3.2.1 Distribución binomial
sólo dos resultados posibles (éxito o fracaso) y la misma probabilidad de éxito π. En tal caso, se
dice
licable a aquellos que la variable
experimentos aleatoria
en los X “número
que se realizan de éxitos
n pruebas en las n pruebas”
independientes, cada sigue una distribución
3.2.1
La Distribución
distribución binomial
binomial es un modelo teórico de distribución
binomial con parámetros n y π. A partir de los resultados del tema de probabilidad de probabilidad(véase
discreta
Ejemplo
3.5),
a de ellas con sólo puede probarse
dos resultados que la distribución
posibleses(éxito binomial
o fracaso) toma
y lademisma valores en k
probabilidad = 0, 1, ..., n con probabilidad
La distribución
aplicable binomial
a aquellos un modelo
experimentos en los teórico
que se distribución
realizan de probabilidad
n pruebas discreta
independientes, cada
 n  n k k
éxito π. En tal caso, se dice
aplicable que la variable
a aquellos P(XP(X
=enk)=los
aleatoria
experimentos X=k) = πseπ(realizan
“número
que −(1πéxitos
1de n−k n−k
−)fracaso)
π )n, pruebas
en, las n independientes, cada
una de ellas con sólo dos resultados posibles  
(éxito
 k  k  o y la misma probabilidad
uebas” sigue unaunadistribución
de ellas conbinomial
sólo doscon parámetros n y π.(éxito
A partir de los y la misma probabilidad
 n π
de éxito . En tal caso, seresultados
dice que la posibles
variable o fracaso)
aleatoria X “número de éxitos en las n
 n  n! n!
donde
donde  = = es
es el
el
es número
número
el númerode
de combinaciones
combinaciones
de combinaciones de ndeelementos
elementos tomados
n elementos tomadosde kdeenk k,
encon
sultados del temadedeéxito kπ. kEn
probabilidad k!tal
 −((véase
(nk!caso,
nk−)!kseEjemplo
)! dice que 3.5),
la puede probarse
variable aleatoria que
X la
“número de éxitos en las n
pruebas” sigue una distribución binomial con parámetros n y π. A partir de los
n! = n(n – 1)∙…∙1 y 0! = 1. Por supuesto, estas probabilidades constituyen una función de
stribución binomial toma
pruebas”
masa de valores
sigue
n! probabilidad una k ya
endistribución
= y0,que,
0!1, n con
...,1.binomialprobabilidad
con nparámetros
y π, y πes. A
npuede partir deque
losigual
k, con
k, con
resultados =n! n(n -tema
= n(n
del 1)⋅…⋅1
- 1)⋅…⋅1 y =0!para
de probabilidad 1. cualquier
= Por supuesto,
Por estas
supuesto,
(véase Ejemplo su
estas suma
probabilidades exactamente
probabilidades
3.5), constituyen a 1. En la
launauna
constituyen
probarse
práctica, resulta tedioso calcular las probabilidades de una distribución binomial mediante la
resultados
función
función de de
distribución del
masa tema
masade de
binomial de probabilidad
probabilidad
probabilidad
toma valores (véase
ya ya
que, Ejemplo
k para
enque, n3.5),
cualquier
para
= 0, cualquier
1, ..., con puede π,probarse
nπy, su
n yprobabilidad
suma que la
es exactamente
su suma es exactamente

distribución
igual a 1.a En
igual binomial toma
la práctica,
1. En valores
resulta
la práctica, en kcalcular
tedioso
resulta = 0,
tedioso lasnlas
1, ...,
calcular con probabilidad
probabilidades de de
probabilidades una distribución
24 Pastor-Barriuso R. 6 una distribución
binomial mediante
binomial la fórmula
mediante anterior.
la fórmula PorPor
anterior. ello, en en
ello, la Tabla 1 del
la Tabla Apéndice
1 del se facilitan
Apéndice se facilitan
6
características sometidos a una misma terapia.
Distribuciones de probabilidad discretas

Ejemplo 3.5 En los ejemplos anteriores, se ha considerado el experimento de

observar
fórmula la Por
anterior. supervivencia (o muerte)
ello, en la Tabla en pacientes
1 del Apéndice con un determinado
se facilitan las probabilidades cáncer binomiales
para n = 2, 3, ..., 20 y π = 0,05, 0,10, ..., 0,50.
sometidos al mismo tratamiento. Si por estudios previos se sabe que la
En general, la distribución binomial se aplica al estudio de observaciones repetidas e
independientes de una misma variable dicotómica (con sólo dos resultados posibles), tal como
supervivencia a los 6 meses en dichos pacientes es del 40%, el número de
el resultado de un tratamiento (éxito o fracaso) en pacientes de similares características
sometidos a una misma terapia.
supervivientes a los 6 meses en una muestra de 4 pacientes seguirá una
dado que el resultado en cada paciente es independiente y todos tienen una misma
Ejemplo 3.5 binomial
distribución En los ejemplos
X de parámetros anteriores, n = se 4 yha π considerado
= 0,4. el experimento de observar
probabilidad de supervivencia del 0,4. En general,
la supervivencia (o muerte) en pacientes con un determinado cáncer la probabilidad desometidos
que al mismo
tratamiento.
Utilizando Si
las por
leyes estudios
de la previos
probabilidad, se sabe que
si denotamos la supervivencia
por Si al sucesoa los 6 meses
dedeque en dichos
dado
sobrevivanque 2 el resultado
pacientes en cada
cualesquiera paciente
puede es independiente
descomponerse,
pacientes es del 40%, el número de supervivientes a los 6 meses en una muestra de 4 y
en todos
función tienen una
qué misma
pacientes seguirá
sobreviva el i-ésimo unapaciente,
distribución binomial X de de que
parámetros n = 4únicamente
y π = 0,4. los
probabilidad
pacientes sobrevivan, como la probabilidad
de supervivencia del 0,4. En general, sobrevivan
la probabilidad de que
Utilizando las leyes de la probabilidad, si denotamos por Si al suceso de que sobreviva el
dado
dos quepaciente,
el resultado
primeros
i-ésimo pacientes envendría
cada paciente
la probabilidad dada
de que pores independiente
sobrevivan únicamentey todoslos tienenprimeros
una misma
sobrevivan 2 pacientes cualesquiera cpuede c descomponerse, c enc dos
función de qué pacientes
vendría dada por P(X = 2) = P{(S1∩S2∩ S 3 ∩ S 4 )∪(S1∩ S 2 ∩S3∩ S 4 )
probabilidad de supervivencia del 0,4. En general, la probabilidad de que
pacientesP(Ssobrevivan,
1∩S2∩ S 3 ∩como
c
S 4c ) = P(S1)P(S2)P( S 3c )P( S 4c ) = 0,42(1 − 0,4)2,
sobrevivan 2 pacientes cualesquiera ∪(S1∩ S 2cpuede ∩ S 3c ∩descomponerse,
S4)∪( S1c ∩S2∩Sen 3∩ S 4 )
c
función de qué
dado que el resultado en cada paciente es independiente c c
y todosctienen unac misma probabilidad
P ( X = 2) = P {( S ∩
de supervivencia del 0,4. En general, la 3probabilidad
1 S 2 ∩ S ∩ S 4 )∪( S1∩de S2 ∩ que S3∩sobrevivan
S4 ) 2 pacientes
pacientes sobrevivan, como∪( S1c ∩S2∩ S 3c ∩S4)∪( S1c ∩ S 2c ∩S3∩S4)}.
cualesquiera puede descomponerse, en función de qué pacientes sobrevivan, como
∪(S1∩ S 2c ∩ S 3c ∩S4)∪( S1c ∩S2∩S3∩ S 4c )
posibles 7
c
Esta probabilidadP(Xestá = P{(S1∩Spor
= 2)constituida 2∩ Sla 3∩ S 4c )∪(
unión deStantos
1∩ S 2 ∩
c
S3∩ S 4c como
sucesos )
cc c c c
∪(S∪( 1∩ S12 ∩SS23∩∩SS34∩ S4)∪(
S1c ∩SS12∩ SS32∩∩SS4c3∩ ) S4)}.
c
)∪(
 4 4! 24
combinaciones de 4 pacientes ∪( Stomados
c
∩ S ∩ S dec 2 en 2; es
∩ S )∪( S c decir,
∩ S c
∩ S ∩  S= )}. =
2 4 2  2! (4 − 2)! 4
3 4
Esta probabilidad está constituida por la unión de tantos sucesos
1 3 1 2
como posibles
Esta probabilidad está constituida por la unión de tantos sucesos como posibles
= 6 sucesos. Además, estos sucesos son mutuamente excluyentes y todos ellos
 4 4! 24
combinaciones
combinaciones de 4depacientes
4 pacientes tomados
tomados dede2 2enen 2;es
2; decir,   =
es decir, = =6
Esta
tienenprobabilidad
una misma está constituida
probabilidad de por
ocurrir la uniónde 0,4 de(1tantos
2
- 0,4)sucesos
2
 2como
. En consecuencia, (4 − 2)!
 2!posibles la 4
sucesos. Además, estos sucesos son mutuamente excluyentes y todos ellos tienen una
= 6 probabilidad
misma sucesos.
probabilidad Además,
de que estosde
sobrevivan
de ocurrir sucesos
2 0,4 2 son mutuamente
pacientes
(1 – 0,4) cualesquiera
2
. En consecuencia,es 4  la probabilidad
excluyentes 4y! todos ellos
24 de que
combinaciones de 4 pacientes tomados de 2 en 2; es decir,   = =
sobrevivan 2 pacientes cualesquiera es  2  2! (4 − 2)! 4
tienen una misma probabilidad de ocurrir de 0,42(1 - 0,4)2. En consecuencia, la
 4 2
= 6 sucesos. Además, P 2) =  son
(X =sucesos
estos (1 − 0,4) 2 =excluyentes
0,4mutuamente 0,3456, y todos ellos
probabilidad de que sobrevivan  22 pacientes cualesquiera es
tienen una mismaa probabilidad
que corresponde la probabilidad dedeocurrir de 0,42(1 binomial
la distribución - 0,4)2. En deconsecuencia,
parámetros n =la4 y π = 0,4
que corresponde a la probabilidad de la
4
para k = 2. Aplicando esta fórmula, las probabilidades distribución
 2 binomial de parámetros n = 4
2para k = 0, 1, 2, 3 ó 4 supervivientes
probabilidad P ( X = 2) =   0,4 (1 − 0, 4 ) = 0,3456,
aparecen en de la que
Tablasobrevivan
3.1 y en 2lapacientes  2  3.1(a).
Figura
 
cualesquiera es
Estas probabilidades también pueden
y π = 0,4 para k = 2. Aplicando esta
obtenerse directamente de la Tabla 1 del Apéndice.fórmula, las probabilidades para k = 0, 1, 2, 3
 4 2
ó 4 que corresponde
supervivientes aPla
(
aparecenX probabilidad
=
A partir de las fórmulas generales para 2)
en =laTabla
0,4
ladeesperanza
3.1(la
1 −distribución
y0en,4)la2yFigura binomial
=la0,3456, 3.1(a).
varianza de
deEstas
unaparámetros n=4
variable aleatoria
2
 
discreta, puede probarse que la esperanza de una distribución binomial de parámetros n y π es
y π = 0,4 para k = 2. Aplicando
probabilidades también pueden obtenerse esta fórmula,directamentelas probabilidades
de la Tabla 1para del k = 0, 1, 2, 3
que correspondeEa(Xla) =
n
probabilidad de la
n
 n  k binomial
distribución n=4
Apéndice. 
ó 4 supervivientes aparecen en la Tabla 3.1
kP ( X = k ) =  k πy en(1la ) n − k =de
− πFigura nπparámetros
3.1( a). Estas
k =0 k =0  k 
y π = 0,4 para k = 2. Aplicando esta fórmula, las probabilidades para k = 0, 1, 2, 3
probabilidades también pueden obtenerse directamente de la Tabla 1 del
yAsupartir de lasesfórmulas generales para la esperanza y la varianza de una variable
varianza
ó 4 supervivientes aparecen en la Tabla 3.1 y en la Figura 3.1(a). Estas
Apéndice. Pastor-Barriuso R. 25
aleatoria discreta, puede probarse que la esperanza de una distribución binomial de
probabilidades también pueden n obtenerse directamente de la Tabla 1 del
var(X) =  (k − nπ ) 2 P( X = k )
A partir
parámetros n y de
π eslas fórmulask =generales
0 para la esperanza y la varianza de una variable
Apéndice.
 k 
k =0  
n n
n
E(X) =  kP( X = k ) =  k  k π k
(1 − π ) n − k = nπ
Variables aleatorias y distribuciones de probabilidad
k =0 k =0  
Así, el número esperado de éxitos es igual al nú

y su varianza es probabilidad individual de éxito. La varianza n


y su varianza es
n número de pruebas y más extrema sea la probab
var(X) =  (k − nπ ) 2
P( X = k )
k =0
que π = 0 ó 1, la varianza será 0 ya que todas la
cumplen las siguientes hipótesisn respecto2 anla
 incidencia acumulada IA de la enfermedad
=  (k − nπ )  π k (1 − π ) n − k = nπ(1 − π).
k o éxitos.
(esto es, la probabilidad de desarrollar unnuevo
k =0
caso en un periodo de tiempo
Así, el número esperado de éxitos es igual al número de pruebas realizadas por la probabilidad
determinado):
Así, el de
individual número
éxito.esperado
La varianza de éxitos
nπ(1 –esπ)igual al número
disminuye de pruebas
cuanto realizadas
menor Ejemplo
sea 3.6por
el número la pruebas con el ejemplo
Continuando
de
y más extrema sea la probabilidad de éxito. En el caso particular de que π = 0 ó 1, la varianza
será 0•yaProporcionalidad:
que todas las pruebas La probabilidad de observarfracasos
serán respectivamente un casooeséxitos.
aproximadamente
supervivientes a los 6 meses de 4 pacient
probabilidad individual de éxito. La varianza nπ(1 - π) disminuye cuanto menor sea el
proporcional al tiempo transcurrido, de tal forma que en un nintervalo π = 4⋅0,4 de 1,60,
tiempo la varianza nπ(1 - π) =
Ejemplo 3.6  Continuando con el ejemplo anterior, el número esperado de=supervivientes
número de pruebas y más extrema sea la probabilidad de éxito. En
a los 6 meses de 4 pacientes con cáncer sometidos a tratamiento es nπ = 4∙0,4 = 1,60, el caso particular de la
arbitrariamente corto, la probabilidad de observar un caso es muy pequeña y la
varianza nπ(1 – π) = 4∙0,4∙0,6 = 0,96 y la desviación típica nπ (1 − π ) = 0,98. Estos resultados coin
que π = 0 ó 1,
resultados la varianza
coinciden conserá 0 ya que todas
los obtenidos en el las pruebas
Ejemplo 3.4,serán
donderespectivamente fracasosse
la media y la varianza
probabilidad de observar más de un caso es esencialmente nula.
calculaban a partir de las fórmulas generales para variables discretas. 3.4, donde la media y la varianza se calcu
o éxitos.
• Estacionaridad: El número de casos por unidad de tiempo permanece
3.2.2  Distribución de Poisson para variables discretas.
aproximadamente
Ejemplo 3.6 Continuandoconstantecon a loellargo de todo
ejemplo el periodo
anterior, de tiempo
el número t. Notar
esperado de que,
La distribución de Poisson es otro modelo teórico de distribución discreta particularmente útil
para el estudio epidemiológico
sisupervivientes
se produjera un 6de
cambio
a los lasubstancial
meses ocurrencia dedeladeterminadas
de 4 pacientes incidencia
con cáncer deenfermedades.
3.2.2
laDistribución
enfermedad
sometidos Sededice
en que
es la
elPoisson
a tratamiento
variable aleatoria X “número de casos de una determinada enfermedad a lo largo de un periodo
nt”,
de tiempotiempo,π =donde
esta=
4⋅0,4 tasunción
es un la
1,60, intervalo
no seríadeaplicable.
varianza nπtiempo
(1 - π) arbitrariamente
= 4⋅0,4⋅0,6 =La largo,
y la tal
distribución
0,96 como
desviación 1 ótípica
de Poisson 10 años,
es otro modelo teóri
sigue una distribución de Poisson si se cumplen las siguientes hipótesis respecto a la incidencia
acumulada IA de la enfermedad
• Independencia: (esto es, la probabilidad de desarrollar un nuevo casoelaen un epidemiológ
nπ (1 − π ) = La0,98.ocurrencia de un
Estos resultados caso en un determinado
coinciden con los instante
particularmente
obtenidos ennoel afecta
útil para
Ejemplo la
estudio
periodo de tiempo determinado):
probabilidad de La
yy Proporcionalidad: observar nuevosde
probabilidad casos en periodos
observar un caso posteriores.
esenfermedades. Así, por
aproximadamente ejemplo,
Se dice que la variable aleatoria
proporcional
3.4, donde la media y la varianza se calculaban a partir de las fórmulas generales
al tiempo transcurrido, de tal forma que en un intervalo de tiempo arbitrariamente corto,
esta hipótesis
la probabilidad dede independencia no se cumplirá en brotes
observar enfermedad
epidémicos. a lo largo de un periodo de tiempo
para variables discretas.un caso es muy pequeña y la probabilidad de observar más de
un caso es esencialmente nula.
Aunque la distribución de Poisson se emplea habitualmentearbitrariamente en el estudio delargo, tal como 1 ó 10 años, sig
la morbi-
yy Estacionaridad: El número de casos por unidad de tiempo permanece aproximadamente
constante
3.2.2 a lo largo
Distribución
mortalidad debida dedePoisson
todo el periodo
a determinadas de tiempo
enfermedades, estat. distribución
Notar que, siesseenprodujera
general un cambio
substancial de la incidencia de la enfermedad en el tiempo, esta asunción no sería aplicable.
yLa distribución
yaplicable de La
Poisson
a la ocurrencia
Independencia: en elestiempo
ocurrenciaotrodemodelo
de teórico
un aquellos
caso de determinado
en sucesos
un distribución
aleatoriosdiscreta
que satisfagan
instante no afecta las a la
probabilidad de observar nuevos casos en periodos posteriores. Así, por ejemplo, esta
particularmente
hipótesis
hipótesis anterioresútil(por
paraejemplo,
de independencia el estudio
no selos epidemiológico
accidentes
cumplirá deepidémicos.
la ocurrencia de determinadas
de tráfico).
en brotes
Aunque la distribución
enfermedades.
Bajo de Poisson
Se dice
estas asunciones, quese la se emplea
variable
establece habitualmente
aleatoria
que en de
X “número
la probabilidad elde
estudio
casos
que de
delauna
ocurran morbi-mortalidad
determinada
k sucesos, k=
debida a determinadas enfermedades, esta distribución es en general aplicable a la ocurrencia
en el tiempo
1, 2, ...,de
0,enfermedad enaquellos sucesos
a loperíodo
un largo aleatorios
dedeuntiempo
periodo deque
t para unasatisfagan
tiempovariable las hipótesis
t”, donde anteriores
t es unXintervalo
aleatoria que (por
siguedeuna ejemplo,
tiempo
los accidentes de tráfico).
arbitrariamente
distribución
Bajo largo,setal
de Poisson
estas asunciones, es como 1que
establece ó 10laaños, sigue una
probabilidad dedistribución
que ocurran kdesucesos,
Poissonk si se 1, 2, ...,
= 0,
en un periodo de tiempo t para una variable aleatoria X que sigue una distribución de Poisson es
9
e μ
−μ k
P(X = k) = ,
k!

donde el parámetro μ es el número esperado de sucesos en el período de tiempo t. A


26 Pastor-Barriuso R.

diferencia de la distribución binomial, donde el número de éxitos k no puede exceder el


número finito de pruebas realizadas, en la distribución de Poisson el número de pruebas
Una característica importante de la distribución de Poisson es que tanto su media
se considera infinito y el número de sucesos k puede ser arbitrariamente grande, aunque
Distribuciones de probabilidad discretas
como su varianza son iguales al parámetro μ,
la probabilidad P(X = k) decrecerá al aumentar k hasta hacerse esencialmente nula. Para
donde el parámetro μ esμel>número esperado de sucesos e −μ μ k
en el periodo de tiempo t. A diferencia
cualquier parámetro
de la distribución binomial, donde 
E(X)0,=estas
k ≥0
kP
el
( X =
número
k ) =
de
probabilidades k son
éxitos
k ≥0
positivas
k
k! no
= μ, y suman 1, constituyendo
puede exceder el número finito de
pruebas realizadas,
una función en la de
de masa distribución de Poisson
probabilidad. En la Tablael número
2 del de pruebassesepresentan
Apéndice consideralas
infinito y el
número de sucesos k puede ser arbitrariamente grande, aunque la− μprobabilidad P(X = k) decrecerá
e μ k
al aumentar k var( =  (k −esencialmente
X) hacerse
hasta 
μ ) 2 P( X = k ) =nula. (kPara μ.
− μ ) 2cualquier=parámetro μ > 0, estas
probabilidades de Poisson para μ de 0,5 a 20 en intervalos de
k! 0,5.
probabilidades son positivask ≥ 0 y suman 1, constituyendo k ≥0 una función de masa de probabilidad. En
la Tabla 2 del Apéndice se presentan las probabilidades de Poisson para μ de 0,5 a 20 en
Una característica importante de la distribución de Poisson es que tanto su media
intervalos de 0,5.
UnaEjemplo
como 3.7 Según
característica
su varianza el último
importante
son iguales deAtlas
al de Mortalidad
la distribución
parámetro μ, de Poisson por Cáncer
es que en tanto
España,
su la tasa de
media como su
varianza son iguales al parámetro μ,
mortalidad por cáncer de vesícula en hombres es de I = 1,80 casos por 100.000
e −μ μ k
E( X) = 
personas-año. Partiendo de esta
k ≥0
kP ( X = k ) = 
información, kse
≥0
k
pretende = μ,
k! determinar la
2 een μ
−μ k
var(X) =  (k − μ ) P( X = k ) =  (k − μ )
distribución del número de muertes
2 por cáncer de vesícula un periodo
= μ. de 1 ó 2
k ≥0 k ≥0 k !
años en una población de 140.000 hombres. Las asunciones de estacionaridad e
Ejemplo 3.7  Según el último Atlas de Mortalidad por Cáncer en España, la tasa de
independencia parecen razonables por tratarse de casos de mortalidad por cáncer
mortalidad por cáncer de vesícula en hombres es de I = 1,80 casos por 100.000 personas-
año.Ejemplo
Partiendo3.7deSegún el último Atlas
esta información, se de Mortalidad
pretende por Cáncer
determinar en España,
la distribución dellanúmero
tasa de de
en periodos cortos de tiempo. Además, como la tasa de mortalidad I es baja y se
muertes por cáncer de vesícula en un periodo de 1 ó 2 años en una población de 140.000
mortalidad
hombres. Las por cáncer dedevesícula
asunciones en hombres
estacionaridad es de I = 1,80 casos
e independencia porrazonables
parecen 100.000 por
asume constante en el tiempo, puede probarse que la incidencia acumulada en un
tratarse de casos de mortalidad por cáncer en periodos cortos de tiempo. Además, como
personas-año.
la tasa de mortalidadPartiendo
I es baja de yesta
se información,
asume constante se pretende determinar
en el tiempo, puedelaprobarse que la
periodo de tiempo t es
incidencia acumulada en un periodo de tiempo t es
distribución del número de muertes por cáncer de vesícula en un periodo de 1 ó 2
IAt = 1 − exp(−It ) ≈ It;
años en una población de 140.000 hombres. Las asunciones de estacionaridad e
es decir, la probabilidad de que un individuo de esta población muera por cáncer de
es decir,
vesícula la
es probabilidad
aproximadamente
independencia parecen derazonables
queproporcional
un individuo aldetiempo
por tratarseesta
de población mueracumpliéndose
transcurrido,
casos por por
de mortalidad cáncer
cáncerasí la
hipótesis de proporcionalidad. La incidencia acumulada en 1 año es IA1 = 0,000018 y en
de vesícula
2 años IA2 =es0,000018∙2
en periodos aproximadamente
cortos de =tiempo. proporcional
0,000036. al tiempo
En consecuencia,
Además, como transcurrido,
la tasa el
de número de muertes
mortalidad I es bajapory secáncer
de vesícula en un periodo de tiempo t seguirá una distribución de Poisson con un número
esperado
asumede casos igual
constante en elal tiempo,
productopuede
del tamaño
probarsepoblacional por la probabilidad
que la incidencia acumulada individual
en11un
de muerte en dicho periodo, μ = 140.000∙0,000018 = 2,52 muertes esperadas en 1 año y
140.000∙0,000036
periodo de tiempo = 5,04
t es en 2 años.
Estas distribuciones de probabilidad se muestran en la Tabla 3.2 y en la Figura 3.2. Por
ejemplo, la probabilidad de que no IAtse= produzca
1 - exp(-Itninguna
) ≈ It; muerte por cáncer de vesícula
durante 1 año en esta población se calcula a partir de la distribución de Poisson de
parámetro μ = 2,52 como P(X = 0) = e–μμ 0/0! = e–2,52 = 0,0805. Estas distribuciones también
es decir,
pueden la probabilidad
aproximarse de que
mediante un individuo dedeesta
las probabilidades población
Poisson de lamuera
Tabla por
2 delcáncer
Apéndice
para μ = 2,5 y 5. En la Figura 3.2 puede observarse como, al aumentar el número esperado
de vesícula
de muertes, es aproximadamente
la distribución tiende a proporcional al tiempo
ser más simétrica transcurrido,
alrededor del valor esperado y su
varianza aumenta.
11

Pastor-Barriuso R. 27
Variables aleatorias y distribuciones de probabilidad

Tabla 3.2  Distribución de probabilidad del


número de muertes por cáncer de vesícula en
periodos de 1 y 2 años en una población de
140.000 hombres.
Número P(X = k)
de muertes (k) 1 año 2 años
0 0,0805 0,0065
1 0,2028 0,0326
2 0,2555 0,0822
3 0,2146 0,1381
4 0,1352 0,1740
5 0,0681 0,1754
6 0,0286 0,1474
7 0,0103 0,1061
8 0,0032 0,0668
9 0,0009 0,0374
10 0,0002 0,0189
11 0,0001 0,0086
12 0,0000 0,0036
13 0,0000 0,0014
14 0,0000 0,0005
15 0,0000 0,0002
16 0,0000 0,0001
17 0,0000 0,0000

0,25 0,25

0,2 0,2

0,15 0,15
P(X = k)
0,1 0,1

0,05 0,05

0 0

0 5 10 15 20 0 5 10 15 20
k k

(a) (b)

Figura 3.2  Distribución de probabilidad del número de muertes por cáncer de vesícula en un periodo de 1
año (a) y de 2 años (b) en una población de 140.000 hombres.
Figura 3.2

28 Pastor-Barriuso R.
Este resultado es particularmente útil en la práctica, ya que el cálculo de las

probabilidades binomiales para n grande y π pequeña es muy laborioso, en cuyo caso


Distribuciones de probabilidad continuas

las probabilidades de Poisson son más fáciles de manejar y facilitan resultados

3.2.3  Aproximación
virtualmente idénticos. de Poisson a la distribución binomial
Bajo determinadas circunstancias, la distribución de Poisson puede utilizarse como aproximación
a la distribución
Ejemplo 3.8 binomial. Supongamos
Retomemos que,anterior
del ejemplo en una distribución binomial,Xel número de pruebas
la variable aleatoria
n es grande y la probabilidad individual de éxito π es pequeña. En tal caso, el número de éxitos
de la distribución binomial
correspondiente puedede
al número sermuertes
muy grande y su varianza
por cáncer seráen
de vesícula aproximadamente
un periodo de 2 igual al
valor esperado, nπ(1 – π) ≈ nπ. Como se vio en el apartado anterior, estas dos características son
propias de en
años unauna
distribución
población de
de Poisson, lo que sugiere
140.000 hombres. la validez del
El experimento siguienteconsistiría
subyacente resultado: si el
número de pruebas n es grande y la probabilidad de éxito π es pequeña, la distribución binomial
se aproxima a unapara
en observar, distribución de los
cada uno de Poisson hombres, μla =ocurrencia
con parámetro
n = 140.000 nπ. Por regla general,
o no de una esta
aproximación se considera suficientemente precisa cuando n ≥ 100 y π ≤ 0,01.
muerte
Este por cáncer
resultado de vesícula durante
es particularmente unpráctica,
útil en la periodo ya
de que
2 años. El resultado
el cálculo de las en cada
probabilidades
binomiales para n grande y π pequeña es muy laborioso, en cuyo caso las probabilidades de
sujeto
Poisson son es
másindependiente y la probabilidad
fáciles de manejar de que un virtualmente
y facilitan resultados individuo promedio de esta
idénticos.
Utilizando la aproximación de Poisson a la distribución binomial, el número de
Ejemplo 3.8 
población mueraRetomemos
por cáncerdel ejemplo en
de vesícula anterior π = IA2 aleatoria
2 añoslaesvariable X correspondiente
= 0,000036. Por
al número de muertes por cáncer de vesícula en un periodo de 2 años en una población
muertes por cáncer de vesícula en un periodo de 2 años seguirá aproximadamente
de 140.000
tanto, hombres.
el número El experimento
de muertes por cáncersubyacente
de vesículaconsistiría en observar,
en esta población para cada
a lo largo de uno
de los n = 140.000 hombres, la ocurrencia o no de una muerte por cáncer de vesícula
una distribución dede
Poisson conElparámetro μ =ennπcada
= 140.000⋅0,000036 = 5,04. Eny la
2durante un periodo
años seguirá 2 años.
una distribución binomialresultado
con parámetros nsujeto es independiente
= 140.000 yπ=
probabilidad de que un individuo promedio de esta población muera por cáncer de
consecuencia, la es
probabilidad de observarPor
π = IAla2 =probabilidad
0,000036. 2 muertes
tanto, elpuede
númeroaproximarse
de muertes por
vesícula
0,000036. enAsí,
2 años
por ejemplo, de que ocurran exactamente 2 por cáncer
de vesícula en esta población a lo largo de 2 años seguirá una distribución binomial con
muertes es n = 140.000 y π = 0,000036.
parámetros e −Así,
5 , 04 por2 ejemplo, la probabilidad de que ocurran
5,04
exactamente 2 muertes es P( X = 2) ≈ = 0,082222,
Utilizando la aproximación de Poisson a la2!distribución binomial, el número de
140.000  2 139.998
muertes por Pcáncer
(X = 2)de 
= vesícula 0,un
en 000036
periodo 0,999964
de 2 añosbinomial= 0,082220.
seguirá aproximadamente
que coincide casi perfectamente
 2  con la probabilidad exacta.
Utilizando la aproximación
una distribución de Poisson de
conPoisson
parámetro a la μdistribución binomial, el número
= nπ = 140.000⋅0,000036 = 5,04.deEn
muertes
por cáncer de vesícula en un periodo de 2 años seguirá aproximadamente una distribución
3.3de Poisson conla parámetro
DISTRIBUCIONES
consecuencia, μ de
= nπ
DE PROBABILIDAD
probabilidad = 140.000∙0,000036
observar puede=aproximarse
CONTINUAS
2 muertes 5,04. En consecuencia,
por la
probabilidad de observar 2 muertes puede aproximarse por
13
Las variables aleatorias continuas son aquellas
e −5 , 04
5,04que
2 pueden tomar cualquier valor dentro
P(X = 2) ≈ = 0,082222,
2!
de un intervalo. La probabilidad de que estas variables tomen exactamente un valor
que coincide casi perfectamente con la probabilidad binomial exacta.
que coincide
determinado es 0casi perfectamente
y, en consecuencia,con la probabilidad
carece binomial
de sentido definir unaexacta.
función de masa de
3.3 probabilidad.
DISTRIBUCIONES DE PROBABILIDAD
Para las variables CONTINUAS
aleatorias continuas, las probabilidades se asignan a
Las variables aleatorias continuas son aquellas que pueden tomar cualquier valor dentro de un
3.3intervalos
DISTRIBUCIONES DE PROBABILIDAD
una función CONTINUAS
intervalo. de valores mediante
La probabilidad de que estas variablesdetomen
densidad de probabilidad
exactamente un valor ,determinado
denotada es 0
y, en consecuencia, carece de sentido definir una función de masa de probabilidad. Para las
Laspor f(x).aleatorias
variables
variables Esta función
aleatorias ha de ser
continuas
continuas, las no
son negativa
aquellaspara
probabilidades quesecualquier
pueden valor
asignantomar x, f(x) ≥de0,
cualquier
a intervalos y eldentro
valor área
valores mediante
una función de densidad de probabilidad, denotada por f(x). Esta función ha de ser no negativa
de total
parauncualquier
intervalo.
bajo lavalorLa probabilidad
curvax,definida y eldeesta
f(x) ≥ 0, por quefunción
área estasbajo
total variables tomen
deladensidad
curva exactamente
debe
definidaser
porigual un
1, valorde densidad
esta afunción
debe ser igual a 1,
determinado es 0 y, en consecuencia, carece ∞ de sentido definir una función de masa de
−∞ x) dx = 1.
f (
probabilidad. Para las variables aleatorias continuas, las probabilidades se asignan a

A partir
intervalos de la función
de valores de densidad,
mediante la probabilidad
una función de densidadde
deque una variable
probabilidad aleatoria
Pastor-Barriuso R.
, denotada 29

f(x). EstaX función


porcontinua tome valores
ha de dentro de cualquier
ser no negativa cualquier(avalor
paraintervalo , b) puede
x, f(x)calcularse como el
≥ 0, y el área
−∞

VariablesAaleatorias
partir de la función
y distribuciones de densidad,
de probabilidad la probabilidad de que una variable aleatoria

continua X tome valores dentro de cualquier intervalo (a, b) puede calcularse como el
A partir de la función de densidad, la probabilidad de que una variable aleatoria continua X
área
tome bajo ladentro
valores funciónde de densidad
cualquier entre los
intervalo (a,puntos
b) puedea ycalcularse
b, como el área bajo la función
de densidad entre los puntos a y b,
en regiones de baja probabilidad. La función debdistribución F(x) corresponde a la
P(a < X < b) =  f ( x) dx .
a
probabilidad de que la variable tome un valor igual o inferior a x y, en el caso de una
Así, aun cuando la probabilidad de obtener un valor concreto es 0, la función de densidad
tomará valores
Así, aun
variable cuandoelevados
aleatoria en regiones
lacontinua,
probabilidad de de alta probabilidad
obtener
se calcula como un valorbajo
el área ydevalores
concretola es 0,pequeños
curva ladefunción en
deregiones
la función de de
baja probabilidad. La función de distribución F(x) corresponde a la probabilidad de que la
variable tome
densidad unizquierda
atomará
la valor igual
valores ox, inferior
deelevados x y, en el
enaregiones decaso de una variable
alta probabilidad aleatoria
y valores continua, se
pequeños
calcula como el área bajo de la curva de la función de densidad a la izquierda de x,
x 14
F(x) = P(X ≤ x) = 
−∞
f (t ) dt .

La función de distribución de una variable aleatoria continua es una función que, partiendo de 0,
crece
La de formade
función continua hasta alcanzar
distribución el valoraleatoria
de una variable 1. continua es una función que,

partiendo
Ejemplo de 3.9 
0, crece
La de formade
función continua
densidadhasta
paraalcanzar el valorHDL
el colesterol 1. en hombres adultos se
representa en la Figura 3.3(a). Notar que, aunque el área bajo la curva ha de ser igual a 1, la
función de densidad puede tomar valores superiores a 1. Los niveles de colesterol HDL
Ejemplo
próximos a 13.9 La función
mmol/l son losdequedensidad para elprobabilidad
tienen mayor colesterol HDL en hombres
de ocurrir, adultos
mientras que para
niveles inferiores y superiores esta probabilidad decrece. Así, por ejemplo, la probabilidad de
queseunrepresenta en la tenga
hombre adulto Figuraun3.3( a).de
nivel Notar que, aunque
colesterol el áreaa bajo
HDL inferior 0,90 la curva(niveles
mmol/l ha de ser
bajos
según las recomendaciones del “National Cholesterol Education Program”) corresponde al
áreaigual a 1, la función
sombreada de densidad
bajo la curva puedede
a la izquierda tomar
0,90 valores
mmol/l ysuperiores
es igual a aP(X
1. Los niveles
≤ 0,90) = 0,3274.
Al igual que para variables discretas, la esperanza o media poblacional de una
Esta probabilidad también puede obtenerse a partir de la función de distribución del colesterol
HDL,de colesterol HDL próximos
que se representa a 13.3(b).
en la Figura mmol/lEsta
sonfunción
los quepresenta
tienen mayor probabilidad
el aspecto de de
característico
variable aleatoria
las funciones decontinua representa
distribución el valorcontinuas
para variables promedioaproximadamente
de esa variable, ysimétricas.
se define
ocurrir, mientras que para niveles inferiores y superiores esta probabilidad
como
Al igual que para variables discretas, la esperanza o media poblacional de una variable
aleatoria decrece.
continuaAsí, por ejemplo,
representa el valorla promedio
probabilidad de que
de esa un hombre
variable, adultocomo
y se define tenga un nivel

de colesterol HDL inferiorμa=0,90 =  x(niveles
E(X)mmol/l f ( x) dxbajos
. según las
−∞

recomendaciones del “National Cholesterol Education


1,5 1 Program”) corresponde al
La varianza poblacional de una variable aleatoria continua es la esperanza de las
área sombreada bajo la curva a la izquierda de 0,90 mmol/l y es igual a P(X ≤
0,75
desviaciones
1 al cuadrado de los valores de la variable respecto de su media, y se calcula
f(x) 0,90) = 0,3274. Esta probabilidad también
F(x) puede obtenerse a partir de la función
como 0,5

de distribución del colesterol HDL, que se representa en la Figura 3.3( b). Esta
0,5

0,25
σ 2 = var(X) = E(X - μ)2 =  ( xde
función presenta el aspecto característico
− μ ) 2 f ( x) dx
las funciones de distribución para
−∞
0 0
variables continuas aproximadamente ∞simétricas.
 x f ( x) dx − 0μ =0,5E(X ) 1- μ . 1,5
2 2 2 2
0 0,5 1 1,5 2 =2,5 2 2,5
−∞
Colesterol HDL (mmol/l) Colesterol HDL (mmol/l)

La raíz cuadrada de la varianza es la desviación


(a) [Figura aquí] σ, que
típica poblacional
3.3 aproximadamente (b)representa la
Figura 3.3  Función de densidad de probabilidad (a) y función de distribución (b) del colesterol HDL en
dispersión de la variable aleatoria respecto de su media poblacional. Estas expresiones
hombres adultos. Figura 3.3

30
para la media y la varianza poblacional de una variable continua son similares a las
Pastor-Barriuso R.

facilitadas para variables discretas, salvo que la suma sobre el número discreto de 15
−∞

=  x 2 f ( x) dx − μ 2 = E(X2) - μ2.
La varianza poblacional de una variable−∞aleatoria continua es la esperanza de las
σ, que representa
La raíz cuadrada de la varianza es la desviación típica poblacionalDistribuciones la continuas
de probabilidad

Ladesviaciones
raíz cuadradaalde cuadrado de los
la varianza es la valores de la variable
desviación respecto deσ,su
típica poblacional quemedia, y se calcula
representa la
dispersión de la variable aleatoria respecto de su media poblacional. Estas expresiones
Lacomo
varianza
dispersión de poblacional de una variable
la variable aleatoria respectoaleatoria
de su media continua es la esperanza
poblacional. de las desviaciones
Estas expresiones
para
al la media
cuadrado deylosla varianza
valores depoblacional
la variablede una variable
respecto de su media,continua son
y se similares
calcula como a las
para la media y la varianza poblacional de 2 una∞variable 2continua son similares a las
facilitadas para variables 2
σ = var( discretas,
X ) = E(Xsalvo − =  la( suma
μ ) que x − μ )sobre f ( x)eldxnúmero discreto de
Existen muchos modelos teóricos de distribuciones −∞ continuas, cada una de ellas
facilitadas para variables discretas, salvo que la ∞ suma sobre el número2discreto de
valores con probabilidad no nula se reemplaza por
2 la integral 2sobre todos los posibles
−∞concreta para la función de densidad. A − 2
caracterizada por una fórmula o expresión = x f ( x ) dx − μ = E ( X ) μ .
valores con probabilidad no nula se reemplaza por la integral sobre todos los posibles
valores
La de la variable
raíz cuadrada continua.es la desviación típica poblacional σ, que representa la dispersión
de la varianza
continuación se revisa en detalle la distribución normal, que es la utilizada con mayor
de la variable aleatoria respecto de su media poblacional. Estas expresiones para la media y la
valores de la variable continua.
La raíz poblacional
varianza cuadrada de de la varianza
una variable es la desviación
continua son típicasimilares a las σ
poblacional , que representa
facilitadas la
para variables
frecuencia
Ejemplo en estadística. Otras distribuciones continuas, como la t de Student, chi-
discretas, salvo3.10
que Utilizando
la suma sobre la función
el número de densidad
discreto del ejemplo
de valores anterior,
con el valor
probabilidad no nula se
reemplaza
dispersión
Ejemplopor lalaintegral
de3.10 variable sobre
Utilizando latodos
aleatoria los posibles
respecto
función de suvalores
de densidad media del de la variable
poblacional.
ejemplo continua.
Estas
anterior, elexpresiones
valor
cuadrado
esperado o Fdeldecolesterol
Fisher, seHDLdiscutiránen unasegún vayande
población surgiendo
hombresaadultos
lo largosería
del texto.
paraesperado
la mediadel
Ejemplo y lacolesterol
3.10  varianza poblacional
Utilizando
HDL laen una de
función deuna variable
densidad
población continua
del
de hombres ejemplo son similares
anterior,
adultos a las esperado
sería el valor
3.3.1 Distribución normal
del colesterol HDL en una población de hombres adultos sería

facilitadas para variables discretas, μ =  salvo x f ( xque


) dxla=suma1,10 sobre
mmol/l, el número discreto de
0

La distribución normal, también denominada
μ =  x f ( x) dx = 1,10 mmol/l,distribución Gaussiana, es el modelo
0
valores con probabilidad no nula se reemplaza por la integral sobre todos los posibles
y la desviación
teórico de distribución típica
y la desviación típicacontinua más utilizado en la práctica. Muchas mediciones
valores de la variable
y la desviación continua.
típica
epidemiológicas y clínicas presentan ∞ distribuciones 
1 / 2 similares al modelo teórico normal
σ =   ( x − 1,10) f ( x) dx 
2
= 0,30 mmol/l.
 ∞0 1 / 2
Ejemplo
(presión arterial, σ =   sérico,
3.10colesterol
Utilizando ( xla−función ) f de
índice
1,10 2
(de dx  corporal)
x)densidad
masa = del
0,30ejemplo
o bienanterior,
mmol/l. pueden el valor
transformarse
 0 
Existen muchosdel
para esperado
conseguir modelos teóricos
colesterol
distribuciones HDL de
endistribuciones
una población
aproximadamente continuas,
de hombres
normales cada una demediante
adultos
(típicamente ellas caracterizada
sería
por una fórmula o expresión concreta para la función de densidad. A continuación se revisa 16 en
detalle la distribución normal,
transformaciones logarítmicas de los que es la utilizada con mayor frecuencia en estadística. Otras
∞ datos originales). No obstante, como se verá en los
distribuciones continuas, como laμt=de Student, x f ( x) dxchi-cuadrado
= 1,10 mmol/l, o F de Fisher, se discutirán según 16
0
vayan surgiendo a lo largo del texto.
temas posteriores, la utilidad fundamental de la distribución normal surge dentro de las

3.3.1  y la de
desviación
Distribución
técnicas típica
normal
inferencia estadística: incluso cuando la distribución poblacional de una
La distribución normal, también denominada distribución Gaussiana, es el modelo teórico de
variable diste mucho de ser normal, puede probarse1 / que,
2 bajo ciertas condiciones, la
σ =   en ) dx  mediciones

distribución continua más utilizado ( x −la1práctica.
,10) f ( xMuchas
2 epidemiológicas y clínicas
= 0,30 mmol/l.
 al0 modelo teórico normal
presentan distribuciones similares  (presión arterial, colesterol sérico, índice
distribución de los valores medios de dicha variable seguirá un modelo
de masa corporal) o bien pueden transformarse para conseguir distribuciones aproximadamente
normales (típicamente mediante transformaciones logarítmicas de los datos originales). No obstante,
aproximadamente normal.
como se verá en los temas posteriores, la utilidad fundamental de la distribución normal surge dentro
16
de las técnicas de inferencia estadística: incluso cuando la distribución poblacional de una variable
Una variable aleatoria continua X sigue una distribución normal si su función de
diste mucho de ser normal, puede probarse que, bajo ciertas condiciones, la distribución de los
valores medios de dicha variable seguirá un modelo aproximadamente normal.
densidad es
Una variable aleatoria continua X sigue una distribución normal si su función de densidad es
1  (x − μ) 2 
f (x) = exp −  ,
2π σ  2σ 2 
para cualquier valor x en la recta real, – ∞ < x < ∞. Esta función de densidad depende de los
parámetros μ y σ, donde
para cualquier valor x en la recta real, -∞ < x < ∞. Esta función de densidad depende de
yy μ representa la esperanza o media poblacional de la distribución y
ylos correspondeμaysu
y σ parámetros σ,desviación
donde típica poblacional.

• μ representa la esperanza o media poblacional de la distribución y


Pastor-Barriuso R. 31

17
Variables aleatorias y distribuciones de probabilidad

1
2π σ

• σ corresponde a su desviación típica poblacional.

La distribución normal o Gaussiana con media μ y varianza σ 2 se denota

abreviadamente
f(x) por N(μ, σ 2). Para cualquier μ y σ > 0, la función de densidad normal

es positiva y el área total bajo la curva es igual a 1. Esta función de densidad, que

aparece representada en la Figura 3.4, tiene forma de campana, es simétrica alrededor

• σ corresponde
de la media μ y tiene dos puntos de inflexión en μ + σ ya μsu- desviación típica
σ. Al tratarse poblacional.
de una
0
Lamediana
distribución simétrica, la media y la distribución normalElo valor
coinciden. Gaussiana con media μ y varianza σ 2 se denot
más frecuente
μ - 3σ μ - 2σ μ-σ μ μ+σ μ + 2σ μ + 3σ
2
abreviadamente
1/( 2π σ) se alcanza en la media μ y su dispersiónpor N(μ, σ del
alrededor ). Para
valorcualquier μ y σ > 0, la función de de
medio aumenta
x
Figura 3.4
al aumentar
Figura la desviación
3.4  Función de densidadtípica .es positiva
de unaσdistribución
Así, yprobarse
el área total
puedenormal que bajo
con media
la curva
elμ68,27% deles
y desviación
igual
área
típica
a 1. Esta función de dens
bajo
σ. una

aparece representada
función de densidad normal está comprendido entre μ ± enσ, la
el Figura
95,45%3.4, tiene
entre μ ±forma de campana, es simét
2σ y el
La distribución normal o Gaussiana con media μ y varianza σ se denota abreviadamente
2

N(μ, σ 2entre
por99,73% ). Para
μ ±cualquier
3σ. μ y σ > de
0, la
la media μ ydetiene
función dos puntos
densidad normal de es
inflexión
positivaenyμel+ área
σ y μ - σ. Al tratars
total bajo la curva es igual a 1. Esta función de densidad, que aparece representada en la
Figura 3.4, tiene forma de campana, distribución
es simétricasimétrica,
alrededorlademedia y la μmediana
la media y tiene coinciden.
dos puntosEl valor más fre
de inflexión en μ + σ y μ – σ. Al[Figura
tratarse3.4
deaproximadamente
una distribución simétrica,
aquí] la media y la mediana
coinciden. El valor más frecuente 1/( 2π σ) se se alcanza
alcanzaenenla lamedia μ y μsuydispersión
media alrededor del valor
su dispersión
alrededor del valor medio aumenta al aumentar la desviación típica σ. Así, puede probarse
que elLa distribución
68,27% normal
del área con función
bajo una media 0 de
y desviación
densidad
al aumentar típica 1 está
normal
la desviación típica σ. Así, distribución
se denomina
comprendido puedeentre μ ± σ,que el 68,27% d
probarse
el 95,45% entre μ ± 2σ y el 99,73% entre μ ± 3σ.
normal estandarizada, y suele denotarse por Z o N(0, normal
1). La función de densidadentre
de μ ± σ, el 95,45% en
La distribución normal con media 0función de densidad
y desviación está comprendido
típica 1 se denomina distribución normal
estandarizada, y suele
una distribución denotarse
normal por Z o se
estandarizada N(0, 1). La función de densidad de una distribución
normal estandarizada se reduce a 99,73%reduce
entre μa ± 3σ.

1  1 
f (z) = exp − z 2  , [Figura 3.4 aproximadamente aquí]
2π  2 
para cualquier – ∞ < z < ∞, que se representa en la Figura 3.5(a). Como puede observarse,
se trata de una función
para cualquier -∞ < z <simétrica La distribución
∞, que sealrededor
representa normal
deen0.la Para 3.5(con
obtener
Figura media
a).las
Como 0 y desviación
probabilidades
puede típica
bajo la 1 se denomin
función de densidad normal estandarizada, no se recurre al cálculo integral, ya que estas
probabilidades
observarse, seestán
tratatabuladas y son normal
de una función estandarizada
fácilmente
simétrica de ,0.
accesibles.
alrededor y Para
En suele denotarse
general,
obtenerestas por Z facilitan
lastablas o N(0, 1). La función de
la función de distribución; es decir, la probabilidad de que la variable normal estandarizada
tome un valor igual
probabilidades bajoolainferior una
La distribución
función adez.densidad
función
normal de normal estandarizada
distribución
estandarizada, normal se reduce
al a
estandarizada
no se recurre se
denota por F(z) = P(Z ≤ z), y se ilustra en la Figura 3.5(b). En la Tabla 3 del Apéndice se
facilita la función
cálculo integral,de
yadistribución F(z) para valores
que estas probabilidades de z no negativos.
están tabuladas y son fácilmente 1  1 
f ( z) = exp − z 2  ,
accesibles. En general, estas tablas facilitan la función de distribución; es decir, 2π la 2 

probabilidad de que la variable normal estandarizada


para cualquier -∞ <tome unque
z < ∞, valor
se igual o inferior
representa z.
en laaFigura 3.5(a). Como p
32 Pastor-Barriuso R.

observarse, se trata de una función simétrica alrededor de 0. Para obtene


18
Distribuciones de probabilidad continuas

f(z) Φ(z)
1

0,5

-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
z z

(a) (b)

Figura 3.5  Función de densidad (a) y función de distribución (b) de una variable aleatoria normal
estandarizada.
Figura 3.5

Ejemplo 3.11  La probabilidad de obtener un valor inferior a 0,50 en una distribución


normal estandarizada se obtiene directamente de la Tabla 3 del Apéndice como el valor
de la función de distribución en 0,50; es decir, P(Z ≤ 0,50) = F(0,50) = 0,6915.
Asimismo, aunque en la Tabla 3 del Apéndice no aparecen las probabilidades acumuladas
para valores negativos, la probabilidad de obtener un valor inferior a – 0,25 en una
distribución normal estandarizada puede calcularse fácilmente a partir de dicha tabla.
Como la distribución normal estandarizada es simétrica alrededor de 0, la probabilidad
a la izquierda de – 0,25 es igual a la probabilidad a la derecha de 0,25 y, en consecuencia,
P(Z ≤ – 0,25) = P(Z ≥ 0,25) = 1 – P(Z ≤ 0,25) = 1 – F(0,25) = 1 – 0,5987 = 0,4013. A
partir de los resultados anteriores, la probabilidad de que un valor de la distribución normal
estandarizada. Este resultado será particularmente útil en los temas de inferencia
estandarizada se encuentre entre – 0,25 y 0,50 viene dada por P(– 0,25 ≤ Z ≤ 0,50) = P(Z ≤
0,50) – P(Z ≤ – 0,25) = 0,6915 – 0,4013 = 0,2902.
estadística.
El percentil 97,5 de una distribución normal estandarizada se denota por z0,975 y corresponde
al valor z que deja por debajo una probabilidad del 0,975. De la Tabla 3 del Apéndice, se
El calculo
tiene de probabilidades
que F(1,96) = 0,9750 para y, porcualquier distribución
tanto, z0,975 normal
= 1,96. Por de unaμ distribución
con media
tratarse y
simétrica en 0, el percentil 2,5 corresponde al percentil 97,5 con signo opuesto; es decir,
varianza σ 2 no2,5
el percentil es z0,025de= tablas
requiere – z0,975 específicas,
= – 1,96. Así,sino
los que
valores ± 1,96
puede abarcan
realizarse el 95%
a partir decentral
las de
la distribución normal estandarizada. Este resultado será particularmente útil en los temas
de inferencia
tablas estadística.
de la distribución normal estandarizada. Para ello, se hace uso del siguiente

resultado
El cálculosobre la estandarización
de probabilidades de una distribución
para cualquier normal:
distribución normal si con
una variable
media μ aleatoria
y varianza σ 2
no requiere de tablas específicas, sino que puede realizarse a partir de las tablas de la distribución
X sigue
normal una distribución
estandarizada. normal
Para ello, uso delμ siguiente
con media
se hace σ 2, X ~ sobre
y varianzaresultado N(μ, σla2),estandarización
entonces la de
una distribución normal: si una variable aleatoria X sigue una distribución normal con media μ
y varianza 2
, X ~ N(μ,
variable σaleatoria Z =σ(2X),-entonces la una
μ)/σ sigue variable Z = (Xestandarizada,
aleatorianormal
distribución – μ)/σ sigue una distribución
normal estandarizada,
X −μ
Z= ~ N(0, 1),
σ

donde el símbolo ~ significa “estar distribuido como”. Como ya se comentó enPastor-Barriuso


el Tema R. 33

1, al restar a los valores de una variable su media y dividirlos por su desviación típica,
procedimiento de estandarización de variables normales permite utilizar las tablas

correspondientes a la distribución
Variables aleatorias y distribuciones normal estandarizada.
de probabilidad

dondeEjemplo 3.12
el símbolo Supongamos
~ significa “estarque el colesterol
distribuido HDL
como”. en una
Como población
ya se comentó de
en hombres
el Tema 1, al restar
a los valores de una variable su media y dividirlos por su desviación típica, la variable resultante
tiene adultos
media sigue una distribución
0 y desviación típica normal X con media
1. El resultado μ = 1,10
anterior mmol/l
garantiza y desviación
además que la variable
estandarizada conserva la distribución normal. Este procedimiento de estandarización de variables
normales σ = 0,30
típicapermite mmol/l.
utilizar Utilizando
las tablas la estandarización
correspondientes de variables
a la distribución normales,
normal el
estandarizada.

Ejemplo 3.12 
porcentaje Supongamos
de hombres de estaque el colesterol
población HDLniveles
que tienen en una de
población de HDL
colesterol hombres adultos
sigue una distribución normal X con media μ = 1,10 mmol/l y desviación típica σ = 0,30
mmol/l.
entre 0,90Utilizando la estandarización
y 1,20 mmol/l corresponde ade variables normales, el porcentaje de hombres de
esta población que tienen niveles de colesterol HDL entre 0,90 y 1,20 mmol/l corresponde a
 0,90 − 1,10 X − 1,10 1,20 − 1,10 
P(0,90 ≤ X ≤ 1,20) = P ≤ ≤ 
 0,30 0,30 0,30 
= P (− 0,67 ≤ Z ≤ 0,33) = P(Z ≤ 0,33) − P(Z ≤ − 0,67).

Utilizando la Tabla 3 del Apéndice, se obtiene que P(Z ≤ 0,33) = F(0,33) = 0,6293 y P(Z
20
≤ – 0,67) = F(– 0,67) = 1 – F(0,67) = 1 – 0,7486 = 0,2514. Así, resulta que P(0,90 ≤ X ≤
1,20) = 0,6293 – 0,2514 = 0,3779; es decir, el 37,79% de los hombres de esta población
tienen niveles de colesterol HDL entre 0,90 y 1,20 mmol/l.
Para obtener el percentil 90 de la distribución del colesterol HDL en esta población, se
calcula primero el percentil 90 en la distribución normal estandarizada, que corresponde
a z0,90 = 1,28, ya que F(1,28) ≈ 0,90. Para pasar este percentil estandarizado al
correspondiente percentil del colesterol HDL basta resolver z0,90 = (x0,90 – μ)/σ. Por tanto,
el percentil 90 del colesterol HDL es x0,90 = μ + z0,90σ = 1,10 + 1,28∙0,30 = 1,484 mmol/l.

3.3.2  Aproximación normal a la distribución binomial

El cálculo de las probabilidades binomiales es muy laborioso cuando el número de pruebas n en


muy elevado. Como se vio anteriormente, si n es grande y la probabilidad de éxito π es muy
pequeña, la distribución binomial puede aproximarse mediante una distribución de Poisson. En
este apartado, se revisa el comportamiento de una distribución binomial para un número de
pruebas n grande y una probabilidad individual de éxito π no excesivamente extrema. En la
Figura 3.6 se muestran las distribuciones binomiales para los parámetros π = 0,10 y n = 10, 25,
50 y 100. Al aumentar el número de pruebas, la distribución binomial tiende a ser más simétrica
y se aproxima progresivamente a una distribución normal con la misma media nπ y varianza
nπ(1 – π) que la distribución binomial (Figura 3.6(d)). En general, puede probarse que si el
número de pruebas n es elevado y la probabilidad de éxito π no es excesivamente extrema, de
forma que nπ(1 – π) ≥ 5, la distribución binomial con parámetros n y π se aproxima a una
distribución normal con media nπ y varianza nπ(1 – π).
Este resultado es un caso particular del llamado teorema central del límite, que se presentará
más adelante (véase Tema 4), y se utiliza para aproximar las probabilidades binomiales mediante
la distribución normal. Así, para una variable binomial X con parámetros n y π que cumpla las
condiciones anteriores, la probabilidad P(k1 ≤ X ≤ k2) se aproxima mediante el área bajo la curva
de la distribución normal N(nπ, nπ(1 – π)) entre k1 – 1/2 y k2 + 1/2, donde k1 ≤ k2 son números
enteros cualesquiera. Notar que, al utilizar la aproximación normal, los límites del intervalo se
amplían en 1/2 para incluir las probabilidades de obtener exactamente k1 o k2 éxitos. Este ajuste
se conoce como corrección por continuidad y se deriva del hecho de aproximar una distribución
binomial discreta mediante una distribución normal continua.

34 Pastor-Barriuso R.
extrema, de forma que nπ(1 - π) ≥ 5, la distribución binomial con parámetros n y π se
Distribuciones de probabilidad continuas
aproxima a una distribución normal con media nπ y varianza nπ(1 - π).

0,4 0,4 aquí]


[Figura 3.6 aproximadamente
0,3 0,3

Este
P(X =resultado
k) 0,2 es un caso particular del llamado teorema
0,2 central del límite, que se
0,1 0,1
presentará más adelante (véase Tema 4), y se utiliza para aproximar las probabilidades
0 0
binomiales mediante la distribución normal. Así, para una variable binomial X con
0 5 10 15 20 0 5 10 15 20

parámetros n y π que cumpla las condiciones


(a) anteriores, la probabilidad P((b)
k1 ≤ X ≤ k2 )
0,4 0,4
se aproxima mediante el área bajo la curva de la distribución normal N(nπ, nπ(1 - π))
0,3 0,3
entre k - 1/2 y k2 + 1/2, donde k1 ≤ k2 son números enteros cualesquiera. Notar que, al
P(X1= k) 0,2 0,2

utilizar la aproximación
0,1 normal, los límites del intervalo
0,1 se amplían en 1/2 para incluir

0 0
las probabilidades de obtener exactamente k1 o k2 éxitos. Este ajuste se conoce como
0 5 10 15 20 0 5 10 15 20
corrección por continuidad y se deriva
k del hecho de aproximar una distribución
k
(c) (d)
binomial discreta mediante una distribución normal continua.
Figura 3.6  Distribuciones binomiales con parámetros π = 0,10 y n = 10 (a), 25 (b), 50 (c) y 100 (d). En el panel d,
se representa además la función de densidad de una distribución normal con media nπ = 100∙0,10 = 10
Ejemplo
y varianza nπ(1 –3.13
π) = La probabilidad
100∙0,10∙0,90 = 9. de obtener entre 12 y 14 éxitos sobre un total de

100 pruebas con una probabilidad individual de éxito del 0,10 se obtiene a partir
Ejemplo 3.13  La probabilidad de obtener entre 12 y 14 éxitos sobre un total de 100
pruebas
de con una binomial
la distribución probabilidad
X conindividual
parámetrosden éxito
= 100 del
y π 0,10
= 0,10secomo
obtiene a partir de la
distribución binomial X con parámetros n = 100 y π = 0,10 como
14
100 
P(12 ≤ X ≤ 14) =  
k =12  k 
0,10 k (1 − 0,10)100 − k

= 0,0988 + 0,0743 + 0,0513 = 0,2244,

cuyo cálculo es bastante laborioso. Sin embargo, como nπ(1 – π) = 100∙0,10∙0,90 = 9 ≥ 5,


cuyoaproximación
una razonable
cálculo es bastante a esta probabilidad
laborioso. Sin embargo,puede
comoobtenerse
nπ(1 - π)a=partir de la⋅0,90
100⋅0,10 distribución
normal Y con media nπ = 100∙0,10 = 10 y varianza nπ(1 – π) = 9 mediante
= 9 ≥ 5, una aproximación razonable a esta probabilidad puede obtenerse a partir
 11,5 − 10 Y − 10 14,5 − 10 
P(11,5 < Y < 14,5) = P < < 
de la distribución normal Y con media nπ =3 100⋅0,103= 10 y varianza
3  nπ(1 - π) = 9
= P(0,5 < Z < 1,5) = Φ(1,5) − Φ(0,5)
mediante
= 0,9332 − 0,6915 = 0,2417.

Esta probabilidad corresponde al área sombreada en la Figura 3.6(d). 22

Esta probabilidad corresponde al área sombreada en la Figura 3.6(d).

3.3.3 Aproximación normal a la distribución de Poisson Pastor-Barriuso R. 35

La distribución normal también puede emplearse como aproximación a la distribución


moderadamente elevado, típicamente μ ≥ 10. Así, para una variable aleatoria X que siga
Variables aleatorias y distribuciones de probabilidad

a una distribución de Poisson con parámetro μ moderadamente grande, la probabilidad

P(k1 ≤ XAproximación
3.3.3  ≤ k2) puede aproximarse mediante
normal a la el áreadebajo
distribución la curva de la distribución
Poisson
La distribución normal también puede emplearse como aproximación a la distribución de Poisson
normal N(μ, μ) entre k1 - 1/2 y k2 + 1/2.
cuando el número esperado de casos μ es moderadamente grande. En la Figura 3.7 se representan las
distribuciones de Poisson con parámetros μ = 1, 2,5, 5 y 10, donde puede apreciarse que, al aumentar
el número esperado de casos, las probabilidades
[Figura de Poisson tienden
3.7 aproximadamente aquí]a distribuirse de forma normal. En
términos generales, una distribución de Poisson con parámetro μ se aproxima a una distribución
normal con media y varianza iguales a μ, cuando el número esperado de casos es moderadamente
elevado, típicamente μ ≥ 10. Así, para una variable aleatoria X que siga a una distribución de Poisson
Ejemploμ3.14
con parámetro moderadamente
Si el númerogrande, la probabilidad
de casos P(k1 ≤ X a≤ lo
de una enfermedad k2)largo
puededeaproximarse
un año en mediante
el área bajo la curva de la distribución normal N(μ, μ) entre k1 – 1/2 y k2 + 1/2.
una determinada población sigue una distribución de Poisson X de parámetro μ =
Ejemplo 3.14  Si el número de casos de una enfermedad a lo largo de un año en una
determinada
10, población
la probabilidad sigue
de tener 15 una
o másdistribución
casos en undemismo añoXesde
Poisson parámetro μ = 10, la
exactamente
probabilidad de tener 15 o más casos en un mismo año es exactamente
e −10 10 k
P(X ≥ 15) =  = 0,0835,
k ≥15 k!
que puede aproximarse mediante la distribución normal Y ~ N(10, 10) como
que puede aproximarse mediante la distribución normal Y ~ N(10, 10) como 23
 Y − 10 14,5 − 10 
P(X ≥ 15) ≈ P(Y > 14,5) = P > 
 10 10 
= P(Z > 1,42) = 1 − Φ(1,42) = 1 − 0,9222 = 0,0778.

Esta aproximación corresponde al área sombreada bajo la curva normal en la Figura 3.7(d).
Esta aproximación corresponde al área sombreada bajo la curva normal en la
0,4 0,4
Figura 3.7(d).
0,3 0,3

P(X = k) 0,2 0,2

3.4 COMBINACIÓN
0,1 LINEAL DE VARIABLES ALEATORIAS
0,1

0 0
En este apartado se introducen algunas propiedades de la combinación lineal de
0 5 10 15 20 0 5 10 15 20

(a)
variables aleatorias (discretas o continuas) (b) e
que serán útiles para la estimación
0,4 0,4
inferencia estadística.
0,3
En particular, se pretende derivar
0,3
el valor esperado y la varianza

de laP(X
combinación
= k) 0,2 lineal c1X1 + ... + ckXk, donde c1, ...,
0,2ck son constantes arbitrarias y X1,

0,1 0,1
..., Xk son variables aleatorias con esperanzas μ1, ..., μk y varianzas σ 12 , ..., σ k2 . Como el
0 0

valor esperado de la
0 suma 5de variables
10 aleatorias
15 20es igual a0la suma
5 de sus10respectivas
15 20
k k
esperanzas, se tiene que
(c) (d)

Figura 3.7  Distribucionesk de Poisson con parámetros kμ = 1 (a), 2,5 (b), 5 (c) y 10 (d). En el panel d, se re-
 de densidad
presenta además la función  k de una distribución k
normal con media y varianza iguales a μ = 10.
E   c i X i  =  E (c i X i ) =  c i E ( X i ) =  c i μ i ,
 i =1  i =1 i =1 i =1
36 Pastor-Barriuso R.

ya que E(ciXi) = ciE(Xi). Es decir, la esperanza de una combinación lineal de variables


k  k 2 2 
ÓN LINEAL DE VARIABLES ALEATORIAS = 
variables aleatorias (discretas o continuas)
c 2
i E ( X i
2
) + 2 
que serán1≤útiles
c c
i j E ( X i X j ) −
i < j ≤ k para la estimación
  ci μ i + 2  ci c j μ i μ j 
 
i =1  i =1 e 1≤ i < j ≤ k 
k Combinación lineal de variables aleatorias
introducen algunas propiedades
inferencia de la combinación
estadística. =
lineal
En particular, se pretende ) − μ }el
cde{E ( X derivar 2  cesperado
+ valor i c j {E ( X y − μi μ j }
2
i Xlaj )varianza
i i
2
i
2

i =1 1≤ i < j ≤ k

(discretas o continuas) que serán útiles


3.4 de COMBINACIÓN
la combinación lineal para la estimación
k c1X1 + 2... + c Xk,2edonde k
c ,ALEATORIAS
..., ck son constantes arbitrarias y X1,
 LINEAL  DE= VARIABLES
2
 k 
var  ci X i  = E   ci X i  −    c i σ i2+ 2 1
i =1 c i μ i 
kk
c i c j {E ( X i X j ) − μ i μ j }.
1≤ i < j ≤ k
ca. En particular,Ense
...,pretende
Xk son
este derivar
apartado
i =1 variables el  valor
se introducen
aleatorias
i =1 esperado
algunas
con  iy=1la
esperanzas varianza
 μ1, ..., μ
propiedades dek ylavarianzas
combinación lineal
σ 12 , ..., σ k2 . de
Comovariables
el
aleatorias (discretas o continuas)
k que serán útiles para la estimación  k e inferencia estadística.
 En
c  a 
lineal c1X1 + ... particular,
+ ckXk, donde c1, ...,Así,
se pretende = son
kderivar constantes
lac i2varianza
E ( X
el 2
)
valor+ de2 arbitrarias
una
esperado combinación
c c Ey (y
laX X X ,
varianza
1 )lineal
−  de no c
la depende
μ
2 2
+ 2
combinación sólo c de
c la
μ
lineal c X
varianza
μ específica de
j1  1 + ...
valor esperado de la suma de ivariables aleatorias
i j ies igual
j la suma
i i de sus respectivas
i j i
+ ckXk, donde c1, ..., ck son constantes arbitrarias y X1, ..., Xk son variables aleatorias con
i = 1 1 ≤ i < j ≤ k  i = 1 1≤ i < j ≤ k 
aleatorias con esperanzas μ11,, ..., μcada k variable σ , ...,
kk y varianzas
2
sino σ 2también
.. Comode el los
valor esperado
términos E(XdeiXjla μiμj, que
) - suma de variables
se conocen como
esperanzas, se tiene que
aleatorias es igual a la  i j sei tiene
2 1 2 k
= suma c 2
{ E (
i de sus X ) − μ
i respectivas i } + 2 c
esperanzas, c { E ( X X j ) − μ μ
quei j }
i =1 1≤ i < j ≤ k
a suma de variables aleatorias es igual covarianzas
k
a la suma de sus
entre las respectivas
variables Xk i y Xj. En general, la covarianza poblacional entre dos
 k2 2  k k
= E  c i σci X+i 2 = cEi c(cj {i XE (i )X=i X jc) i−Eμ ( Xi μi )j }=.  c i μ i ,
e que variables  1≤i <i =j 1≤ kX e Y con esperanzas
i =1 i =1 aleatorias i =1 μx yi =μ1 y se define como
ya que E(ciXi) = ciE(Xi). Es decir, la esperanza de una combinación lineal de variables aleatorias
 k  es k
la
Así, que E(ciX
yacombinación kk i) =lineal ciuna
E(Xde ). Es k
ksus decir, , la esperanza
2
esperanzas. cov( Xno de= Euna
, Y2)depende μx)(Yde- la
{(Xcombinación
-sólo μy)} lineal
= E(XY - μxμy, de
deespecífica
)variables
E (clai Xvarianza de icombinación lineal
k
varianza
E   ci X i  =  )
var
i =  c E ( X )
ci iX i  =i E   =  c μ
ci iX ii  −   ci μ i 
 i =1  i =1 A partir de  ii=este
=11 resultado,
  ii==11y recordando   i =1que var(X)  = E(X2) – μ2, puede calcularse la varianza
aleatorias es la 2combinación lineal de sus esperanzas.
cada k variable
 σ i k,ysino ktambién  k 2dedelos términos E(XiXentre j) - μ iμj, quevariables. se conocen como
2 2
de una combinación lineal
es una  demedida variables aleatorias
la relación como lineal k ambas Si valores
 altos (o bajos) de
var  ci X i  = E   ci=X i c i E (
 2−  c μ
X i )i + i2  ci c j E ( X i X j ) −   c2 i μ i 2+ 2  ci c j μ i μ j 
  2 2
E(Xi). Es decir, la esperanza
i =1 A partir  de deuna i =1 combinación
este i =1 k  iy
resultado, =1lineal 2 
recordando de variables
1≤ i <kj ≤ k que 2var( X) = Ei(=X 1 ) - μ , puede calcularse la
 será
covarianzas  k
entre X 
lastienden 
variables a asociarse
X  y X  . con
En valores
general, altos
la (o bajos)
covarianza Y1≤,i <laj ≤ kcovarianza
depoblacional entre dospositiva;
var  kci X2i  = Ek2   ci X i 2 −  2 ci μ i   k 2 2
i j

mbinación lineal devarianza
sus esperanzas.=i =1
de E(=X
unacicombinación i  )c+ 2
2E (
i i=1{ X ic)i c−j de
lineal E }=1+i X2 j )
X
μi(ivariables i
− caleatorias
c j {cEi (μXi i X +como 2j ) −μci μi cj }j μ i μ j 
mientras que si valores altos de una variable 1se
≤ i <relacionan con valores bajos de la otra
variables aleatorias i =1 X ei =k1Y con1≤iesperanzas < j≤k μx1≤yi <μj ≤ykse i =1 define como
 k
j ≤k

resultado, y recordando que var( k X) = = E( Xk 2 2
)c2i2- Eμ2( ,X i ) + 2  c i c j E ( X i X j ) −   c i μi + 2  c i c j μi μ j 
puede
2
calcularse la  2 2

=  ci variable,2
{E=( X  c la
i =1i )i − μ
2 + 2 
σ icovarianza
2
i }+ 2
c1≤i ci <cserá
jj{ X X ) − μNo
E ( negativa.
i≤ck j {E i( X ji X j ) − i μμ }i .μ
jobstante,
 i =1j }
resulta complicado
1≤ i < j ≤ k  determinar el
cov( k X, Y) = E{(X - μx)(Y - μy)} = E(XY) - μxμy,
i =1 i =1 1≤ i <1j≤≤ik< j ≤ k
mbinación lineal de variables aleatorias como
=  c i2σ i2 + X i X j ) −1≤μ
k grado = deci2relación
{E ( X i2 )lineal − μ i2 }entre + 2 doscivariables c {E ( X i X a partir de la magnitud de la covarianza, ya
j ) − μ i μj }
Así, la varianza i =
2
de una1combinación
1  c i c j { E ( i i
<
μj ≤ kj }. j
lineal no depende sólo de la varianza específica de
y es una medida i =1 de la relación
que ésta k
≤ i < j ≤ k lineal entre ambas variables. Si valores altos (o bajos) de
depende de las unidades de medida de las variables. Una medida alternativa del
2 =  c i σ i + 2  c i c j {E ( X i X j ) − μ i μ j }.
2 2
cada variable σ i , sino también de los términos E(XiXj) - μiμj, que se conocen como
Así, laXvarianza
tienden de a asociarse coni =1 valores altos 1≤ i < j ≤ k (o bajos) de Y, la covarianza será positiva;
grado
una combinación de asociación lineal nolineal depende entresólo dosdevariables
la varianza aleatorias
específica X e Ydees el coeficiente de
24
Así, covarianzas
la varianza de entre las variables Xi y Xj. En general, la covarianza poblacional entre dos cada
una combinación lineal no depende sólo de la varianza específica de
mientras
Así, σlaiquevarianzasi valorescorrelación
de una altos de
combinación una variable
poblacional lineal ρiXxyse
no, que relacionan
depende se ,define sesecon
quesólo comodevalores
la varianza bajos de la otra
específica de
, sino también de los términos E(X j)j)–-μμ iμiμj, jque conocen como covarianzas entre
2
cada variable sino también de los términos E(X iX conocen como
las variables i y Xj. En general,
variablesXaleatorias X e Y conlaesperanzas covarianza μx poblacional
y μy se defineentre comodos variables aleatorias X e Y
variable,
con esperanzas
cada la
variablecovarianza
μ y μ se
x σ i y, sino
2 será
define negativa.
como No obstante, resulta
E(XiXj) -poblacionalμcomplicado
iμj,Xque
determinar el
covarianzas entre las variables Xitambién
y Xj. Ende los términos
general, la covarianza 24 cov( , Y )se entre
conocen doscomo
ρxy = ,
grado de relación lineal cov( entre X, Ydos {(X − μ x)(aYpartir
) = Evariables − μ y)} XYσ) x−σμyxμ yde
de=laE(magnitud , la covarianza, ya
variables covarianzas
aleatorias X entre e Y con variables Xμi xyyXμj.yEn
lasesperanzas general,como
se define la covarianza poblacional entre dos
y es una medida de la relación lineal entre ambas variables. Si valores altos (o bajos) de X
quevariables
yésta depende
es una medida de delas
la

unidades
relación σaltos delas
lineal medida
entre de lasvariables.
μambas variables. Si Una
valores medida
Elaltos
alternativa
(o bajos)de del
decorrelación
tienden a asociarsealeatorias donde
con valores e xYycon y son
esperanzas
(o bajos) desviaciones dex yY,μla y se típicas
definede
covarianza como X e Y.positiva;
será coeficiente mientras que si carece
cov(X, Y) = E{(X - μx)(Y - μy)} = E(XY) - μxμy,
valores altos de una variable se relacionan con valores bajos de la otra variable, la covarianza
X tienden a asociarse conentre valores altos (o bajos) de Y, la covarianza
X etal Y es será positiva; de
coeficiente
grado
será de asociación
negativa. No obstante, lineal
de unidades resulta y toma
dos
complicadovariables
valores entre
aleatorias
determinar -1 y 1;eldegrado deelrelación
forma que si lineal ρxy = 1,entre dos
las variables
cov(X, Y) = E{(X - μx)(Y - μy)} = E(XY) - μxμy,
y es una medidaa de
variables partirla relación
de la lineal entre
magnitud de ambas
la covarianza,variables.yaSique valores ésta altos
depende (o bajos) de lasdeunidades de
mientras que
correlación si valores altos ρxyuna de una variablecomo se relacionan con valores bajos de la otra
medida de laspoblacional
variables.
presentan Una , que
medida se define
relación alternativa
lineal positiva del grado perfecta, de asociación
y si ρxy = -1,lineal entre dos
las variables presentan una
X tienden a es
variables asociarse
yvariable,
una medida
aleatorias con Xvalores
de
e Yla es altos
relación
el (o
coeficiente bajos)
lineal entre
la covarianza será negativa. No obstante, resulta complicado determinar dede Y , la
ambas
correlación covarianza
variables. será
poblacional Si positiva;
valores ρ xy , altos
que se(o bajos)
define
el de
como
cov( X , Y ) 25
mientras que Xgradosi valores
tienden a altos
asociarse de una
con variable
valores ρse
altos xy = relacionan
(o bajos) con
de ,Y ,valores
la covarianza bajos deserá la otra
positiva;
de relación lineal entre dos variables aσpartir σ de la magnitud de la covarianza, ya
x y

variable,
dondela covarianza
mientras
σxésta que si
y σdepende será negativa.
valores
las altos No
de obstante,
una deresulta
variable Xdese complicado
relacionan
Y. condeterminar
valores el de lacarece
bajos otra
que y son lasde desviaciones
unidades típicas
de medida elas El coeficiente
variables. Una de correlación
medida alternativa del de
unidades
donde σxyytoma valores
σlay son entre – 1 y 1;típicas
las desviaciones de tal de
forma Yque
Xlaemagnitud
. El ρxy = 1, las de
sicoeficiente variables presentan
correlación una
carece
gradorelación
de relación
grado delineal
variable,
lineal entre
covarianza
asociación
positiva dosserá
variables
lineal
perfecta,entre ρxya=variables
negativa.
y si dos partir
Nolas
– 1, devariables
obstante,
aleatorias X ede
resulta la covarianza,
complicado
Y es
presentan el
una ya
determinar
coeficiente
relación lineal el
de negativa
perfecta. Cuando ρxy = 0, se dice que las variables están incorrelacionadas. Notar que si dos
de depende
que ésta unidades
grado dede
correlación
variables son yindependientes,
toma
las
relación valores
unidades
lineal de
poblacional ρentre
entre
en
xy el-1sentido
medida
dos
, que yde
1;las
dede
variables
se define tal forma
variables.
aque
como partir
el deque
Una si ρxy = alternativa
la medida
magnitud
conocimiento 1,del
lasla
de variables
valor del
covarianza,
que toma yauna

grado presentan
de asociación
que éstaunalineal entre
relación
depende dos
lineal
de las variables
positiva
unidades medida deyXlas
aleatorias
de perfecta, sie ρYvariables.
es=el-1,coeficiente
lasUna de presentan
variables
medida alternativa una
delR.
cov( X , Y ) xy Pastor-Barriuso 37
ρxy = ,
correlación poblacional
grado ρxy, que
de asociación lineal
se entre
definedos σ x σaleatorias
variables
como y X e Y es el coeficiente de 25
xy

implica necesariamente
correlación se discutiránindependencia, ya en
en mayor detalle queellas variables
Tema 10. podrían presentar una
Variables aleatorias y distribuciones de probabilidad
dependencia node
La varianza lineal
una aun cuando ρxy
combinación = 0. de
lineal Este y otros aspectos
variables aleatoriassobre
quedaelentonces
coeficiente de

correlación
variable sepor
discutirán
no aporta
determinada ningunaeninformación
mayor detalle sobreen elelTema
valor10. de la otra variable, entonces están
incorrelacionadas; pero que la incorrelación no implica necesariamente independencia, ya que
La varianza
las variables de una
podrían combinación
presentar lineal de variables
una dependencia no lineal aleatorias quedaρ entonces
aun cuando xy = 0. Este y otros
 k
 k
var de
aspectos sobre el coeficiente ci X i  =  c i σ i + 2  c i c j cov( X i , X j )
correlación 2 se discutirán en mayor detalle en el Tema 10.
2
determinada por  i =1  i =1 1≤ i < j ≤ k
La varianza de una combinación
E(X1 - X2) lineal = μ1k - de
μ2 variables
= 130 - 80 aleatorias
= 50 mm queda
Hg entonces determinada por
 
= k ci σ i + 2  ci c j σ i σ j ρ ij ,
2 2
 k
var
E(X
y, teniendo en cuenta 
la -c iXX2)i ==μ
1 correlación
 i =1
i =1 2 2
1 - entre
 i =1
+ 21-≤
cμi2σ=i 130
ambas
i< j≤k
c=i c50
80variables,
1≤ i < j ≤ k
mmXlaHg
j cov( X j)
i ,varianza de la
k
donde ρij es
presión delelen
coeficiente
pulso vendríadedada
correlación
por + 2Xi
c i2σentre
=  entre 2 y Xcj.cEn el caso de que las variables
y, teniendo cuenta la correlación i ambas variables, ij , varianza de la
i j σi σ j ρla
i =1 1≤ i < j ≤ k
sean mutuamente
presión del pulso independientes
vendría dada2por(bastaría la condición menos restrictiva de que
1 - X2) = σ 1 + σ 2 - 2σ1σ2ρ12
2
var( X
donde ρij es el coeficiente de correlación entre Xi y Xj. En el caso de que las variables sean
donde ρij esincorrelacionadas),
estuvieran
mutuamente el coeficiente de(bastaría
independientes correlación
la varianza de laXcombinación
entre
la condición i y Xj. En el caso
linealdeesque de
menos restrictiva las que
variables
estuvieran
22 22 2
incorrelacionadas),var( σla1 combinación
X1 - X2) =de20
la varianza σ 2 - 2⋅σ20
+ 10 1σ⋅10ρ⋅120,60es= 260 (mm Hg) ,
2lineal
sean mutuamente independientes (bastaría la condición menos restrictiva de que
2   k 2 2
k

desviación típica= 20
para una incorrelacionadas),
estuvieran
var
260
la
+= 
10
varianza
 i =1
2
c
16,1
X
-i 2⋅mm=
i20
de
⋅10
la 
Hg.
ci σ =
⋅0,60
combinación
 i =1
i .260 (mm Hg) ,
lineal es
2

Ejemplo
para 3.15  Supongamos
una desviación típica 260 que=kla 16,1 media
mm yk la desviación típica de la presión arterial
Lossistólica
resultados anteriores son válidos  para  Hg.
cualquier
X1 en una determinada var   ci X i son
población = μ1 =cvariable
130 mm aleatoria.
i σi .
2 2
Hg y σ1 = 20 Nomm obstante,
Hg, y la media
Ejemplo 3.15 Supongamos que  la media y la desviación típica de la presión
y la desviación típica E(X1 - X2) = μ1 - μ2 = 130 - 80 = 502 mm Hg
de la presión i =arterial
1 diastólica
i =1 X son μ 2 = 80 mm Hg y σ2 = 10 mm
si las variables
Los Hg. X ,
Supongamos..., X siguen
kademás una
que distribución
elμcoeficiente normal, puede
de- correlación probarse
entre que la
resultados Hg la presión arterial sistólica
1 anteriores son válidos para cualquier
arterial sistólica EX(X -X
1 1en una 1 - μ2 = 130
2) =determinada 80variable
población = 50sonmmμ aleatoria. No obstante,
1 = 130 mm Hg y σ1 = 20
y diastólica de los sujetos de esta población es ρ12 = 0,60. El valor esperado de la presión del
y, teniendo
combinación linealenc1cuenta
X + ...lala+diferencia
correlación
cuna
kXk también
entre ambas
seguirá unavariables,
distribuciónla varianza
normal de lala
con
si pulso,
las variablesdefinida
EjemploX1, ...,
3.15 como
X1kSupongamos
siguen queentre
distribución la presión
la media normal, arterial
puede sistólica
y la desviación típica yde
probarse diastólica,
quelalapresiónsería
mm Hg,en
y, teniendo y la media
cuenta la ycorrelación
la desviación entretípica
ambasde la presión arterial
variables, la varianza de la X2 son μ2
diastólica
presión del pulso E (
vendríaX 1 − dada
X μ 1 − μ 2 = 130 − 80 = 50 mm Hg
2 ) =por
media y varianza
combinación linealdescritas
c1X1 + X... anteriormente.
+ ckXk también Este resultado
seguirá se utilizará en
una distribución los temas
normal de
arterial sistólica 1 en una determinada población son μ1 = 130 mmcon Hg la
y σ1 = 20
= 80del
presión
y, teniendomm Hgcuenta
pulso
en σ2 =la10dada
yvendría mmpor Hg. Supongamos
correlación entre ambasademás quelaelvarianza
variables, coeficiente de de
la presión del
inferencia.
y, teniendo
media ypulso
varianza en
vendría cuenta
dada
var(
descritas X por
- laX correlación
) =
anteriormente. σ 2
+ σ entre
2
Este- 2 ambas
σ σ ρ
resultado variables,
se la
utilizará varianza
en los de
temas lade
mm Hg, y la media 1 y2 la desviación
1 2 típica 1 de
2 12 la presión arterial diastólica X2 son μ2
correlación entre la presión2 arterial 2 sistólica y diastólica de los sujetos de esta
presión del pulsovar(Xvendría
1 − X2) = σ 1 + σ 2 − 2σ 1 σ 2 ρ 12
dada 2por 2
inferencia. 2⋅20⋅10⋅adultas Hg)2, sigue
= σ 2 = 10== 20 Hg.+ 10 2 - mujeres 0,60 = 260 (mm
población es ρ12 = 0,60.mm
Ejemplo 80 mm
3.16 Hg
El y
colesterol HDL
20 10Supongamos
+ en
El2valor las− 2⋅20⋅10de
esperado además
⋅0,60 deque
= 260
la presión delelpoblación
una
(mm coeficiente
Hg)2, definida
pulso, de como

correlaciónvar( σ 12 arterial
X1 -laX2presión
) = + σ 22 -μsistólica
21 σ σ2ρ12ymmol/l
una Elentre
distribución normal la Xpresión
con media = ydiastólica desería
los sujetos deσ1esta
11,25 y desviación típica =
para
Ejemplo
la una desviación
3.16
diferencia entretípica
colesterol 1 HDL en== las
260arterial16,1
16,1 mm
mujeres Hg.
sistólica
mm adultas de una
diastólica, población sigue
para una desviación
población lostípica
ρ12 =hombres
yesennormal 0,60. 260
El 2 = 16,1
valor 2
2mm
esperado Hg.
de la variable
presión del Hg)2distribución
pulso, definida 26
0,35
una
Los mmol/l,
distribución
resultados anteriores X1=con
son 20 + 10para
adultos
media
válidos -μde
1=
⋅20 ⋅10
dicha
1,25
cualquier⋅0,60
mmol/l= 260
población (mm
sigue
y desviaciónuna
aleatoria. ,típica σ1 =comosi las
No obstante,
Los resultados
variables X1, ..., Xanteriores son válidos para cualquier variable aleatoria. No obstante,
k siguen una distribución normal, puede probarse que la combinación lineal
normal
X1 0,35
c1Los + la diferencia
X
+ ckX
... mmol/l, con
también entre
media μ la =presión
seguirá 1,10 una arterial
mmol/l ysistólica
distribucióndesviación y diastólica,
normal típica sería
σla2 =media
conaleatoria.0,30 mmol/l.
y varianza Así,
resultados
para una 2 y en lostípica
k anteriores
desviación hombres
2
son válidos adultos
260 =para
16,1 de dicha
cualquier
mm Hg. población
variable sigue una No obstante, descritas
distribución
si las variables Este
anteriormente. X1, ...,resultado
Xk siguen seuna distribución
utilizará en los temasnormal, de puede probarse que la
inferencia. 26
la diferencia
normal X con del colesterol
media μ = HDL
1,10 entre
mmol/l las
y mujeres
desviación y los hombres
típica σ = de esta
0,30 población
mmol/l. Así,
si las variables X1, ..., Xk siguen una distribución normal, puede probarse que la
2 2 2
combinación
LosEjemplo lineal
resultados 3.16  c1XEl
anteriores + cválidos
1 +colesterol
...son kXk también
HDL paraenseguirá
las mujeres
cualquier unavariable
distribución
adultas de normal
una No
aleatoria. con
población la sigue una
obstante,
se distribuirá
ladistribución según
normal una normal
X conHDL mediacon media
μ1 =las1,25 mmol/l y desviación típica σpoblación
combinación diferencia
linealdel c1Xcolesterol
1 + ... 1+ ckX entre
k también mujeres
seguirá una ydistribución
los hombresnormalde estacon1 =
la0,35 mmol/l,
media y varianza descritas anteriormente. Este resultado
si las variables X1, ..., Xk siguen una distribución normal, puede probarse que la X
y en los hombres adultos de dicha población sigue se
una utilizará en
distribución los temas
normal de2 con media
mediase yμ2varianza
= 1,10 mmol/l
distribuirá según
descritas y(desviación
E una
X X2) = μtípica
1 - normal
anteriormente. 1con
σ=2 =1,25
media
- μ2Este 0,30 - mmol/l.
resultado
1,10 se Así, mmol/l
la diferencia
utilizará
= 0,15 del colesterol
en los temas de HDL
inferencia.
entre las mujeres y los hombres de esta población se
combinación lineal c1X1 + ... + ckXk también seguirá una distribución normal con la distribuirá según una normal con media
inferencia. E(X1 − X2 ) = μ 1 − μ 2 = 1,25 − 1,10 = 0,15 mmol/l
y varianza
media y varianza descritas anteriormente. Este resultado se utilizará en los temas de
Ejemplo
y varianza 3.16 El colesterol HDL en las mujeres adultas de una población sigue
y varianza
Ejemplo
inferencia. 3.16var(ElXcolesterol
− X2) = σHDL 2 en2las mujeres 2 adultas
2 de una población 2 sigue
1 + σ 2 = 0,35 + 0,30 = 0,213 (mmol/l) ,
una distribución 1normal X1 con media μ1 = 1,25 mmol/l y desviación típica σ1 =
una distribución normal X1 con
0,35 mmol/l, yElXencolesterol
var( X2)hombres
1 -los σ 22 = μ0,35
media
= σ 12 + adultos 1 = 21,25 mmol/l
+ 0,302 y desviación típica
= 0,213sigue
(mmol/l)2
,
σ1 =
38 oEjemplo R. 3.16típica
desviación
Pastor-Barriuso 0,213 HDL
= 0,46 las de
enmmol/l, dicha
mujeres población
adultas
ya que una
de unapara
los valores distribución
población sigue
distintos
0,35 mmol/l, y en los hombres adultos de dicha población sigue una distribución
normal
una X con media
distribución μ2X=1 1,10
normal con mmol/lμ1y =desviación
media típica σ2 = 0,30 mmol/l.
típica σ1Así,
osujetos son2 independientes
desviación típica 0,213 y,
= en mmol/l, 1,25
consecuencia,
0,46 ρmmol/l
ya que y desviación
= 0.valores
12 los para distintos =
y varianza
Referencias
2 2 2
var(X1 - X2) = σ + σ = 0,35 + 0,30 = 0,213 (mmol/l) ,
2
1
2
2

o desviación típica 0,213 = 0,46 mmol/l, ya ya que


que los
los valores
valorespara
paradistintos
distintos sujetos son
independientes y, en consecuencia, ρ12 = 0.
sujetos son independientes y, en consecuencia, ρ12 = 0.
3.5 REFERENCIAS
27
1.  Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics, Volume
1, Second Edition. Upper Saddle River, NJ: Prentice Hall, 2001.
2.  Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury Press,
2002.
3.  Colton T. Estadística en Medicina. Barcelona: Salvat, 1979.
4.  Feller W. An Introduction to Probability Theory and Its Applications, Volume 1, Third
Edition. New York: John Wiley & Sons, 1968.
5.  Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press,
2006.
6.  Stuart A, Ord JK. Kendall’s Advanced Theory of Statistics, Volume 1, Distribution Theory,
Sixth Edition. London: Edward Arnold, 1994.

Pastor-Barriuso R. 39
TEMA 4

PRINCIPIOS DE MUESTREO
Y ESTIMACIÓN

4.1 INTRODUCCIÓN

Un primer paso en la realización de un estudio o proyecto de investigación es definir la población


de la cual se desea conocer una determinada característica o parámetro. Ocasionalmente, resulta
factible obtener información para todos los elementos de la población mediante registros o
censos. Sin embargo, en la mayoría de los estudios no es posible obtener información de toda
la población, por lo que debemos limitarnos a la recogida de datos en una pequeña fracción del
total o muestra.
La utilización de muestras presenta varias ventajas con respecto a la enumeración completa
de la población:
yy Coste reducido. Si los datos se obtienen de una pequeña fracción del total, los gastos se
reducen. Incluso si la obtención de información en toda la población es factible, suele ser
mucho más eficiente la utilización de técnicas de muestreo.
yy Mayor rapidez. Los datos pueden ser más fácilmente recolectados y estudiados si se utiliza
una muestra que si se emplean todos los elementos de la población. Por tanto, el uso de
técnicas de muestreo es especialmente importante cuando se necesita la información con
carácter urgente.
yy Mayor flexibilidad y mayores posibilidades de estudio. La disponibilidad de registros
completos es limitada. Muy a menudo, la única alternativa posible para la realización de
un estudio es la obtención de datos por muestreo.
yy Mayor control de calidad del proceso de recogida de datos. Al recoger datos en un número
menor de efectivos, resulta más fácil recoger un número mayor de variables por individuo,
así como tener un mejor control de la calidad del proceso de recogida de datos.
Si se dispone de información para todas las unidades de la población, el parámetro poblacional
de interés quedará determinado con total precisión. Sin embargo, si se emplea únicamente una
fracción del total, el parámetro poblacional desconocido ha de estimarse a partir de la muestra,
con el consiguiente error derivado tanto por el carácter parcial de la muestra como por su
posible falta de representatividad poblacional. La teoría de muestreo persigue un doble
objetivo. Por un lado, estudia las técnicas que permiten obtener muestras representativas de la
población de forma eficiente. Por otro lado, la teoría de muestreo indica cómo utilizar los
resultados del muestreo para estimar los parámetros poblacionales, conociendo a la vez el grado
de incertidumbre de las estimaciones. Así, la teoría de muestreo pretende dar respuesta a varias
preguntas de interés:
yy ¿Cómo se eligen a los individuos que componen la muestra?
yy ¿Cuántos individuos formarán parte de la muestra?
yy ¿Cómo se cuantifican las diferencias existentes entre los resultados obtenidos en la muestra
y los que hubiéramos obtenido si el estudio se hubiera llevado a cabo en toda la población?

Pastor-Barriuso R. 41
Principios de muestreo y estimación

Estas cuestiones están estrechamente relacionadas entre sí. Así, por ejemplo, al aumentar el
tamaño muestral aumenta la exactitud en las estimaciones. La determinación del tamaño
muestral se tratará más adelante (véase Tema 9). En el presente tema, se discuten los principales
tipos de muestreo probabilístico, así como la estimación en el muestreo aleatorio simple. Antes
de ello, es conveniente revisar la definición de algunos conceptos que se utilizan de forma
repetida a lo largo del capítulo:
yy Población o universo muestral es la colección de elementos o unidades de análisis
acerca de los cuales se desea información. Con frecuencia, no se puede obtener información
de toda la población, sino tan sólo de unidades que cumplen una serie de características
(criterios de inclusión/exclusión). La población marco es aquella sobre la que es posible
obtener información. La muestra se obtiene de la población marco, por lo que debe
recordarse que las conclusiones extraídas de la muestra son generalizables a la población
marco y no necesariamente a la población de inicio o universo.
yy Dentro del proceso de selección de una muestra, la población suele dividirse en unidades
de muestreo, que deben constituir una partición de toda la población. Estas unidades de
muestreo pueden coincidir con las unidades de análisis, pero también pueden estar
constituidas por un conjunto de distintas unidades de análisis.

Ejemplo 4.1  Supongamos que se desea estudiar la capacidad funcional de una población
de ancianos institucionalizados. Para ello, se dispone de un lista de residencias, algunas
de las cuales se seleccionan para el estudio. Dentro de cada residencia seleccionada, se
eligen a su vez algunos ancianos que formarán parte de la muestra definitiva. En tal caso,
la selección de la muestra se habría realizado en dos etapas: las residencias constituirían
las unidades de muestreo de primera etapa y los ancianos (unidades de análisis) serían las
unidades de muestreo de segunda etapa.

yy Muestreo probabilístico es aquel en que todas las unidades de la población tienen una
probabilidad conocida y no nula de ser seleccionadas para la muestra. El muestreo
probabilístico minimiza la probabilidad de sesgos (si el tamaño muestral no es muy
limitado, la muestra será muy probablemente representativa de la población) y permite
cuantificar el error cometido en las estimaciones como consecuencia de la variabilidad
aleatoria. La teoría del muestreo se basa fundamentalmente en el muestreo probabilístico,
ya que otros tipos de muestreo (de conveniencia, por cuotas) están sujetos a una mayor
probabilidad de sesgos y es más difícil extrapolar los resultados a la población.
yy En el muestreo con reposición, cada vez que se elige un nuevo elemento muestral se
dispone de toda la población para realizar la selección, mientras que en el muestreo sin
reposición los elementos que ya han aparecido en la muestra no están disponibles para ser
elegidos de nuevo. En el muestreo con reposición, por tanto, una unidad poblacional puede
aparecer más de una vez en la muestra. En la práctica, el muestreo suele realizarse sin
reposición. No obstante, si el tamaño de la población es muy grande con respecto al tamaño
muestral, la probabilidad de que un elemento de la población sea elegido más de una vez
en la muestra es tan pequeña que ambos tipos de muestreo son similares.

4.2  PRINCIPALES TIPOS DE MUESTREO PROBABILÍSTICO

En este apartado se describen brevemente los principales procedimientos probabilísticos de


selección de muestras, tales como los muestreos aleatorio simple, sistemático, estratificado, por

42 Pastor-Barriuso R.
Principales tipos de muestreo probabilístico

conglomerados y polietápico. Un tratamiento más extenso de estos procedimientos puede


encontrarse en los libros de muestreo referenciados al final del tema.

4.2.1  Muestreo aleatorio simple

El muestreo aleatorio simple es el más sencillo y conocido de los distintos tipos de muestreo
probabilístico. Supongamos que se pretende seleccionar una muestra de tamaño n a partir de
una población de N unidades. Un muestreo aleatorio simple es aquel en el que cualquier
subconjunto de tamaño n tiene la misma probabilidad de ser seleccionado. Puede probarse que
el muestreo aleatorio simple es un procedimiento equiprobabilístico; es decir, todas las unidades
de la población tienen la misma probabilidad n/N de ser elegidas en la muestra.
Para la selección de una muestra aleatoria simple, se enumeran previamente las unidades del
universo o población de 1 a N y a continuación se seleccionan n números distintos entre 1 y N
utilizando algún procedimiento aleatorio, típicamente mediante una tabla de números aleatorios
o un generador de números aleatorios por ordenador.
yy Las tablas de números aleatorios son tablas con los dígitos 0, 1, 2, ..., 9, donde cada dígito
tiene la misma probabilidad de ocurrir y el valor de un dígito concreto es independiente
del valor de cualquier otro dígito de la tabla. En la Tabla 4 del Apéndice se facilitan 1000
dígitos aleatorios.
yy La mayoría de los programas de análisis estadístico contienen generadores de números
aleatorios. Estos generadores producen grandes secuencias de dígitos pseudoaleatorios,
que satisfacen aproximadamente las mismas propiedades de aleatoriedad enunciadas
anteriormente.

Ejemplo 4.2  Supongamos que, en el ejemplo anterior, se dispone de una lista completa
de los N = 875 ancianos institucionalizados en dicha población, de los cuales se desean
seleccionar n = 10. La selección de una muestra aleatoria simple de este tamaño puede
realizarse a partir de la Tabla 4 del Apéndice como sigue. Comenzando en cualquier lugar
de esta tabla y leyendo grupos de 3 dígitos en cualquier dirección, seleccionar los 10
primeros números distintos entre 1 y 875. Por ejemplo, empezando en el primer dígito de
la tercera fila y de izquierda a derecha, estos números son: 339, 117, 619, 68, 440, 788,
696, 716, 183 y 546. Notar que los números 897 y 898 han sido descartados por ser
superiores a N = 875. La muestra aleatoria simple estaría así constituida por aquellos
ancianos de la población numerados previamente por estos 10 valores.

Puede probarse que, como el muestreo aleatorio simple es un procedimiento


equiprobabilístico, una media o una proporción poblacional se estiman simplemente mediante
la media o proporción muestral. La estimación de parámetros poblacionales a partir de una
muestra aleatoria simple, así como la varianza o error de las estimaciones, se discutirá en detalle
al final de este tema.

4.2.2  Muestreo sistemático

En ocasiones, la numeración consecutiva de las unidades de la población y la posterior selección


de una muestra aleatoria simple resultan muy laboriosas. En tales circunstancias, un
procedimiento alternativo más sencillo es el llamado muestreo sistemático. Bajo este
procedimiento, no siempre es necesario numerar previamente los elementos de la población,
sino que basta con disponer de alguna ordenación explícita (por ejemplo, orden de archivo de
historias clínicas o visitas sucesivas de pacientes a una consulta médica).

Pastor-Barriuso R. 43
Principios de muestreo y estimación

Para la selección de una muestra sistemática de tamaño n de una población de N unidades,


se elige aleatoriamente un número de arranque r entre 1 y k, donde k es la parte entera de N/n,
y a partir del elemento que ocupa el lugar r, se toman los restantes elementos en intervalos de
amplitud k hasta completar la muestra deseada. Así, la muestra estará constituida por los
elementos ordenados en los lugares r, r + k, r + 2k, ..., r + (n – 1)k. Como en general N no es
múltiplo de n, este método de selección no es necesariamente equiprobabilístico (si N/n no es
un número entero, las unidades comprendidas entre los lugares nk + 1 y N nunca podrán formar
parte de la muestra). Una modificación a este procedimiento, que garantiza la obtención de una
muestra equiprobabilística, consiste en seleccionar el número aleatorio de arranque r entre 1 y
N, y tomar cada k-ésima unidad a partir de ahí, continuando en el primer elemento al alcanzar
el final de la lista.

Ejemplo 4.3  Para seleccionar una muestra sistemática de tamaño n = 10 de la población


de N = 875 ancianos institucionalizados, se calcula primero la amplitud del intervalo de
selección como la parte entera de N/n = 875/10 = 87,5; es decir, k = 87. Si se seleccionara
el número de arranque r entre 1 y 87, el último anciano seleccionado ocuparía en el lugar
r + (n – 1)k = r + (10 – 1)87 = r + 783, que sería siempre inferior o igual a 870 (dado que
r ≤ 87). En consecuencia, los ancianos en los lugares 871 a 875 nunca podrían formar
parte de la muestra. Para asegurar un muestreo equiprobabilístico, el número de arranque
se selecciona aleatoriamente entre 1 y 875. Suponiendo que este número de arranque fue
r = 427 y tomando intervalos de amplitud k = 87, la muestra sistemática quedaría integrada
por aquellos ancianos en los lugares 427, 514, 601, 688, 775, 862, 74, 161, 248 y 335.

En el muestreo sistemático, la ordenación de los elementos de la población determinará las


posibles muestras. En consecuencia, este orden ha de estar exento de cualquier periodicidad
relacionada con las variables a estudio. Así, por ejemplo, si para estimar el nivel de contaminación
atmosférica en una ciudad se toma una muestra sistemática de días con k = 7, la muestra estará
formada por los mismos días de la semana y presentará un claro sesgo por falta de
representatividad. No obstante, estas periodicidades son muy infrecuentes en la práctica y
pueden solventarse con facilidad (en el ejemplo anterior, bastaría con utilizar un intervalo de
selección distinto de 7). En general, si la ordenación de las unidades de la población es
esencialmente aleatoria, la estimación de parámetros y sus correspondientes errores en un
muestreo sistemático se realiza igual que en un muestreo aleatorio simple.

4.2.3  Muestreo estratificado

En los muestreos anteriores, las muestras se seleccionan por procedimientos puramente


aleatorios. Así, si el tamaño muestral es suficientemente grande, la muestra será muy
probablemente representativa de la población. Sin embargo, no existe una garantía absoluta de
que la muestra finalmente seleccionada sea representativa para cualquier variable de interés.
Cuando se desea asegurar la representatividad de determinados subgrupos o estratos de la
población, la alternativa más sencilla es seleccionar por separado distintas submuestras dentro
de cada estrato. Este procedimiento de selección se conoce como muestreo estratificado. Los
estratos han de definir subgrupos de población que sean internamente homogéneos con respecto
a la característica o parámetro de interés y, por tanto, heterogéneos entre sí. En la práctica, los
estratos se definen en función de variables fáciles de medir previamente y relevantes para el
tema objeto de estudio (por ejemplo, edad, sexo, raza o área geográfica de residencia). En
general, el número de estratos ha de ser reducido (rara vez resulta eficiente utilizar más de 5
estratos) y el tamaño por estrato no debe ser muy pequeño.

44 Pastor-Barriuso R.
respectivamente, cuya suma será igual al tamaño total n de la muestra. La selección

dentro de cada estrato suele realizarse por muestreo aleatorioPrincipales


simple otipos
sistemático, y el
de muestreo probabilístico

procedimiento se denomina entonces muestreo aleatorio estratificado.


Para
Enlaelselección
muestreode una muestraesestratificada
estratificado, de tamañocómo
necesario determinar n, lasepoblación
distribuyedeelNtamaño
unidades se
divide en K estratos de tamaños N1, N2, ..., NK, cuya suma es igual a N. Los estratos son
mutuamente excluyentes
muestral total n entre losy distintos
exhaustivos, de tal
estratos; formalaque
es decir, cada elemento
asignación de la población
de los tamaños
pertenece a uno y sólo a uno de los estratos. Una vez determinados estos estratos, se selecciona
pormuestrales
separado unan1, nmuestra de cada estrato de tamaño n1, n2,de nK, respectivamente,
...,asignación en función cuya
del suma
2, ..., nK. Aunque existen distintos tipos
será igual al tamaño total n de la muestra. La selección dentro de cada estrato suele realizarse
portamaño
muestreo aleatoriopor
y varianza simple o sistemático,
estrato y el procedimiento
(véase referencias al final del se denomina
tema), entonces muestreo
nos limitaremos aquí
aleatorio estratificado.
a laelasignación
En proporcional,
muestreo estratificado, esque es el procedimiento
necesario determinar cómoutilizado con mayor
se distribuye frecuencia.
el tamaño muestral
total n entre los distintos estratos; es decir, la asignación de los tamaños muestrales n1, n2, ..., nK.
En la asignación
Aunque proporcional,
existen distintos tipos delaasignación
muestra total
en se repartedel
función entre los estratos
tamaño de forma
y varianza por estrato
(véase referencias al final del tema), nos limitaremos aquí a la asignación proporcional, que es
proporcional alutilizado
el procedimiento tamaño de concada estrato
mayor en la población.
frecuencia. Así, comoproporcional,
En la asignación la proporción la muestra
total se reparte entre los estratos de forma proporcional al tamaño de cada estrato en la población.
Así,poblacional en cada estrato
como la proporción es Nk/N,enel cada
poblacional tamaño muestral
estrato es Nkdel
/N, estrato
el tamañok-ésimo será del estrato
muestral
k-ésimo será
Nk
nk = n .
N
Resulta inmediato probar que esta asignación da lugar a una muestra equiprobabilística.
Resulta inmediato probar que esta asignación da lugar a una muestra equiprobabilística.
Ejemplo 4.4  La capacidad funcional de los ancianos disminuye en gran medida con la
edad. Supongamos que, de los N = 875 ancianos institucionalizados, se sabe que el 60%
Ejemplo
tienen menos4.4 deLa
75capacidad
años (N1 =funcional
525) y elderestante
los ancianos disminuye
40% tienen 75 o en
másgran medida
años (N2 = 350).
Para simplificar la exposición, supongamos además que los ancianos menores de 75 años
con la edad.aSupongamos
corresponden los primerosque, los N = 875
525denúmeros de ancianos institucionalizados,
la lista. Así, de los n = 10seancianos
seleccionados por muestreo aleatorio simple en el Ejemplo 4.2, la mitad resultaron ser
sabe que
mayores de el
7560%años.tienen
Esto menos
es, por de 75 años
simple (N1 = 525)aleatoria,
variabilidad y el restante 40% tienen
los mayores 75 años
de 75 o
están ligeramente sobrerrepresentados en la muestra y, en consecuencia, la capacidad
más años
funcional (N2 =obtenida
media 350). Parade simplificar
esta muestrala exposición, supongamos
podría infraestimar además que
la verdadera los
capacidad
funcional de los ancianos institucionalizados. Para asegurar una mejor representatividad
ancianos
muestral pormenores de 75
edad, podría años corresponden
realizarse un muestreoaestratificado
los primeroscon 525asignación
números de la lista.
proporcional
a ambos estratos de edad. Es decir, de la muestra de tamaño n = 10, seleccionaríamos 6
ancianos los n = 10
Así, demenores deancianos
75 años seleccionados
(n1 = nN1/N = por muestreo
10·0,6 = 6) yaleatorio
4 mayores simple en años
de 75 el (n =
2
nN2/N = 10·0,4 = 4). Utilizando un muestreo aleatorio simple dentro de cada estrato, los
Ejemplo seleccionados
6 números 4.2, la mitad resultaron
entre 1 yser525mayores
fueron de 75 493,
505, años.24,Esto402,
es, por
371simple
y 265, y los 4
números seleccionados entre 526 y 875 fueron 851, 820, 717 y 696. La muestra estratificada
variabilidad
proporcional aleatoria,
estaría los mayores
formada por los 10deancianos
75 años están ligeramentea dichos números.
correspondientes
9
Cabe reseñar aquí dos características importantes del muestreo estratificado. Por un lado, la
asignación proporcional es la única que produce muestras equiprobabilísticas y, en consecuencia,
la media y proporción poblacional se estiman mediante la media y la proporción muestral. Para
cualquier otra asignación, la estimación de parámetros poblacionales requiere de la inclusión de
pesos para cada observación muestral (típicamente, el inverso de la probabilidad de selección).
Por otra parte, para un mismo tamaño muestral, el muestreo estratificado facilita estimaciones
ligeramente más precisas (con menor error) que el muestreo aleatorio simple. Este resultado es
debido a que, cuanto más homogéneos sean los estratos, más precisas serán las estimaciones en
dichos estratos y esto redundará en una mayor precisión de las estimaciones para toda la
población.

Pastor-Barriuso R. 45
Principios de muestreo y estimación

4.2.4  Muestreo por conglomerados

La aplicación de los diseños muestrales anteriores requiere de la enumeración u ordenación de


todos los elementos de la población. Sin embargo, a menudo no se dispone de una lista completa
o, aun disponiendo de tal lista, resulta muy costoso obtener información de las unidades
muestreadas. Por ejemplo, si se seleccionara una muestra aleatoria simple de 1000 individuos
de una gran ciudad, los individuos seleccionados estarían muy dispersos y la recogida de
información sería extraordinariamente laboriosa. En tales circunstancias, una alternativa
consiste en clasificar a la población en grupos o conglomerados, para así seleccionar una
muestra de estos conglomerados y después tomar a todas o a una parte de las unidades incluidas
dentro de los conglomerados seleccionados. Este método de selección se denomina muestreo
por conglomerados y presenta dos ventajas fundamentales:
yy Este muestreo es la única alternativa posible cuando no se dispone de una lista con todas
las unidades de la población. En el muestreo por conglomerados, únicamente es necesario
contar con listas de las unidades que integran los conglomerados seleccionados.
yy Aun cuando otras técnicas de muestreo sean posibles, con frecuencia el muestreo por
conglomerados resulta más económico, ya que las unidades muestrales están concentradas
en los conglomerados seleccionados.
Notar que, a diferencia de la estratificación, donde interesa que los estratos sean lo más
homogéneos posible, los conglomerados deben ser heterogéneos: en cada conglomerado debe
haber unidades representativas de toda la población, de lo contrario se perdería información al
seleccionar únicamente algunos de ellos. El número de conglomerados es típicamente elevado,
de los cuales suele seleccionarse un número relativamente pequeño para resolver el problema
de la dispersión muestral.
Supongamos que se pretende extraer una muestra de tamaño n a partir de una población de
N unidades agrupadas en M conglomerados de tamaños N1, N2, ..., NM. Entre los distintos
métodos de selección por conglomerados, el muestreo por conglomerados con probabilidad
proporcional a su tamaño resulta particularmente útil en la práctica. Para llevar a cabo este
muestreo, se procede como sigue:
1. Ordenar arbitrariamente los conglomerados y calcular los tamaños acumulados. Estos
tamaños acumulados delimitarán, para cada conglomerado, un rango de valores de
amplitud igual a su tamaño poblacional.
2. Si se pretende seleccionar m conglomerados, extraer una muestra sistemática de tamaño m
entre 1 y N. Los conglomerados seleccionados serán aquellos cuyo rango incluya alguno
de los valores muestreados.
3. Dentro de cada conglomerado seleccionado, obtener una muestra aleatoria simple o
sistemática de tamaño n/m.

Ejemplo 4.5  Con cualquiera de las técnicas de muestreo utilizadas en los ejemplos
anteriores, la muestra incluiría muy probablemente ancianos institucionalizados en
múltiples residencias, con el consiguiente inconveniente en la recogida de información.
Supongamos que los N = 875 ancianos institucionalizados se encuentran distribuidos en
M = 15 residencias con los tamaños especificados en la Tabla 4.1. Para optimizar el
trabajo de campo, se decide extraer la muestra de tamaño n = 10 a partir de m = 2
residencias (conglomerados) seleccionadas con probabilidades proporcionales a sus
tamaños.

46 Pastor-Barriuso R.
Principales tipos de muestreo probabilístico

Tabla 4.1  Distribución del número de ancianos institucionalizados por


residencia.
Residencia (i) Tamaño (Ni) Tamaño acumulado Rango asignado

1 50 50 1 – 50
2 30 80 51 – 80
3 35 115 81 – 115
4 70 185 116 – 185
5 55 240 186 – 240
6 45 285 241 – 285
7 125 410 286 – 410
8 80 490 411 – 490
9 20 510 491 – 510
10 100 610 511 – 610
11 65 675 611 – 675
12 35 710 676 – 710
13 40 750 711 – 750
14 75 825 751 – 825
15 50 875 826 – 875

En primer lugar, se asigna a cada residencia un rango de valores de amplitud igual a su tamaño
(Tabla 4.1). A continuación, se extrae una muestra sistemática de tamaño 2 entre 1 y 875: si el
número de arranque resultó ser 316, los valores muestreados son 316 y 753 (ver apartado de
muestreo sistemático). Así, como el valor 316 está incluido dentro del rango asignado a la residencia
7 y el valor 753 en el rango de la residencia 14, resultan seleccionadas las residencias 7 y 14.
Para completar la muestra de n = 10 ancianos, se extraen finalmente muestras aleatorias
simples de tamaño n/m = 10/2 = 5 de las residencias 7 y 14. De los 125 ancianos institucionalizados
en la residencia 7, se seleccionaron los números 74, 23, 104, 111 y 57; y de los 75 ancianos de
la residencia 14, los números 38, 51, 25, 34 y 41. En conclusión, la muestra total estará
formada por los ancianos listados en los lugares 74, 23, 104, 111 y 57 de la residencia número 7,
más aquellos que ocupan los lugares 38, 51, 25, 34 y 41 de la residencia número 14.

El muestreo por conglomerados con probabilidades proporcionales a sus tamaños facilita


muestras equiprobabilísticas, así la media y la proporción poblacional pueden estimarse
mediante sus correspondientes funciones muestrales. En general, para un tamaño muestral
constante, la precisión de las estimaciones en un muestreo por conglomerados es menor que en
un muestreo aleatorio simple. Las unidades de un mismo conglomerado suelen estar
correlacionadas y, en consecuencia, aportan menos información que los elementos seleccionados
de forma más dispersa mediante un muestreo aleatorio simple.

4.2.5  Muestreo polietápico


Los diseños muestrales empleados en la práctica se realizan combinando las técnicas descritas
anteriormente. En muchas situaciones, resulta más apropiado obtener la muestra final en
diferentes etapas o pasos. En un muestreo polietápico, la población se divide en grupos
exhaustivos y mutuamente excluyentes, que constituyen las llamadas unidades de primera
etapa; cada una de ellas se desagrega a su vez en subgrupos o unidades de segunda etapa, y así
sucesivamente, hasta llegar en una última etapa a los elementos o unidades de análisis. La
selección de unidades en cada una de las etapas se realiza mediante una técnica de muestreo
diferente y la muestra final será la resultante de aplicar sucesivamente cada una de estas técnicas.

Pastor-Barriuso R. 47
Principios de muestreo y estimación

Ejemplo 4.6  En el ejemplo anterior se seleccionaron 2 de las 15 residencias y, dentro de


cada residencia seleccionada, se eligieron a su vez 5 ancianos para formar la muestra
definitiva. Este procedimiento de selección es, de hecho, un muestreo bietápico: las
residencias constituirían las unidades de muestreo de primera etapa y los ancianos serían
las unidades de muestreo de segunda etapa.

Una técnica de muestreo en etapas que se emplea con cierta frecuencia es el muestreo
estratificado polietápico. Bajo esta técnica, las unidades de primera etapa se clasifican en
distintos estratos y, dentro de cada estrato, se selecciona al menos una de sus unidades de
primera etapa. La muestra final resultará de aplicar sucesivas etapas de muestreo dentro de las
unidades de primera etapa seleccionadas en cada estrato. Este muestreo permite obtener una
mayor representatividad muestral al seleccionar unidades dentro de todos los estratos.

Ejemplo 4.7  Supongamos que, de las 15 residencias listadas en la Tabla 4.1, las
residencias 4, 7, 8, 10 y 14 son públicas, con un total de 450 ancianos (51,4%), y las
restantes 10 residencias son privadas, con un total de 425 ancianos (48,6%). En el Ejemplo
4.5, las 2 residencias seleccionadas (7 y 14) fueron públicas; es decir, la muestra final no
incluyó a ningún anciano institucionalizado en residencias privadas. Para garantizar la
representatividad de los ancianos institucionalizados tanto en residencias públicas como
privadas, bastaría con seleccionar una residencia de cada uno de estos estratos. En la
Tabla 4.2, se muestran las 15 residencias reorganizadas según su carácter público o
privado. Para las residencias públicas, se escogió aleatoriamente el número 20 entre 1 y
450, resultando así seleccionada la residencia 4, cuyo rango incluye dicho número. Para
las residencias privadas, se extrajo aleatoriamente el número 326 entre 1 y 425, resultando
seleccionada la residencia 12. A continuación, se procedería a escoger aleatoriamente 5
ancianos de estas 2 residencias. Notar que, como ambos estratos tienen aproximadamente
el mismo tamaño, la muestra resultante sería equiprobabilística.

Apuntar, por último, que en la mayoría de los muestreos polietápicos el error muestral es
sensiblemente superior al de un muestreo aleatorio simple, debido principalmente a la correlación
entre los elementos que integran las unidades de primera etapa.

Tabla 4.2  Distribución del número de ancianos institucionalizados en


residencias públicas y privadas.
Residencia (i) Tamaño (Ni) Tamaño acumulado Rango asignado
Pública
4 70 70 1 – 70
7 125 195 71 – 195
8 80 275 196 – 275
10 100 375 276 – 375
14 75 450 376 – 450
Privada
1 50 50 1 – 50
2 30 80 51 – 80
3 35 115 81 – 115
5 55 170 116 – 170
6 45 215 171 – 215
9 20 235 216 – 235
11 65 300 236 – 300
12 35 335 301 – 335
13 40 375 336 – 375
15 50 425 376 – 425

48 Pastor-Barriuso R.
puede realizarse con múltiples propósitos, nos centraremos aquí en la estimación de una
Estimación en el muestreo aleatorio simple
media y de una proporción poblacional.

4.3  ESTIMACIÓN
4.3.1 EN EL de
Estimación puntual MUESTREO
una media ALEATORIO
poblacional SIMPLE

Una vez descritas


Supongamos que las x1, xprincipales técnicas de muestreo probabilístico, nos ocuparemos a
2, ..., xn son los valores obtenidos en una muestra de tamaño n
continuación de la estimación de parámetros poblacionales. En adelante, se asume que la
muestra
parámetro
para se ha
una obtenido
poblacional
variable con mediante
se le denomina
media un muestreo
poblacional μ y aleatorio
estimador, varianza simple
y al resultado a partir
σ 2 desconocidas.de aplicarde Ununa
dichapoblación de
estimador
tamaño esencialmente infinito.
función
El cálculo
natural a una
de ladel determinada
media exactomuestra
valorpoblacional de μ unesse lalemedia
parámetro estimación.
llama muestral poblacionalAún cuando
requiere delelconocimiento
muestreo del
valor de la variable objeto de estudio para todos y cada uno de los elementos de la población.
Comopuede se realizarse
ha comentado con múltiples
anteriormente, propósitos, en la nos mayoría centraremos aquí en la no
de las ocasiones estimación
se dispone de una
de esta
1.2 MEDIDASsino DE TENDENCIA CENTRAL 1 n
información, que se cuenta tan sólo con x =  xi .
una muestra. A la función de los valores de una
media
1.2 y
MEDIDAS de una proporción
DE TENDENCIA
muestra que permite hacerse una idea acerca del valorpoblacional. CENTRAL n i =1 del parámetro poblacional se le denomina
estimador, y al resultado de
Las medidas de tendencia central informan acerca de cuálaplicar dicha función a unaes eldeterminada muestra se le llama
valor más representativo
estimación.
4.3.1
Las medidas Aúndecuando
Estimación puntual
tendencia el muestreo puede
mediarealizarse
de completamente
central unainforman poblacional
acerca concuál
de múltiples
esuna propósitos,
el valor nos centraremos
más representativo
Esta media muestral quedará determinada vez obtenida la muestra,
aquí en la estimación de una media
de una determinada variable o, dicho de forma equivalente, y de una proporción poblacional.
1.2estos
MEDIDAS estimadores indican
DE TENDENCIA CENTRAL
Supongamos
de
perounaeldeterminada que x
valor de la estimación , x ,
1variable
2 ..., x o, son los valores obtenidos
n dicho de forma equivalente, estos estimadores indican en
variará en función de la muestra seleccionada. Así, la una muestra de tamaño n
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia
4.3.1  Estimación puntual de una media poblacionalLas2medidas de tendencia central informan acerca de c
para una
alrededor
media variable
de quépuede
muestral con media
valor se agrupanpoblacional
considerarse loscomo
datos μuna variableσ aleatoria,
yobservados.
varianza Lasdesconocidas.
medidas cuyo Un estimador
de valor
tendencia
dependerá
central de la muestra sirven tanto para
Supongamos que x1, x2, ..., xn son los valores obtenidosdeenuna resumir los resultados observados
unadeterminada como
muestra de variable para n para una
tamaño o, dicho de forma equival
central de
dela lamuestra sirven tanto para
es laresumir los resultados Unobservados
natural
variable
de con
la muestra media media poblacional
poblacional
finalmente μ y μvarianza
seleccionada media
sobre muestral
σ 2 desconocidas.
todas las posibles muestrascomo
estimador natural para
de tamaño de lanmedia
de
realizar inferencias
poblacional μ es laacerca mediade los parámetros poblacionales correspondientes. A
muestral alrededor de qué valor se agrupan los datos observado
realizar inferencias acerca de los parámetros poblacionales correspondientes. A
1.2 MEDIDAS DE la población
TENDENCIA de referencia.
CENTRAL A la distribución 1 de
n los valores de x sobre todas las posibles
continuación se describen los principales estimadores x =  x i . central de la central
de la tendencia de una
muestra sirven tanto para resumir los resu
continuación se describen los principales estimadores n i =1 de la tendencia central de una
muestras central
Las medidasvariable.
de tendencia del mismo informantamaño se lede
acerca cuál es eldistribución
denomina valor más representativomuestral de x . Las razones
Esta media muestral quedará completamente determinada realizarvez
una obtenidaacerca
inferencias la muestra,
de lospero el
parámetros poblacion
variable.
valor de la estimación variará en función de la muestra seleccionada. Así, la media muestral
Esta
teóricasmedia muestral
queo,justifican quedará completamente determinada una vez obtenida la muestra,
de una determinada variable dicho dela utilización
forma equivalente, de la media muestral como
estos estimadores indicanestimador de la media
puede
1.2.1 considerarse
Media aritmética como una variable aleatoria, cuyo valor dependerásededescriben
continuación la muestra losfinalmente
principales estimadores
seleccionada
1.2.1
pero Media
el valorde entre
aritmética
de la todas
estimación las posibles
variará muestras
en función de detamaño
la muestran en esta distribución muestral. A
de la población
seleccionada. de referencia.
Así, la
alrededor de qué poblacional,
valor se agrupan frente losa datos
otros observados.
posibles estimadores, Las medidas se basan
de tendencia
Lalamedia
distribución
aritmética, de los valorespor
denotada de x ,sobre se define todascomo las posibles
la suma muestras
variable.cada uno
de delde mismo
los tamaño se le
denomina
La media
media distribución
aritmética,
muestral puede muestral
denotada
considerarse por de xcomo
., Las razones
se define
una variable como teóricas quede
laaleatoria,
suma justifican
cada uno
cuyo lade
valor utilización
los
dependerá de la
central de la muestraAsirvenpartir de los
tanto resultados
para resumirdel los Apartado
resultados3.4, el valor
observados esperado
como parade la distribución
media muestral como estimador de la media
valores muestrales dividida por el número de observaciones realizadas. Si denotamospoblacional, frente a otros posibles estimadores, se
1.2.1 Media aritmética
basan
de laenmuestra
valores
muestral esta distribución
muestralesx finalmente
dividida
esparámetros muestral.
seleccionada
por el número sobre de todas las posibles
observaciones tamaño n de
muestrasSidedenotamos
realizadas.
realizar inferencias acerca de de los poblacionales correspondientes. A
por nAelpartir
tamaño de losmuestral
resultados y por delxiApartado
el valor observado
3.4, el valorpara esperadoel sujeto de la i-ésimo, i = 1,muestral
distribución ..., n, de es
La media aritmética, denotada por x , se define como
n el tamaño
la población
por de muestral
referencia. A laxidistribución
y por el valor observado de los valores para el de x sobre
sujeto i-ésimo,todas i =las1, posibles
..., n,
continuación se describen los principales estimadores de nla tendencian central de una
la media vendría dada por 1  1
E( x ) = E   x i  = valores E ( x i ) =muestrales
μ; dividida por el número de observac
lamuestras
media vendría
del mismo dadatamaño por se le denomina  n distribución
 n muestral de x . Las razones
variable. i =1 i =1

1 n x +variablex 2 + ... +aleatoria


xpor n el están
tamaño y por xi el
muestralalrededor devalor
su observado pa
es teóricas
decir, lasque medias muestrales
justifican = decualquier
laxutilización x i n=de 1la media muestral
x1 +n x 2 +equivalente,
n
.
... + x n como centradas
estimador de la media
1
nxo,=i =de
verdadera
es decir, media
1.2.1 Media aritmética
sobreestiman
las medias
nifrente
poblacional
infraestiman
muestrales
n

1dicho x i de
cualquier = forma variable aleatoria
n la media
las medias
están
. vendría centradas
dada por
muestrales
alrededorno
poblacional, a otros sistemáticamente
posiblesi =estimadores,
1 la media se basan poblacional. En términosmuestral.
en esta distribución estadísticos,
seLa
La media aritmética,dice
demedia entonces
denotada
su verdadera que
por
es la medida x es
, seun estimador
define
mediadepoblacional como
tendencia central centrado
la suma
o, dicho más de o insesgado
cada
deutilizada uno
forma equivalente, de delosμ.
y de más fácil La conveniencia
las medias muestrales de utilizar
estimadores
A partir insesgados
deeslos parece
resultados clara ya que,
del Apartado en
3.4,caso contrario,
el valor esperado ylas
deestimaciones
de la fácil
distribución del parámetro
1 n x + x 2 + ...
valores muestrales
La
poblacional
media
dividida estarían
por
la medida
el número
de tendencia
sistemáticamente
de observaciones
central
sesgadas
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su
más
respecto
realizadas.
utilizada
a
Si su verdadero
denotamos
más
valor. Otras x = 
medidas
n i =1
xi = 1
n
muestrales
muestral de tendencia
x es central, como la mediana
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su o la media geométrica, son en general
16
por n el tamaño estimadores
muestral y sesgados
por x el de
valor la media
observado poblacional.
para el
principal limitación es que está muy influenciada por los valores extremos y, en este
i sujeto i-ésimo, i = 1, ..., n,
La media es la medida de tendencia central más uti
principal limitación es que está muy influenciada 1 n
 1 porn los valores extremos y, en este
la media vendría
caso,dada porno ser
Ejemplo
puede 4.8  Supongamos
un fiel reflejoE( xde ) que
=laEtendencia
 n

el grupo

= del
x i control
central
n
de estudio
E (la = μ EURAMIC
x i )distribución.
interpretación.
;
Corresponde
constituye toda la
al “centro de gravedad” d
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. μ = 1,09 mmol/l.
población o universo a estudio, cuya media
i =1 poblacionali =1 del colesterol HDL es
1 n x + x 2 + ... + x n principal limitación es que está
Ejemplo 1.4
es decir, las medias
x =En este x iy=en 1los sucesivos .
ejemplos sobre estimadores muestrales, se muy influenciada por l
n i =1 muestrales den cualquier variable aleatoria están centradas alrededor
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
utilizarán los valores caso, lospuede no ser un fielPastor-Barriuso
reflejo
del de la R. tendencia centra
media del colesterolo,HDL dichoobtenidos
de formaen 10 primeros sujetos 49
de su verdadera poblacional equivalente, las medias muestrales
La media es la medida utilizarán
de tendencia los valores central delmás colesterol
utilizada HDL y deobtenidos
más fácilen los 10 primeros sujetos del
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of
Ejemplo 1.4 En este y en los sucesivos ejemplos
realizar continuación se describen
inferencias acerca de los parámetrosrealizar
los principales inferencias
estimadores
poblacionales acerca
de de los parámetros
la tendencia
correspondientes. central de poblac
A una

Principios de muestreo variable.


continuación
y estimación se describen continuación
los principales estimadores dese
la describen
tendencia los principales
central de una estimador

variable. variable.
1.2.1 Media aritmética
A partir de esta población, se obtienen 1000 muestras aleatorias simples de tamaño n = 10
y, en cada1.2.1
una Media
deLa ellas, se calcula
aritmética
media la media
aritmética, denotada por 1.2.1
muestral seMedia
x ,del colesterol
define comoaritmética
HDL. El histograma
la suma de cada uno de los
de estas medias muestrales se representa en la Figura 4.1(a), que constituye una
aproximación a lavalores
La media distribución
aritmética, muestral
denotada
muestrales por
dividida ., Como
de xpor Lapuede
seeldefinemedia
número como de aritmética,
apreciarse,
la suma de
observaciones denotada
los unopor
valores
cada x Si
de los
realizadas. , sedenotamos
define com
difieren entre las distintas muestras, pero su distribución conjunta está centrada alrededor
de la verdadera
valoresmedia
por n elpoblacional
muestrales tamaño μ por
= 1,09
muestral
dividida mmol/l valores
por xi elde
elynúmero (línea
valor muestrales
vertical
observado
observaciones dividida
en realizadas.
trazo
para por el número
eldiscontinuo).
sujeto i-ésimo,
Si denotamos i =de1,observ
..., n,
En las Figuras 4.1(b) y (c) se presentan las distribuciones muestrales de la mediana y la
media geométrica
por n el lapara estas
media
tamaño mismas
vendría
muestral y muestras.
dada Ambas
xi el valor
porpor por n el tamaño
distribuciones
observado muestral
para elmuestrales por xii el
y presentan
sujeto i-ésimo, = 1,valor observado
..., n,
un claro sesgo respecto a la media poblacional, tendiendo a infraestimar su verdadero
valor de 1,09 mmol/l.
la media vendría dada por la media vendría dada por
1 n x + x + ... + x n
Notar que el interés de este ejemplo es meramente x=  x i = 1 ya2 que, en la
académico . práctica, se
n i =1 n
desconoce la verdadera media poblacional1y nse dispone x + de x 2 una
+ ... única
+ x n muestra. 1 n x + x2 +
x =  xi = 1 . x =  xi = 1
n n n i =1 n
La media es la medida dei =1tendencia central más utilizada y de más fácil
25
interpretación.
La media Corresponde
es la medida de tendencia centralLa
al “centro demedia es la yde
gravedad”
más utilizada medida
delos defácil
datos
más tendencia centralSumás u
de la muestra.
20
15 interpretación. Corresponde alextremos
“centro
principal
interpretación. limitación es
Corresponde al que estáde
“centro muy influenciada
gravedad” de lospor los valores
datos de la muestra. Sude
y,gravedad”
en este
10
5 caso,
principal puede no
limitación ser un
es que estáfiel
muyreflejo deprincipal
porlimitación
la tendencia
influenciada loscentralesde
valores que está muy
y, eninfluenciada
la distribución.
extremos este po
0
caso, puede
caso, puede no ser un fiel reflejo de la tendencia centralno
deser un fiel reflejo de la tendencia cen
la distribución.
0,7 Ejemplo
0,8 0,9
1.4 En 1este y1,1
en los1,2 1,3 ejemplos
sucesivos 1,4 1,5
sobre estimadores muestrales, s
Frecuencia relativa (%) en muestras de tamaño 10

(a) Media muestral del colesterol HDL (mmol/l)


Ejemploutilizarán
1.4 En este
losyvalores del colesterol
en los sucesivos Ejemplo 1.4estimadores
HDL sobre
ejemplos En este
obtenidos y en
en los los sucesivos
10muestrales,
primeros se ejemp
sujetos de
25
estudio
utilizarán “European
los valores Study onHDL
del colesterol utilizarán
Antioxidants,
obtenidos enloslosvalores
Myocardial del colesterol
Infarction
10 primeros HDL
del obte
and Cancer
sujetos of
20
15estudio the Breast“ Study
“European on Antioxidants,
(EURAMIC), estudio “European
Myocardial
un estudio Study
Infarction
multicéntrico andyonCancer
de casos Antioxidants, My
of realizado
controles
10
5the Breast“
entre(EURAMIC),
1991 y 1992 un
en estudio
ocho países the Breast“
Europeos
multicéntrico (EURAMIC),
e Israel
de casos para un realizado
evaluar
y controles estudio
el efectomulticén
de los
0
entre 1991 y 1992 en ocho países Europeosentre 1991
e Israel y 1992
para en ocho
evaluar países
el efecto de Europeos
los e
0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5

(b) Mediana del colesterol HDL (mmol/l)


5

25
20
15
10
5
0

0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5


(c) Media geométrica del colesterol HDL (mmol/l)
Figura 4.1  Distribución muestral de la media aritmética (a), la mediana (b) y la media
Figura 4.1geométrica (c) del
colesterol HDL en 1000 muestras aleatorias simples de tamaño n = 10 obtenidas a partir del grupo control
del estudio EURAMIC. La línea vertical en trazo discontinuo corresponde a la media poblacional μ = 1,09
mmol/l de colesterol HDL.

50 Pastor-Barriuso R.
centralestándar
4.3.2 Error de la muestra
de la sirven
media tanto para resumir los resultados observados como para
muestral

realizar
Dado que inferencias
la media acerca
muestral es unde los parámetros
estimador poblacionales
insesgado de la media correspondientes.
poblacional,
Estimación todas A simple
en el muestreo aleatorio

continuación
las posibles se describen
medias muestrales los principales
estarán distribuidas estimadores
alrededor de de la la tendencia
media poblacional. central de una
4.3.2  Error estándar de la media muestral [Figura 4.2 aproximadamente aquí]
variable.
No obstante, queda por determinar el grado de variabilidad o dispersión de estas medias
Dado que la media muestral es un estimador insesgado de la[Figura media4.2 aproximadamente
poblacional, todas las aquí]
muestrales
posibles medias alrededor
1.2.1 Media muestrales de μ
aritméticaestarán distribuidas alrededor de la media poblacional. No obstante, muestras, las
. La Aun
dispersión cuando de en
las la
mediaspráctica carece
muestrales de x sentido
de tamaño tomar n repetidas
queda por determinar el grado de variabilidad o dispersión de estas medias muestrales alrededor
de vendrá determinada
μ. La dispersión
La de las
media aritmética, pormedias propiedades
la varianza Aun
muestrales
denotada depor su de
cuando laseen
distribución
x ,de distribución
tamaño la práctica
define muestral,
n vendrá
como muestral
carece
la sumaquede
determinadade
es xcada
desentido
igual pueden tomar
apor
uno utilizarse
lade repetidas
varianza
los para cuantifica
muestras, las
de su distribución muestral, que es igual a
valores muestrales dividida propiedades
cometido por en la de
el número la distribución
estimación a partirmuestral
de observaciones de una de x pueden
única
realizadas. muestra utilizarse
Si denotamos de tamaño para cuantifi
n. La desvi
1 n  1 n σ2 ,
var( x ) = var  x i  = 2  var( x i ) =
1.2 MEDIDAS DE TENDENCIA  n de n observado nde
por n el tamañoCENTRAL muestral estándar
cometido
y por ix=1 el
i
la distribución
envalor
la estimación i =1 muestral
a partir
para el x esúnica
desujeto
una i-ésimo, muestrai = 1,de ...,tamaño
n, n. La des
[Figura 4.2 aproximadamente 1.2 MEDIDAS aquí] DE TENDENCIA CENTRAL
dado que los distintos valores de la muestra son independientes (véase Apartado 3.4). Puede
la que
media vendría dadadepor estándar de de la es distribución muestral de x es
Las medidas de
dadotendencia
observarse que loscentral
la informan
variabilidad
distintos valores acerca
delaslamedias
muestra cuál sonelindependientes
muestrales valorserá más representativo
tanto mayor Apartado
(véase cuanto mayor σ sea la
3.4).
Las medidasSE( x )
de var( x ) =
=tendencia central ,
varianza poblacional σ de la variable a estudio. Por otra parte, esta variabilidad n informan acerca de c
disminuye
2
Aun cuando en la práctica carece de sentido tomar repetidas muestras, las
de una determinada
Puede variable
conforme aumentao, el
observarse dicho
que lade
tamaño forma
n de equivalente,
variabilidad la muestra;
de1lasn medias estos
es decir, estimadores
+ xal
x1 muestrales aumentar xindican
será el tamaño
tanto mayormuestral,cuantoσ las
2 + ... +SE( n x) = var( x ) =o, dicho , de forma equival
medias de las distintas muestras estarán
propiedades de la distribución muestral nde x pueden utilizarse
1.2 MEDIDAS DE
x =
más
TENDENCIA
 x
próximasi = de
a la
CENTRAL
una determinada
verdadera para . media variable
cuantificarpoblacional. el
n de la distancia de las distintas medias muestrale errorn
alrededor de quémayor valorseaselaagrupan datosque
varianzalospoblacional facilita
σ 2 deun
observados. i =1valor promedio
laLas variablemedidas de tendencia
a estudio. Por otra parte, esta
cometido
Ejemplo en4.9 
la estimación
En las Figuras a partir de una
4.2(a), (b)únicay (c)muestra alrededor
se presentan de tamaño de medias
las qué n. valor
Ladel se
desviaciónagrupan HDL
colesterol los datos observado
central de la muestra
variabilidad
en 1000sirven tanto
Las es
La disminuye
media
muestras para
medidas
la resumir
medida
conforme
aleatorias tamaño
que los
de tendencia
de n
facilita respecto
resultados
tendencia
aumenta
simples un
central
de de
valor
central
el tamaño
tamaño la
observados medida
promedio
informannmás poblacional.
comode
acerca
nde= utilizada
la10, la
25 de
muestra; distancia
para
yy cuál
de
es más
100, Esta de valor másSE(
cantidad
las
esrespectivamente,
decir, el
fácil
al distintas xmedias
) se conoce
representativo c
muestra
estándar
obtenidasde laadistribución
partir de losmuestral [Figurade4.2
controles x aproximadamente
del esestudio EURAMIC. central de aquí] laEn muestraestas sirven gráficastanto se puedepara resumir los resu
realizar inferencias
aumentar acerca de
interpretación.
apreciar el tamaño los parámetros
que,deindependientemente
una determinada
Corresponde
muestral, tamaño
error estándar
poblacionales
las medias n
variable
al “centro respecto
deldetamaño de la
o,dedicho
las de
gravedad”
distintas la
media
correspondientes. medida
de forma
muestral, muestral
de las
muestras poblacional.
A y
equivalente,
los datospermite
estarán
medias demás Esta
estos
la cantidad
cuantificar
estimadores
muestra.
próximas
muestrales Suel SE(
están grado x ) de
se incertid
indican conoce
centradas alrededor de la media poblacional de 1,09 realizar
mmol/l. inferencias
Sin embargo, acercaalde los parámetros
aumentar el poblacion
continuación se describen los principales
alrededor la error
estimación
estimadores
deesqué valor estándar
se de dela
agrupan una de
tendencia la
media
los σ
media a muestral
partir
central de
de y
una
una permite
muestra cuantificar
de tamaño n.
tendencia de incer
el grado
Aun
a latamañoprincipal
cuando
verdadera limitación
en
media
muestral, lase práctica
poblacional.
observa que SE(
carece
una está xde)muy=sentido
disminución influenciada
var( xtomar = datos
)substancial ,porobservados.
repetidas los
de la valores
muestras,
variabilidad Las lasmedidas
extremos de las y, en deeste
medias
muestrales. Así, por ejemplo, la proporción de muestras n con unse
continuación niveldescribenmedio los principales estimadores
de colesterol
variable. caso,
propiedades
HDL entre puede central
de1,03 no de un
ser
la distribución
y 1,15 la la
muestraEn
fielmuestral
mmol/l la
reflejo
es del práctica,
estimación
sirven de latanto
de
48,7% de para
una
x tendencia
pueden
para para poder
media=resumircalcular
central
n utilizarse a
10, 69,1%partir
los
de
para el
de error
una
resultados
lapara estándar,
muestra
n = 25observados
distribución.
cuantificar y el de estamaño
error
95,4% comon.para
necesario
para obtener
=Ejemplo
100. un 4.9
quenfacilita valor Enpromedio
las Figuras de En4.2(a),
la distancia (b) y de (c)las se variable.
presentanmedias
distintas las medias muestrales del colesterolde es
cometido en la realizar
estimación a previamente
inferencias
partir la
acerca
de una práctica,
una
de
única los para
estimación
parámetros
muestra poder de
de calcular
la varianza
poblacionales
tamaño n.el Laerror
poblacionalestándar,
correspondientes.
desviación σ 2 denecesario
la variable
A obtener
a estu
1.2.1 Media aritmética
HDL enEjemplo 1.4 En este y en los sucesivos ejemplos nSE(=sobre estimadores muestrales, se
Aun
tamaño cuando en1000
n respecto demuestras
la práctica la medida aleatorias
carece de sentido
poblacional. simples tomar
Esta decantidad
tamaño
repetidas
1.2.1 Media 10,
muestras, 25
x )aritmética
se ylas
conoce 100, propiedades
como de la
previamente una estimación de la varianza poblacional σ 2 poblacional
de la variable 2a e
estándar
distribución
La media aritmética, de la continuación
distribución
muestralpor
denotada de x ,pueden que
se
muestral
se define este
describen
utilizarsede
como laparámetro
x los
paraes
suma es
principales
cuantificar típicamente
de cada el estimadores
uno error
de los cometido en la estimación a de una σ pu
desconocido. de la La
tendencia varianza central
1.2 MEDIDAS DEúnica utilizarán los
TENDENCIA valores adel colesterol HDL obtenidos en losEURAMIC. 10 primerosEn sujetos del
partir
error respectivamente,
de una
estándarmuestra de la media de CENTRAL
obtenidas
tamaño
muestral n.partir
La de los controles
y desviación
permite estándar
cuantificarLa media del el estudio
de laaritmética,
gradodistribución muestralpor
denotada
de incertidumbre deenx ,esse define como2
variable.
valores muestrales dividida por el número de observaciones realizadas. que
estimarse este a parámetro
partir de es
la típicamente
propia muestra
Si denotamos desconocido.
mediante la La varianza
varianza poblacional σ
muestral
estudio se “European Study on Antioxidants, σ Myocardial Infarction and Cancer of
Las medidas deestas gráficas
tendencia
la estimación de central
una media puede
informana apreciar
SE(
partir x )que,
acerca
de = de
una independientemente
cuálxes
var(
muestra ) =el valores
de valor , más
tamaño n.del
muestrales tamaño
representativo divididamuestral, por ellasnúmero de observac
estimarse a partir de lai-ésimo, n
propia muestra mediante la varianza muestral
por n el tamaño muestral y por xi elMedia
1.2.1 valor observado
aritmética para el sujeto i 2= 1, ..., 1 n, ny controles
de una que medias
facilita
determinada un
the Breast“
muestrales
valor para
variable
En la práctica, promedio
o, dicho
(EURAMIC),
están
poderde de centradas
la distancia
forma
calcular
unalrededor
estudio multicéntrico
el errordeestándar,
equivalente, las estosde la
pores
distintas media s
n necesario
elmedias
tamaño
estimadores
de casos
poblacional
= 
muestral
muestrales
indican
obtener
n − 1 i =1
(de 1,09
x i y− por
de
2 realizado
x )tamaño
x. i el valor n observado pa
la media vendría quedada
respecto de por
facilitala medida
un valor
La media poblacional.
promedio aritmética, deEsta cantidadde
la distancia
denotada SE(
por lasx )distintas
, se conoce
define como
medias
como la1error
sumaestándar
muestrales n de de cada2 uno de lade los
alrededor de
media quémmol/l.
valor
muestral
entre
y Sin
se
1991
embargo,
agrupan
permite
y 1992
los al
datos
cuantificar
en ocho países
aumentar
observados.
el grado
previamente una estimación de la varianza poblacional σ de la variable
el tamaño
de
Europeos
Las muestral,
la
medidas
incertidumbre
e2Israel
media dese
en
para
observa
s
vendría
2
=
tendencia
la
evaluar
dada
estimación una  por
n − 1ai =estudio,
(el
xde
i
efecto
− x
una )
dado .de los
media
a partir
tamaño de una muestra
n respecto dedenlamuestrales
valores tamaño
medida Puede probarsepor
n.poblacional.
dividida que
Esta el lanúmero
varianza
cantidad de muestral
SE( x ) se conoce
observaciones es un 1estimador como insesgado
realizadas. Si denotamos de la varia
disminución 1
substancial x1de + xla2 variabilidad
+ ... + x n de las medias muestrales. Así, por
central de que
la muestra
En laeste
sirven
parámetro
práctica, xpara tanto
= espoder
nnlael
para
típicamente resumir
x i =calculardesconocido.
el
los resultados
error estándar,
nprobarse
. La varianza observados
es necesario
como
poblacional para
obtener
2
σ puede 1 una
2 previamente
n 5x + x + ...
error
estimación estándar por
de la varianza
ejemplo, la
de i=
proporción
1 tamaño
media poblacional;
Puede
muestral
muestral
poblacionalde muestras
y
2y permite
σ de con
espor decir,
que
la variable
un
x el el
la
cuantificar
i
nivel
valor
varianza
valoramedio
esperado
observado
estudio, el muestral
grado
de dado para
de
colesterol
ses
que este
sobre
elun sujeto
incertidumbre
HDL
todas
estimador
xi-ésimo,
parámetro
entre
=
n
en 
sobre
es
todas
insesgado
xi = 1 las
de posib
i 1, ..., n,
= 2la var

n
realizar inferencias acerca
a partirde
estimarse desconocido. delos parámetros
la propia muestra poblacionales
mediante laσcorrespondientes.
varianza muestralA i =1
típicamente La varianza poblacional 2 2 puede estimarse a partir
2
2 de la propia
eslalaestimación dela media vendría poblacional;
amuestrasdada es
por es) decir,
E(smuestra =σ de .69,1% el tamaño
El valor
error esperado
estándar
n. de dela s media
sobre todas muestral sobre se todas
estimalas pos
enton
La media muestra medida
mediante y de launa
tendencia media
varianza central partir
esmuestral másdeutilizadauna
para nde=yla
de
más fácil n = 25 y 95,4% para n =
continuación se1,03 describen 1,15 mmol/l
los principales del estimadores
48,7% 10, tendencia para
central de una
La media es la medida de tendencia central más uti
En la práctica, para poder muestras
calcular el 1es
error E(s
n 2
) =
estándar, σ 2
. 2El error estándar de la media muestral se estima ento
interpretación. Corresponde al “centro de gravedad” s/ ns . Así,
2
= de una losvez datos −ndex ) laes
( x iseleccionada necesario
x1 +una
. muestra. x 2 +Su
obtener
... + x n concreta, la media muestral x fa
muestra
variable. 100. n − 1 i =x1 = 1 interpretación. xi = Corresponde . al “centro de gravedad” d
previamente una estimación de la varianza poblacional n i =1 σ 2 de la variable n a estudio, dado
principal limitación es que que
Puede probarse está lamuy influenciada
varianza una s/ estimación
muestral n por
. Así,
eslos ununa valoresvez seleccionada
insesgada
estimador extremosde la media
insesgado y, en una
deeste muestra
poblacional
la varianza concreta,
ypoblacional;
el error la de media muestral
dicha estimacióx
1.2.1 Media
es decir,
Puedearitmética
elprobarse
valor esperadoque la varianzade s sobre
2
todas las
muestral es posibles
un estimador principal
muestras insesgadolimitación
es E(s de 2 es
) =laσ varianza
2 que está
. 2El error estándarmuy 18 influenciada por l
caso, puededenoque
laser este
media parámetro
un fiel reflejoLa
muestral esmedia
de
se típicamente
la tendencia
estima es una desconocido.
central
estimación
la medida
entonces
determinado como de
pordetendencia
la La n ..varianza
distribución.
s/insesgada Así, unalapoblacional
de
central media
másseleccionada
vez σ ypuede
poblacional
utilizada deuna y elmuestra
más error
fácil de dicha estima
La media aritmética,
concreta, la media
poblacional; denotadamuestral
es decir, por x ,facilitará
el valor seesperado
defineuna como 2
s lasobre
deestimación sumatodas caso,
de cada
insesgada puede
sobre uno de no
de
todas ser
la los mediaun
las posibles fiel reflejo
poblacional deylaeltendencia centra
estimarse
error de dichaa estimación
partir de la vendrá
interpretación. propia muestraCorresponde
determinado mediante s/la varianza
al “centro
por n .. de gravedad” muestralde los datos de la muestra. Su
Ejemplo 1.4
valores muestrales En este y en los sucesivos ejemplos sobre estimadores muestrales, se
muestras dividida
es E(s ) =por
2
σ el. El
2 número de observaciones
error estándar de la media realizadas.
muestralSi sedenotamos
estima entonces como
principal limitación es que está Ejemplo
muy influenciada por los valores 1.4 En este y extremos
en los sucesivos y, en este ejemplos
1 n
utilizarán
por n el tamañolos valores dely colesterol
s/ n . muestral
Así, una vez xi el valor
porseleccionada HDLobservado
sobtenidos
2
=
una muestra
n − 1
en (los
para concreta,
10x )primeros
xeli −sujeto 2
. i-ésimo,
la utilizarán
sujetos
media muestral i = 1,del
los de
..., n,
valores
Pastor-Barriuso R. 51
x facilitará
del colesterol HDL obtenid
caso, puede no ser un fiel reflejo de la tendencia central i =1 la distribución.
laestudio “European
media vendría dadaStudypor on Antioxidants, Myocardial Infarction and Cancer of
una estimación insesgada de la media poblacional y el error de dicha
estudio estimación
“European Study vendráon Antioxidants, Myoc
Puede probarse que la varianza muestral es un estimador insesgado de la varianza
Principios de muestreo y estimación

30

20

10

0,8 0,9 1 1,1 1,2 1,3 1,4

(a) Media del colesterol HDL (mmol/l) en muestras de tamaño 10

30
Frecuencia relativa (%)

20

10

0,8 0,9 1 1,1 1,2 1,3 1,4

(b) Media del colesterol HDL (mmol/l) en muestras de tamaño 25

30

20

10

0,8 de los
Ejemplo 4.10 A partir 0,9controles
1 del estudio
1,1 1,2 1,3
EURAMIC, 1,4
se ha obtenido una
(c) Media del colesterol HDL (mmol/l) en muestras de tamaño 100
Ejemplo 4.10 A partir
muestra aleatoria de de
simple lostamaño
controles
n =del
10,estudio
cuyos EURAMIC, se ha obtenido
valores de colesterol una
HDL son
Figura 4.2  Distribución muestral de la media del colesterol HDL en 1000 muestras aleatorias
Figura 4.2 simples de
n = 10 (a),
tamañomuestra 25 (b)
aleatoria y 100 (c)
simple obtenidas
de tamañoa partir
n = del
10, grupo
cuyos control
valores del
deestudio EURAMIC.
colesterol HDL La
sonlínea ver-
tical en 1,45, 1,32, 1,74,corresponde
trazo discontinuo 0,82, 0,92, a1,46, 1,10,
la media 0,88, 0,97
poblacional μ =y 1,09
0,63mmol/l
mmol/l. La mediaHDL.
de colesterol

1,45, 1,32,es1,74, 0,82, 0,92, 1,46, 1,10, 0,88, 0,97 y 0,63 mmol/l. La media
muestral
Ejemplo 4.10  A partir de los controles del estudio EURAMIC, se ha obtenido una
muestra
muestralaleatoria
es simple de tamaño n = 10, cuyos valores de colesterol HDL son 1,45,
1,32, 1,74, 0,82, 0,92,11,46, 10
1,10, 1,45 + 1,32
0,88, 0,97+ ... + 0,63
y 0,63 mmol/l. La media muestral es
x =  xi = = 1,13 mmol/l
10 10i =1 10
1 1,45 + 1,32 + ... + 0,63
x =  xi = = 1,13 mmol/l
10 i =1 10
y la varianza muestral
y la varianza muestral
y la varianza muestral
1 n
s2 =  ( xi − x ) 2
n − 1 in=1
1
s 2 = (1,45 2
x i )−2 x+)...
− 1(,13 + (0,63 − 1,13) 2
= n − 1 i =1 = 0,12 (mmol/l) 2 .
9
(1,45 − 1,13) 2 + ... + (0,63 − 1,13) 2
= = 0,12 (mmol/l) 2 .
9
52
Por tanto, la estimación puntual de la media poblacional del colesterol HDL es x
Pastor-Barriuso R.

Por tanto,
= 1,13 la estimación
mmol/l y su errorpuntual la media poblacional del colesterol HDL es x
dees
estándar
(1,45 − 1,13) 2 +alrededor
... + (0,63 de 13) 2valor se agrupan 2los datos observados. Las medidas d
− 1,qué
= = 0,12 (mmol/l) .
muestra sirven tanto para resumir los resultados observados 9 como para variable.
central de laDE
1.2 MEDIDAS muestra sirven
TENDENCIA tanto para
CENTRAL
Estimación en resumir
el muestreo los simple
aleatorio resultados observad
ncias acerca de los parámetros
Por tanto,poblacionales
la estimación correspondientes.
puntual de la media A 1.2.1 Mediadel
poblacional colesterol HDL es x
aritmética
realizar inferencias acerca de los parámetros poblacionales correspond
Las medidas de tendencia central informan acerca de cuál es el valor más r
e describen los principales
Por
= 1,13estimadores
tanto,
mmol/l y sude
la estimaciónla tendencia
error puntual central
estándardees de La
la media unamedia aritmética,
poblacional del colesterol
denotadaHDLpor es x ,=se1,13
define como la su
mmol/l y su error estándar esde una determinadasevariable
continuación describen los principales estimadores de la tendencia
o, dicho de forma equivalente, estos estimador
valores muestrales dividida por el número de observacione
s 0,35
) = variable.
SE( xalrededor = de qué=valor
0,11 se
mmol/l.
agrupan los datos observados. Las medidas de ten
1.2 MEDIDAS
ritmética DE TENDENCIA CENTRAL n 10 por n el tamaño muestral y por xi el valor observado para e
Notar que, en este ejemplo ilustrativo, central1.2.1 Media
de el
la error
muestra aritmética
de sirven
la estimación
tanto para muestral
resumir es los
exactamente
resultados observados co
mética,
Lasdenotada
medidas por xNotar
,–se
de tendencia μ define
=que,
1,13 como

central 1,09 la=
informansuma
0,04 de cada
mmol/l.
acerca de uno
En
cuál de
la losla
práctica,
es el media
valor sin vendría
embargo,
más
en este ejemplo ilustrativo, el error de la estimación muestral es dada
el
representativo por
error exacto no puede
calcularse ya que μ es desconocido Lay,inferencias
realizar media aritmética,
en consecuencia, acercase denotada
deemplea SE( x ), como
por
los parámetros sepoblacionales
define como la
estimación suma de cada
correspondiente
ralesdedividida por el número
una determinada del de
error
variable observaciones
promedio
o, dicho que
de realizadas.
cabría
forma esperar Si
equivalente, denotamos
en similares
estos circunstancias
estimadores
exactamente x - μ = 1,13 - 1,09 = 0,04 mmol/l. En la práctica, sin embargo, el1 indican (esto es, en todas
n lasx1 + x 2 + ... + x n
posibles muestras del mismocontinuación tamañovalores muestrales
obtenidas de la dividida
se describen población por
deelreferencia).
los principales número
estimadores 
x =de observaciones
n i =1
xde
i = realizadas
la tendencia
n
centr
o muestral
alrededory por xi elvalor
de qué valor observado
se agrupan para
los el
datos sujeto i-ésimo,
observados. i
Las = 1, ...,
medidas n,
error exacto no puede calcularse ya que μ es desconocido y, en consecuencia, sede tendencia
por n el tamaño muestral y por xi el valor observado para el sujeto i-és
variable.
ría dada porde la4.3.3 
central muestra Teorema
sirven central
tanto para del límite los resultados observados como para
resumir
emplea SE( x ) como estimación del error promedio La media es la medida
que cabría esperar de en tendencia central más utilizad
la media vendría dada por
En los apartados anteriores se ha probado 1.2.1 que,
Media paraaritmética
cualquier variable aleatoria, el valor esperado y
realizar inferencias n acerca de
similares
la varianza los parámetros
circunstancias
dex1la+distribución (estopoblacionales
es, en todas
x 2 + ... + x n de las medias muestrales correspondientes.
las interpretación.
posibles
son μ muestras
y σ2/n, A respectivamente.
Corresponde
del mismo al tamaño
“centro
No se de hagravedad” de los
1
=  x i sin
xanalizado, = embargo, el aspecto . global de la distribución muestral de . Retomando
ndescriben n La media aritmética, denotada por x , 1se define xcomo n
1 el x 2la+suma
+ ejemplo ... + xde
n cada uno
continuación se i =1
obtenidas los
deprincipales
la población estimadores
de de
referencia). la tendencia
principal
de la distribución muestral de las medias de colesterol HDL (Figura 4.2), puede central
limitaciónde xuna=es 
que
n i =1
xestá= muy
observarse
i influenciada
quen la . por los v
forma de esta distribución tiende a valores aproximarse a una dividida
muestrales distribución por normal
el número conforme aumenta el realizadas. Si d
de observaciones
s la variable.
medida de tendencia central más utilizada y de más fácil caso, puede no
tamaño muestral. Esta característica puede resultar intuitivamente lógica, ya que la distribución ser un fiel reflejo de la tendencia central de
subyacente
4.3.3 Teorema del colesterol
central del HDL en lapor
límite n el La
población mediamuestral
presenta
tamaño esunla aspecto
medida de tendencia
y poraproximadamente
xi el valor observadocentral más
normal utilizada
para(ver el sujetoyi-ésimo,
de más
Corresponde al “centro
1.2.1 MediaFigura
aritmética de gravedad” de los datos de la muestra. Su
1.2 del Tema 1). Dado que muchas de las variables utilizadas en la práctica no presentan una
interpretación. Ejemplo 1.4alEn este yde engravedad”
los sucesivoslos ejemplos sob
distribución
En los apartados poblacional
anteriores normal, cabría
la media
se ha probado preguntarse
vendría
que, para dada siCorresponde
esta variable “centro
por tendencia
cualquier a la normalidad
aleatoria, el valor de de la datos de la
ación es que está muy
La media aritmética,
distribucióninfluenciada
denotada
muestralporpor los valores
de x ,sesemantiene extremos
define como y,
para cualquier en
la suma de este
tipo
cadade uno
variable
de los aleatoria.
principal limitación utilizarán
es que los
está valores 2 del colesterol
muy influenciada porHDL obtenidos
los valores e
extre
esperado y la varianza de la distribución de las medias muestrales son nμ y σ /n,
o servalores
un fiel muestrales
reflejo deEjemplo
ladividida
tendencia 1 x + x + ... + x
porcentral
4.11  elEn la de
número ladedistribución.
Figura observaciones
4.3 se muestra realizadas.
la distribución xde=los
Si denotamos x i = de
niveles 1 2
b-caroteno n
en .
caso, puede no estudio
ser un fiel “European
n
reflejo de Study
la on
tendencia nAntioxidants, Myocardia
tejido adiposo
respectivamente. Noen se el
hagrupo control
analizado, sindel estudioelEURAMIC,
embargo, aspecto global que de
presenta
i =1 una distribución de la distribuc
la distribución
central
por n el tamaño muestral
marcadamente y por xiasimétrica
el valor observado para elde
con una media sujeto i-ésimo,
μ = 0,37 i =Las
1, ..., n,
Figuras 4.4(a),
1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se the mg/g.
Breast“ (EURAMIC), un (b)
estudio
20
y (c)multicéntrico de
La media es la medida
Ejemplo 1.4 Endeeste tendencia
y en loscentral
sucesivos másejemplos
utilizadasobre y de más fácil
estimado
la media vendría dada por 250
n los valores del colesterol HDL obtenidos en los 10 primeros sujetos del entre 1991 y 1992 en ocho países Europeos e Israel p
interpretación. Corresponde
utilizarán los valores al “centro de gravedad”
del colesterol de los datos
HDL obtenidos en de
losla10mue
pri
“European Study on Antioxidants, 1 n
Myocardial xInfarction
1 + x 2 + ...and
+ x nCancer of
200 x =  x i = principal .
limitación es que estáStudy muy on influenciada por Myocardial
los valores extremos
n i =1 n estudio “European Antioxidants, Infarction
st“ (EURAMIC), un estudio multicéntrico de casos y controles realizado
caso, puedethe noBreast“
ser un fiel reflejo de launtendencia central de la distribución.
Frecuencia absoluta

(EURAMIC), estudio multicéntrico de casos y co


La media es la medida 150de tendencia central más utilizada y de más fácil
91 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar
interpretación. Corresponde al “centro de gravedad”Ejemplo de los datos 1.4 Ende este y en losSu
la muestra. sucesivos ejemplos sobre estimadores m
100 5
principal limitación es que está muy influenciada por utilizarán
los valores los extremos
valores del y, colesterol
en este HDL obtenidos en los 10 primero

estudio
caso, puede no ser un fiel50reflejo de la tendencia central “European
de la Study on Antioxidants, Myocardial Infarction and
distribución.

the Breast“ (EURAMIC), un estudio multicéntrico de casos y control


Ejemplo 1.4 En este0y en los sucesivos ejemplos sobre estimadores muestrales, se
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el ef
utilizarán los valores del colesterol
0 0,2 HDL
0,4 obtenidos
0,6 en los 10
0,8 1 primeros
1,2 sujetos1,6
1,4 del 1,8 2

β-caroteno (μg/g)
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of
Figura 4.3
Figura 4.3  Distribución de frecuencias del nivel de β-caroteno en el grupo control del estudio EURAMIC.
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado
Pastor-Barriuso R. 53
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los
Principios de muestreo y estimación

30

20

10

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

(a) Media de β-caroteno (μg/g) en muestras de tamaño 10

30
Frecuencia relativa (%)

20

10

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

(b) Media de β-caroteno (μg/g) en muestras de tamaño 25

30

20

10

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9


(c) Media de β-caroteno (μg/g) en muestras de tamaño 100

Figura 4.4
Figura 4.4  Distribución muestral de la media de β-caroteno en 1000 muestras aleatorias simples de tamaño
n = 10 (a), 25 (b) y 100 (c) obtenidas a partir del grupo control del estudio EURAMIC. La línea vertical en
trazo discontinuo corresponde a la media poblacional μ = 0,37 μg/g de β-caroteno.

representan las medias de b-caroteno en 1000 muestras aleatorias simples de tamaño n =


10, 25 y 100, respectivamente, obtenidas a partir de los controles del estudio EURAMIC.
En estas gráficas puede observarse, de forma empírica, las siguientes propiedades:
—— Ausencia de sesgo: para cualquier tamaño muestral, el promedio de las medias
muestrales es similar a la media poblacional.
—— Disminución del error estándar: al aumentar el tamaño muestral, disminuye la
variabilidad en la distribución de las medias.
—— Aproximación a la distribución normal: al aumentar el tamaño muestral, la distribución
de las medias se aproxima a una distribución normal centrada en la media poblacional.

En los ejemplos anteriores, se ha comprobado de forma empírica que, independientemente de


la forma de la variable aleatoria en la población, la distribución de las medias muestrales tiende a

54 Pastor-Barriuso R.
estadística, conocido como teorema central del límite, formaliza esta intuición: para
Las medidas de tendencia central informan acerca de cuá
estadística, conocido como teorema central del límite, formaliza esta intuición: para
cualquier variable aleatoria X con media μ y varianza σ 2, la
de una distribución
determinada
Estimación en
de
variable las medias
el muestreo o,aleatorio
dicho simple
de forma equivalen
cualquier variable aleatoria X con media μ y varianza σ 2, la distribución de las medias
en muestras aleatorias simples de tamaño n se aproxima, alrededor al aumentar
de qué valor el tamaño
se agrupan los datos observados. L
en muestras aleatorias simples de tamaño ~ n se aproxima, al aumentar el tamaño
seguir una distribución normal,normal x → N(1,09, 0,00086).
particularmente
muestral, a una distribución con mediacuando aumentaσ el
μ y varianza
central
2 tamaño de la muestra. Uno de
de la/n; es decir,
muestra al aumentar
sirven tantoformaliza
para resumir los resulta
losmuestral,
principales resultados en estadística, conocido
a una distribución normal con media μ y varianza σ 2/n; como teorema central
es decir,del límite,
al aumentar
esta
n, intuición:
Así, por paraejemplo,
cualquier la variable
probabilidad aleatoria de queX con media μdey colesterol
la media varianza σHDL 2
, la distribución
endeuna de las
medias en muestras aleatorias simples de tamaño n se realizar
aproxima, inferencias
al aumentar acerca
el tamaño los muestral,
parámetros poblacional
n,
a una distribución
muestra de normal
tamaño = 100 μesté
conn media y varianza
comprendida σ 2/n; es decir,
entre 1,03al yaumentar
1,15 mmol/l n, puede
2 continuación se describen los principales estimadores de
~ N  μ,  σ 
calcularse como
x→
~  nσ 2,
x → N μ , variable. ,
 n 

dondeelel símbolo ~ significa “distribuirse



símbolo P(1,03  1,03 − 1,09 x − 1,09 aritmética
1,15Así,− 1Así,
,09 aun
donde
~
significa
≤ x ≤ 1,15) = P aproximadamente
“distribuirse aproximadamente
1.2.1≤ Mediacomo”. como”.
≤ aun  cuando cuando la
donde el símbolo
distribución → significa
de una variable en la“distribuirse
población diste aproximadamente
0,029 mucho de 0,029 como”.
ser normal, Así,
0,029 aun
el teorema  cuando central del
la distribución
límite de unalavariable
permite utilizar en la población
distribución normal como disteLa mucho
aproximación de ser anormal,
la el
distribución
media aritmética, denotada por teorema de x ,siseeldefine como la s
la distribución
tamaño muestral de es una variable en lagrande.
suficientemente población
= P(-2,05 Aunquediste
≤ Z ≤elmucho
tamaño
2,05) de muestral
ser normal, el teorema
necesario variará en
centralde
función dellalímite
variablepermite
objetoutilizar la distribución
de estudio, esta aproximación normal como aproximación
valores muestrales dividida por el siempre
será razonablemente a la
precisa número de observacion
quecentral del límitea permite
n sea superior 50. utilizar la distribución normal como aproximación a la
= 2 Φ(2,05) - 1 = 0,9596.
distribución de x si el tamaño muestral es suficientemente grande. muestral
por n el tamaño Aunque ely tamaño por xi el valor observado para
~
→ N(1,09,
distribución
Ejemplo de x siLa
4.12  el tamaño la xvarianza
media ymuestral 0,00086). HDL
es suficientemente
del colesterol grande.en losAunquecontroles el tamañodel estudio
muestral En el Ejemplo
necesario 4.9
variará seen comprobó
función
EURAMIC son μ = 1,09 mmol/l y σ = 0,086 (mmol/l) deempíricamente
2 la variablelaobjeto que la
de proporción
media. vendría
2 estudio,
Por el teorema esta
dada porde central delde
muestras límite,
muestral
laAsí, necesario
distribución variará
de las en
mediasfunciónen de la
muestras variable
de objeto
tamaño
por ejemplo, la probabilidad de que la media de colesterol HDL en una de
n =estudio,
100 esta
será aproximadamente
tamaño
aproximación
normal con nmedia
= razonablemente
será 100 μcon un nivel
= 1,09 mmol/l medio
precisa de colesterol
siempre
y varianza /n =nHDL
σque
2 entre 1,03
sea superior
0,086/100 y 1,15(mmol/l)
a 50.
= 0,00086 mmol/ln es 2
,
1 x1 + x 2 + ... + x
aproximación será razonablemente
muestra de tamaño n = 100 esté ~ comprendida entre 1,03 y 1,15 mmol/l puede n  x i =
precisa siempre que n sea superior a 50. x =
n
del 95,4%, que coincide casi → N(1,09, 0,00086).
x perfectamente con el resultado obtenido bajo la i =1
Ejemplo 4.12 La media y la varianza del colesterol HDL en los controles del
calcularse
Así, como la probabilidad de que la media de colesterol HDL en una muestra de
por ejemplo,
Ejemplo
aproximación 4.12 La media y la varianza del colesterol HDL en los controles del
normal.
Así, pornejemplo,
tamaño = 100 esté la probabilidad
comprendida de entreque1,03la media
y 1,15 demmol/l
La colesterol
media es laHDL
puede medida en una
calcularse de tendencia
como central más utiliza
estudio EURAMIC son μ = 1,09 mmol/l y σ 2 = 0,086 (mmol/l)2. Por el teorema
2 2
estudio EURAMIC son μ = 1,09 mmol/l 1,03 − 1y,09 σentre=x0,0861,09y(mmol/l)
−1,03 1,15 − 1.,09
Por el teorema
muestra
Como se de tamaño
P(1,03
mostrará ≤enn x= ≤
los100 esté
1,15) =
siguientes comprendida
P  temas, el interpretación.

teorema central≤1,15del mmol/l
Corresponde puede al “centro de gravedad” de l
central del límite, la distribución de  las medias en0muestras
0,029 ,029 de tamañoconstituye
0,029
límite n = 100 la
central del límite, la distribución de las medias en muestras de tamaño nestá
= 100
basecalcularse
fundamental como del proceso de = P( −
inferencia 2,05 ≤ Z ≤principal
será aproximadamente normal con media μ = 1,09 mmol/l y varianza σ /n =la
estadística,2,05) dado limitación
que es quetanto
posibilita 2
muy influenciada por los
2
será aproximadamente normal = con
2 media−μ1 ==
Φ(2,05) 1,09
0,9596.
caso, mmol/l
puede no yser
varianza
un fiel σreflejo
/n = de la tendencia central d
construcción de
0,086/100P(1,03 intervalos
= 0,00086 de confianza
(mmol/l) 2  1,como el contraste de
,P 03 − 1,09 ≤ x − 1,09 ≤ 1,15 − 1,09  hipótesis acerca de la
En0,086/100
el Ejemplo= 4.9 ≤ x ≤ 1,15)
se comprobó =
0,00086 (mmol/l)empíricamente
2
,  0,029 que0,la 029proporción 0,029 de muestras
 de tamaño
media
n = poblacional
100 con un nivel μ. medio de colesterol HDL entre 1,03 y 1,15 mmol/l es del
Ejemplo 1.4 En este y en los sucesivos 95,4%, que ejemplos so
coincide casi perfectamente
En el Ejemplo 4.9 se comprobó con el resultado obtenido
empíricamente que labajo la aproximación
proporción de muestras normal.
de
= P(-2,05 ≤ Z ≤ 2,05) 22
4.3.4 Estimación de una proporción poblacional utilizarán los valores del colesterol HDL obtenidos
Como se mostrará
tamaño n = 100en con losunsiguientes
nivel medio temas, el teorema
de colesterol HDL central
entredel 1,03límite
y 1,15constituye
mmol/l es la22base
fundamental del que
proceso de inferencia Φ(2,05) - 1dado
= 2estadística, = 0,9596.
que posibilita tanto la construcción de
Supongamos el interés del estudio se centra en estimar estudio “European
la proporción π Study
de on Antioxidants, Myocard
intervalos de confianza como el contraste de hipótesis
del 95,4%, que coincide casi perfectamente con el resultado obtenido bajo laacerca de la media poblacional μ.
En el Ejemplo
individuos 4.9 sede
o elementos comprobó
la población empíricamente
que cumplen que unala proporción
thedeterminada decaracterística.
Breast“ (EURAMIC), muestras de un Enestudio multicéntrico
aproximación normal.
4.3.4  tamaño
Estimaciónn = 100deconunaun proporción
nivel medio poblacional
tal caso, resulta conveniente definir unade colesterol
variable HDL
aleatoria entre
entre
X 1991
que 1,03
toma yel1,15
y 1992 enmmol/l
valor ocho es Europeos e Israel
1 en países
los
Supongamos que el interés del estudio se centra en estimar la proporción π de individuos o
Como se mostrará
del 95,4%, que en los siguientes
coincide casi temas, el teorema
perfectamente central del límite constituye la
individuos
elementos de que presentan
la población dicha
que característica
cumplen y con
0 enelquienes
una determinada resultado no laobtenido
presentan.
característica. En bajotalLa lacaso,
media resulta
conveniente definir una variable aleatoria X que toma el valor 1 en los individuos que presentan
base fundamental
aproximación del proceso de inferencia estadística, dado que posibilita tanto la
normal.
poblacional
dicha de esta
característica y variable
0 en quienes aleatoriano discreta
la presentan. es La media poblacional de esta variable
aleatoria discreta es
construcción de intervalos de confianza como el contraste de hipótesis acerca de la
Como se mostrará en los siguientes temas, 1
el teorema central del límite constituye la
μ =  k P( X = k ) = π
media poblacional μ. k =0
base fundamental del proceso de inferencia estadística, dado que posibilita tanto la
4.3.4 Estimación de una proporción 23
construcción de intervalos de confianzapoblacional
como el contraste de hipótesis acerca dePastor-Barriuso
la R. 55

Supongamos
media que elμ.interés del estudio se centra en estimar la proporción π de
poblacional
Si se selecciona una muestra aleatoria simple de tamaño n, en la cual k individuos
1
Principios de muestreo y estimación
 (k −(xπi =) 1)P(yXlos= krestantes
2
presentan la característicaσde=interés
k =0
2
) n - k individuos no la

presentan (xi = 0), el estimador natural de la proporción poblacional es la proporción


yLa
su varianza
varianza muestral de p=viene
π 2
(1 determinada
- π) + (1 - π) 2
por
π =π(1
π(1--ππ)/n;
). así, al aumentar el
y su varianza

• La varianza muestral de p viene determinada por π(1 - π)/n; así, al aumentar el


muestral
tamaño muestral, las proporciones 1 muestrales estarán más próximas a la verdadera
Si se selecciona una muestra σ 2 = aleatoria − π )simple
P( X =dek tamaño n, en la cual k individuos
tamaño muestral, las proporciones  ( k 2
muestrales
)
estarán más próximas a la verdadera
proporción poblacional. k =0 k 1 n

presentan la característica de interés 2


p =(xi == 1)  y los x i2 restantes
=x. n - k individuos no la
proporción poblacional.= π (1 − πn) + n(1 i−=1π ) π = π (1− π ).
• Al aumentar el tamaño muestral, la distribución de las proporciones muestrales
presentan
Si se (xi = 0),
selecciona unaelmuestra
estimador naturalsimple
aleatoria de la proporción
de tamaño poblacionaln, en la cual es la proporción
k individuos presentan
• Al aumentar el tamaño muestral, la distribución de las proporciones muestrales
A partir
la característicade esta notación,
de interés es evidente que una proporción
n –de k tamaño muestral es un caso
tiende
Si se aselecciona
muestral
aproximarseuna(x i = 1)
amuestra
una y aleatoria
los restantes
distribución normal.
simple individuos
Esta aproximación
n, ennolalacual
presentan
es (xi = 0), el
k individuos
estimador natural
tiende de la proporción poblacional es la proporción muestral
particular de auna
aproximarse a una distribución
media muestral para una variable normal. Esta aproximación
dicotómica es
con la codificación arriba
suficientemente precisa si n π (1 - π ) ≥ 5.
presentan la característica de interés (xi = 1) y los restantes n - k individuos no la
-kπ)=≥1puede
n
suficientemente
indicada. Así, el teoremaprecisa
centralsi ndelπp(1=límite 5. x i aplicarse
1 = x . poblacional a la forma particular de esta
presentan (xi = 0), el estimador natural n denlai =proporción es la proporción
Ejemplo 4.13 En las Figuras 4.5(a), (b) y (c) se presentan las proporciones de
variable X para obtener el siguiente resultado: la distribución muestral de una
muestral
A partir Ejemplo
de 4.13 Enes
esta notación, lasevidente
Figurasque 4.5(a),
una(b) y (c) se presentan
proporción muestral es lasunproporciones de de una
caso particular
A partir deactuales
fumadores esta notación,
en 1000 es muestras
evidente que una proporción
aleatorias simples demuestral
tamaño es
n =un10,caso
25 yel teorema
media muestral para una variable dicotómica con la codificación
proporción p se aproxima, al aumentar el tamaño muestral, a una distribución normal arriba indicada. Así,
fumadores
central del límite puedeactuales en 1000
aplicarse muestras
a la forma aleatorias
particular simples
de esta de tamaño
variable n = 10,el25siguiente
X para obtener y
particular de una media muestral
100, respectivamente, obtenidas paraapuna k variable
una
partir 1 grupo
del
n
dicotómica
control delcon la codificación
estudio EURAMIC, arriba
resultado: la distribución muestral
con media π y varianza π(1 - π)/n, de =
n
=
n

proporción x i =p xse
. aproxima, al aumentar el tamaño
muestral,100,
a unarespectivamente,
distribución normal obtenidas
con media a partir π ydel
i =1varianza π(1 – π)/n,
grupo control del estudio EURAMIC,
indicada.
donde la Así, el teorema
proporción decentral
fumadores del límite
actuales puedees πaplicarse a la forma
= 0,37. Para particular
cualquier tamañoden esta
Adonde
partir la
deproporción
esta notación, de fumadores ~ N actuales
es evidente que (1 −es
π una )π= 0,37. Para
πproporción muestralcualquier
es una caso n
un tamaño
variable X para obtener el siguiente p → 
resultado:
de la muestra, las proporciones muestrales están π , la .
distribución
distribuidas muestral
alrededor de de la
 n 
de la muestra,
particular pdeseuna las
media proporciones
muestral muestrales están distribuidas alrededor de la arriba
En proporción
consecuencia, aproxima,
pueden
proporción poblacional extraerse
(ausencia laspara
al aumentar de el
una
siguientes
sesgo).
variable
tamaño propiedades dicotómica
Almuestral,
aumentarde an,una
una con la codificación
distribución
proporción
la distribución normal
muestral:
En consecuencia,
yyindicada.
La proporción pueden extraerse
muestral pcentral
es undellas siguientes
estimador propiedades
insesgado de laa de una
proporción proporción
poblacional π; es
con media Así,
π y elpoblacional
teorema
varianza π(1 - π
(ausencia
)/n,
de sesgo).
límite puede Al aumentar
aplicarse lan,forma
la distribución
particular de esta
muestral
decir, de=laπ.proporción de fumadores actuales presenta una menor variabilidad
E(p)
muestral:
muestral deobtener
la proporción de fumadores
yyvariable
La varianzaX paramuestral deel psiguiente
viene resultado:actuales
determinada lapor π(1presenta
distribución una
así, menor
– π)/n;muestral variabilidad
de una
al aumentar el tamaño
y se aproxima a una distribución normal ~  centrada
π ( 1 − π )en
 la proporción poblacional π
muestral, las proporciones muestrales
• La proporción muestral p es pun N estarán
π
→estimador , más .próximas
insesgado a la verdadera
de la proporción proporción
poblacional
y se aproxima
proporción
poblacional. a una distribución
p se aproxima, al aumentarnormal el
 tamaño centrada  en la aproporción
n muestral, poblacional
una distribución normalπ
= 0,37.
π ; es decir, E(p)
yy Al aumentar
= 0,37.π yelvarianza
tamaño = πmuestral,
. la distribución de las proporciones muestrales tiende a
con media π(1 - π)/n,
aproximarse a una distribución
En consecuencia, pueden extraerse las siguientesnormal. Esta aproximación
propiedades de es una
suficientemente
proporción precisa si
nπ(1 – π) ≥ 5.
muestral: [Figura 4.5 ~aproximadamente
 π (1 − π )  aquí]
p → N π , .
Ejemplo 4.13  En las Figuras 4.5(a),
[Figura 4.5(b)  y (c) se n presentan
aproximadamente  las proporciones de fumadores
aquí]
actuales en 1000 muestras
• La proporción muestralaleatorias
p es un estimador tamaño nde
simples deinsesgado = 10, 25 y 100, respectivamente,
la proporción poblacional
A partir de las
obtenidas propiedades
a partir del grupo anteriores
control del seestudio
deduceEURAMIC,
que, para una dondemuestra aleatoriadedefumadores
la proporción
EnA consecuencia,
partir
actuales
π; es esdeπlas pueden
propiedades
= 0,37.
decir, E(p) Para extraerse
= π.cualquier las siguientes
anteriores
tamañose deduce propiedades
que, paralasuna
n de la muestra, demuestra
una proporción
proporciones aleatoria de 24
muestrales están
n, la proporción
tamañodistribuidas muestral p es un estimador insesgado de la proporción
alrededor de la proporción poblacional (ausencia de sesgo). Al aumentar n, la
muestral:
tamaño n, la proporción
distribución muestral de muestral p es un
la proporción deestimador
fumadoresinsesgado de la proporción
actuales presenta una menor variabilidad
poblacional π y su error estándar viene determinado por la
y se aproxima a una distribución normal centrada en la proporción poblacional raíz cuadrada de la varianza
π = 0,37.
La proporción muestral p es un estimador insesgado
poblacional π y su error estándar viene determinado por la raíz cuadrada de la varianza
• de la proporción poblacional
muestral
A partirdedep, las propiedades anteriores se deduce que, para una muestra aleatoria de tamaño n,
muestralπ;de
la proporción esmuestral
p, p es=unπ.estimador insesgado de la proporción poblacional π y su error
decir, E(p)
estándar viene determinado por la raíz cuadrada deπ la (1 −varianza
π) muestral de p,
SE(p) = var( p) = , 24
πn (1 − π )
SE( p) = var( p) = ,
n
que
que puede
puede estimarse partir de la propia muestra mediante p (1 − p ) / n ..
estimarse aa partir
que puede estimarse a partir de la propia muestra mediante p (1 − p ) / n .
25 24
56 Pastor-Barriuso R.
25
Estimación en el muestreo aleatorio simple

30

20

10

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8

(a) Proporción de fumadores actuales en muestras de tamaño 10

30
Frecuencia relativa (%)

20

10

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8

(b) Proporción de fumadores actuales en muestras de tamaño 25

30

20

10

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8


(c) Proporción de fumadores actuales en muestras de tamaño 100
Ejemplo 4.14 A partir de una muestra aleatoria simple de n = 100 controles del
Figura 4.5  Distribución muestral de la proporción de fumadores actuales en 1000 muestras aleatorias
Figura 4.5
simples de tamaño n = 10 (a), 25 (b) y 100 (c) obtenidas a partir del grupo control del estudio EURAMIC. La
Ejemplo
línea vertical 4.14 discontinuo
trazo A partir
estudioenEURAMIC, sede una muestra
obtuvieron
corresponde k a=laaleatoria
35 simple
fumadores
proporción de n =de
actuales.
poblacional 100
La controles
estimación
fumadores del π = 0,37.
actuales

estudio
puntual EURAMIC, se obtuvieron
de la proporción de fumadoresk = 35 fumadores
actuales es actuales. La estimación
Ejemplo 4.14  A partir de una muestra aleatoria simple de n = 100 controles del estudio
EURAMIC,
puntual se obtuvieron
de la proporción k = 35 fumadores
de fumadores actuales esactuales. La estimación puntual de la
k 35
proporción de fumadores actuales p =es = = 0,35,
n 100
k 35
p= = = 0,35,
n 100
y su error estándar es
y su error estándar es
y su error estándar es
p (1 − p) 0,35(1 − 0,35)
SE(p) = = = 0,05,
n 100
p (1 − p) 0,35(1 − 0,35)
que corresponde alSE (p) =promedio que=cabría esperar entre
error n 100
= todas
0,05, las posibles muestras de
tamaño
que 100 de laalpoblación
corresponde a estudio.
error promedio que cabría esperar entre todas las posibles

que corresponde
muestras al error
de tamaño 100 promedio que cabría
de la población esperar entre todas las posibles
a estudio.
Pastor-Barriuso R. 57
muestras de tamaño 100 de la población a estudio.
En este apartado se ha discutido la estimación puntual de una proporción poblacional
Principios de muestreo y estimación

En este apartado se ha discutido la estimación puntual de una proporción poblacional π y su


correspondiente error estándar. No obstante, no se ha hecho un uso práctico de la aproximación
normal a la distribución muestral de p. Esta aproximación se retomará más adelante para obtener
intervalos de confianza y pruebas de hipótesis sobre la proporción poblacional π (véase Tema 7).

4.4  REFERENCIAS

  1. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
Englewood Cliffs, NJ: Prentice Hall, 1977.
  2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole, 2001.
  3. Cochran WG. Sampling Techniques, Third Edition. New York: John Wiley & Sons, 1977.
  4. Kish L. Survey Sampling. New York: John Wiley & Sons, 1995.
  5. Lehmann EL, Casella G. Theory of Point Estimation, Second Edition. New York: Springer
Verlag, 1998.
  6. Levy PS, Lemeshow S. Sampling of Populations: Methods and Applications, Third
Edition. New York: John Wiley & Sons, 1999.
  7. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999.
  8. Serfling RJ. Approximation Theorems of Mathematical Statistics. New York: John Wiley
& Sons, 1980.
  9. Silva LC. Diseño Razonado de Muestras y Captación de Datos para la Investigación
Sanitaria. Madrid: Díaz de Santos, 2000.
10. Stuart A, Ord JK. Kendall’s Advanced Theory of Statistics, Volume 1, Distribution Theory,
Sixth Edition. London: Edward Arnold, 1994.

58 Pastor-Barriuso R.
TEMA 5

INFERENCIA ESTADÍSTICA

5.1 INTRODUCCIÓN

La teoría del muestreo aporta diversos métodos formales para seleccionar muestras a partir de
una determinada población. La información obtenida de dichas muestras puede resumirse
utilizando técnicas de estadística descriptiva. Sin embargo, cuando se trabaja con una muestra,
rara vez nos interesa la muestra como tal, sino que ésta interesa por su capacidad para aportar
información con respecto a otros sujetos o a otras situaciones.
En los estudios descriptivos, el interés radica en seleccionar una muestra representativa de la
población de referencia, o dicho más concretamente, la muestra ha de presentar el mismo grado
de diversidad que la población respecto al parámetro o característica objeto de estudio. Las
técnicas de muestreo probabilístico descritas en el tema anterior facilitan muestras que serán
muy probablemente representativas de la población si el tamaño muestral es suficientemente
grande. De esta forma, los resultados de la muestra podrán inferirse a toda población con un
grado razonable de certidumbre.

Ejemplo 5.1  En las Encuestas Nacionales de Salud, se obtiene información de una muestra
representativa a nivel provincial o nacional. Esta muestra interesa por la información que
aporta sobre toda la población. En este caso, la representatividad de la muestra es determinante
para la validez de las conclusiones derivadas del proceso inferencial.

En los estudios epidemiológicos analíticos, los resultados son interesantes porque pueden
aplicarse a situaciones de salud semejantes. En este caso, el objetivo principal del diseño es asegurar
la comparabilidad o semejanza de los grupos de estudio, más que la representatividad poblacional
de la muestra. En los ensayos clínicos randomizados, los sujetos se asignan a los distintos grupos
de tratamiento mediante algún mecanismo aleatorio (por ejemplo, mediante un muestreo aleatorio
simple). Así, si el tamaño muestral es grande, las características basales de los sujetos asignados a
los distintos grupos serán muy similares. En consecuencia, las diferencias observadas entre estos
grupos a lo largo del seguimiento podrán atribuirse al tratamiento objeto de estudio.

Ejemplo 5.2  El primer ensayo clínico publicado sobre el papel de la aspirina en la


prevención primaria de enfermedades cardiovasculares se realizó en médicos americanos
participantes en el “Physicians’ Health Study”, seleccionados además por otras
características de salud. En este caso, los sujetos a estudio no son representativos de la
población a la que se aplicarán posteriormente los resultados (población general de
hombres adultos a riesgo de padecer un primer evento cardiovascular), pero en cambio se
garantizó la comparabilidad de las personas que tomaban aspirina y quienes no la tomaban
mediante la asignación aleatoria del tratamiento y el uso de la técnica del doble ciego
(tanto el investigador como el paciente desconocían el tratamiento asignado).

La estadística inferencial aporta las técnicas necesarias para extraer conclusiones sobre el
valor poblacional de un determinado parámetro a partir de la evaluación de una única muestra.

Pastor-Barriuso R. 59
Inferencia estadística

Como se discutió en el tema anterior, las conclusiones derivadas de este proceso inferencial
siempre estarán sujetas a error como consecuencia de la variabilidad aleatoria inherente al
propio procedimiento de selección muestral. Por ello, resulta necesario disponer no sólo de una
estimación puntual, sino también de un intervalo de confianza, que facilite un rango de valores
verosímiles para el parámetro poblacional, así como de una prueba de significación estadística,
que permita determinar el grado de compatibilidad de los datos muestrales con una hipótesis
predeterminada. En este tema, se revisan los fundamentos y la interpretación de las técnicas
estadísticas de inferencia: la estimación puntual, el intervalo de confianza y el contraste de
hipótesis. Para simplificar la exposición, se asume que la muestra se obtiene por muestreo
aleatorio simple y que la población de referencia es de tamaño muy superior a la muestra.

5.2  ESTIMACIÓN PUNTUAL

Una forma natural de estimar muchos parámetros poblacionales consiste en utilizar el estadístico
muestral correspondiente. Así, la media muestral es un estimador 1.2 MEDIDAS puntualDE de laTENDENCIA
media poblacional CENTRAL
yprincipales
la proporción de casos de una
propiedades estadísticas que enfermedad
1.2haMEDIDAS en la
de satisfacer muestra
DEunTENDENCIA es un
buen estimador estimador
CENTRAL puntual
muestral de la
probabilidad de tener la enfermedad en la población. No obstante, para un determinado
parámetro poblacional, pueden contemplarse distintos Las estimadores
medidas de tendencia alternativos. central informan acerca de c
Algunos
cabe destacar las siguientes:
estimadores de la media poblacional distintos de la media muestral podrían ser, por ejemplo,cuál
Las medidas de tendencia central informan acerca de la es el valor m
mediana, la media de unadedeterminada variable o, dicho de forma equival
• Ausencia de del 50%Un
sesgo. central de laes
estimador muestra
insesgadoo la simedia valorlos
suvariable medio valores sobre máximo
todas y mínimo.
las
En este apartado se presentan algunos criterios estadísticos que justifican la elección de un estos estima
de una determinada o, dicho de forma equivalente,
determinado alrededor de qué valor se agrupan los datos observados
posiblesestimador
muestrasfrente a otras
de tamaño posibles alternativas.
n coincide
alrededorcon deelqué parámetro
valor se poblacional.
agrupan los datos La observados. Las medidas de
Los méritos de un estimador no se juzgan por la central estimación de la resultante
muestra sirven en una tantomuestra
para resumir los resu
insesgadez de un estimador
concreta, sino por la distribución de todos es una propiedad
centrallosde
posibles deseable
la muestra valores ya que sus
o estimaciones
sirven estimaciones
tanto para resumir no
a que pueda dar
los resultados observado
lugar; esto es, por las propiedades de su distribución muestral. Entre las principales propiedades
realizar inferencias acerca de los parámetros poblacion
diferirán
estadísticas quesistemáticamente
ha de satisfacer un delbuen
parámetro
estimador
realizar poblacional.
muestral
inferencias acercacabede destacar
los parámetroslas siguientes:
poblacionales correspondi
yy Ausencia de sesgo. Un estimador es insesgado si continuación su valor medio se sobre
describen todasloslasprincipales
posibles estimadores d
muestras tamañosenprobó
de Como coincide continuación se describen los principales estimadores de la tendencia ce
Ejemplo 5.3 en el con
temaelanterior,
parámetro la media poblacional.
y la proporción La insesgadez muestralde un
estimador es una propiedad deseable ya que sus estimaciones variable. no diferirán sistemáticamente
del variable.
sonparámetro
estimadores poblacional.
insesgados de la media y la proporción poblacional,
1.2.1 Media aritmética
Ejemplo 5.3  Como
respectivamente, E( x se
) =probó en1.2.1
μ y E(p) el= tema
. Sinanterior,
πMedia la la
aritmética
embargo, media y la proporción
varianza muestral definida muestral son
estimadores insesgados de la media y la proporción La poblacional,
media aritmética, respectivamente,
denotada por E( x ), =se define como l
μpor
y E(p)
Σ(xi -= xπ.) Sin
2
/n esembargo, la varianza
un estimador La media
sesgado muestral definida
aritmética,
de la varianza por S(x
denotada
poblacional, pori – x ya), /n
2
es
seque un estimador
define como la suma de cada u
sesgado de la varianza poblacional, ya que valores muestrales dividida por el número de observac
valores muestrales dividida por el número de observaciones realizadas.
2
1 n
2 1 n 2 2 1 porn n el2 tamaño  1 muestral
n
 y por xi el valor observado pa
E   ( x i − x )  = E  por  xi − x  = nmuestral E ( x i )y−por E x el  xi  observado para el sujeto i-ésim
 n i =1   n i =1 n el tamaño i =1  ni i =1valor
la media vendría dada por
1 n la media 1  n 
=  E ( x i2 ) − vendría  Edada
2 
( x i2 )por
+ 2  E ( x i ) E ( x j ) 
n i =1 n  i =1  x + x 2 + ...
1≤ i < j ≤ n
1 n
n −1 n
2 1 n x = 
x + x 2 n+ ...
xi = 1
+ xn n
= 2  E ( x i2 ) − 2  E ( x i ) E ( xxj =)  x i = 1 i =1 .
n i =1 n 1≤i < j ≤ n n i =1 n
n −1 2 n − 1 La n −1
(σ + μ 2 ) −
= μ 2 =media σes2la
; medida de tendencia central más util
n La media es nla medida den tendencia central más utilizada y de más fá
interpretación. Corresponde al “centro de gravedad” de
interpretación. Corresponde al “centro de gravedad” de los datos de la m
es decir, este estadístico tiende a infraestimar la varianza poblacional σ 2 por un
principal limitación es que está muy influenciada por l
60 Pastor-Barriuso R. principal limitación es que está muy influenciada por los valores extrem
factor de (n – 1)/n. Notar que este sesgo será tanto mayor cuanto menor sea el
caso, puede no ser un fiel reflejo de la tendencia centra
caso, puede no ser un fiel reflejo de la tendencia central de la distribució
tamaño muestral. En consecuencia, es preferible utilizar la varianza muestral
es decir, este estadístico tiende a infraestimar la varianza poblacional σ por un
forma, seque
también tendrá una mayor
las distintas confianza en
estimaciones que
difieran laloestimación
menos se
continuación resultante
posible de la
de dicho
describen los principales estimadores de la t
factor de (n – 1)/n. Notar que este sesgo será tanto mayor cuanto menor sea el
Estimación puntual
muestra finalmente
parámetro, que1.2
la MEDIDAS
es decir, seleccionada
varianza estará DE
muestralTENDENCIA
próxima al parámetro
del estimador
variable. CENTRAL
seapoblacional.
mínima. DePor esta
tamaño muestral. En consecuencia, es preferible utilizar la varianza muestral
ello, entre
forma, los distintos
se tendrá estimadores
una mayor
Las confianza
medidas insesgados
deen que la de
tendencia un determinado
estimación
central resultante
informan parámetro, es es el valor más represe
de2 lade cuál
acerca
es decir, por
definida estesestadístico
2
= Σ(xi - xtiende
)2/(n –a1)infraestimar la varianza
1.2.1
como estimador Media poblacional
aritmética
insesgado σ por un factor
de la varianza de
(n – 1)/n.
convenienteNotar que este
seleccionar sesgo será tanto mayor cuanto menor sea el tamaño muestral. En
muestra finalmente deaquel
seleccionada
una que presente
estará
determinada una menor
próxima
variable varianza
al parámetro
mediao,aritmética,
dicho (o, de
poblacional.
de forma forma Por 2 estos estimadores ind
s2 =equivalente,
consecuencia, es preferible
poblacional, utilizar la varianza
La muestral definida por
denotada S(x i – x ), /(n
por – 1) como la sum
se define
como estimador
equivalente,
entre losun insesgado de
menor alrededor
error la varianza
estándar). poblacional,
ello, distintos estimadores quéEn general,
de insesgados
valor
valores
puede
sedeagrupan
un demostrase
determinado
los
muestrales datos que, si laesLas medidas de tendenc
parámetro,
observados.
dividida por el número de observaciones
 1 n 2
distribución seleccionar
conveniente poblacional subyacente
E(s 2
aquel
central de  ( xuna
es normal,
E lapresente
) = que muestra la
sirvenx )media
i − menor tanto
 n − 1 i =1 por n el tamaño

x. y la
2
 =varianza
σpara varianza
(o,
resumir
muestral
de los muestral observados como p
forma
y porresultados
xi el valor observado para el s
s2 son respectivamente
equivalente, un menor errorlos estimadores
estándar).
realizar insesgados
En
inferencias general,
acerca puede
dedelos σ 2 con menor
μ yparámetros
demostrase que,varianza.
si la
poblacionales correspondientes. A
yy Mínima varianza.  Además de la insesgadez la media
de un vendría
estimador,dada porque garantiza que las
estimaciones
distribución estarán centradas alrededor del parámetro poblacional,
x y la interesa
varianza también que
muestral
De la mismapoblacional subyacente
forma, la continuación
proporción es normal,
muestral p eslaellos
media
estimador insesgado de π con
las distintas estimaciones difieran lo se describen
menos posible de principales
dicho parámetro;estimadores de la que
es decir, tendencia
la central de
1 n x1 + x 2 + ... + x n
varianza
2
smenor
muestral del estimador sea mínima. De esta forma, se2 tendrá una mayor
son respectivamente los estimadores insesgados de μ y σ con menor xvarianza. =  x4i =
confianza .
error estándar. variable. n n
en que la estimación resultante de la muestra finalmente seleccionada esté próxima i =1 al
parámetro poblacional. Por ello, entre los distintos estimadores insesgados de un
De la misma forma, la proporción muestral p es el estimador insesgado de π con
determinado
Ejemplo 5.4parámetro, es conveniente
1.2.1
Para cualquier distribución seleccionar
Media aritmética aquel
La media
poblacional, quelapresente
la es
media medida
muestral una
de esmenor
un varianza
tendencia central más utilizada
(o, de forma equivalente, un menor error estándar). En general, puede demostrarse que, si
menor error estándar.
laestimador
distribución poblacional
insesgado deLa subyacente
la media es normal,
media aritmética,
poblacional y sulaerror
denotada media
interpretación. por x ,yse la define
varianza
Corresponde
estándar es al muestral
como la suma
“centro s2 son
de de cada uno
gravedad” dedeloslos
d
respectivamente los estimadores insesgados de μ y σ con menor varianza. De la misma
2

forma,
Ejemplo la proporción valores
muestral
5.4 Para cualquier pmuestrales
distribución dividida
es el estimador por
insesgado
principal
poblacional, laelmedia
número
limitación es de
de π muestral
con observaciones
menor
que es error
está muy estándar.
un realizadas.por
influenciada Silos
denota
val
σ
SE( x ) = .
Ejemplo 5.4  Para cualquiern
estimador insesgado de la media poblacional y suypuede
por el tamaño
distribuciónmuestraln
poblacional,
caso, por xla
error i el
no valor
media
ser
estándar observado
unmuestral para
es un
fiel reflejo
es deestimador sujeto i-ésimo,
laeltendencia centrali de
= 1,la
insesgado de la media poblacional y su error estándar es
la media vendría dada por
En el caso de que la distribución subyacente σsea normal, puede probarse que la
SE( x ) = . Ejemplo 1.4 En este y en los sucesivos ejemplos sobre
n la media1poblacional x +yxque su+ x n
mediana también es un estimador insesgado de 2 + ...
n
x= 
utilizarán losx ivalores
= 1 del colesterol . HDL obtenidos en
En el caso de que la distribución subyacente sea normal,n puede i =1 probarse nque la mediana
error
En
también estándar
el caso esde es
unque aproximadamente
la distribución
estimador insesgadosubyacente sea normal,
de la media poblacional puedey probarse
que Study que la
su error
estudio “European on estándar
Antioxidants, es Myocardial
aproximadamente
mediana también es un estimador La media es la medida
insesgado de lade tendencia
media centralymás
poblacional que utilizada
su y de más fácil
the
σ Breast“ (EURAMIC), un estudio multicéntrico de c
SE(mediana) ≅ 1,25 .
interpretación. Corresponde nal “centro de gravedad” de los datos de la muestra. S
error estándar es aproximadamente
entre 1991 y 1992 en ocho países Europeos e Israel par
Así, aunque ambos estimadores son insesgados, el error estándar de la mediana es un 25%
mayor que el de la media principal
muestrallimitación es que
y, por tanto, está muy
la mediana influenciada
tenderá porestimaciones
a facilitar los valores extremos y, en
σ
menos precisas que la media SE(mediana)
muestral. ≅ 1,25 .
caso, puede no ser un fiel reflejo n de la tendencia central de la distribución.
yy Consistencia.  Las propiedades de insesgadez y mínima varianza se refieren a la
distribución muestral del estimador para un tamaño n fijo de la muestra. La consistencia,
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestr
sin embargo, hace referencia al comportamiento del estimador al aumentar n. Se dice 5 que
un estimador es consistente si,utilizarán
al aumentar
loselvalores
tamañodel
decolesterol
la muestra, la probabilidad
HDL obtenidos endelos
que10 primeros suje
el estimador difiera del verdadero parámetro poblacional se reduce progresivamente. La
consistencia es, por tanto, un requerimiento
estudio “Europeanbásico paraon
Study unAntioxidants,
buen estimador ya que bastará
Myocardial Infarction and Canc
con aumentar el tamaño muestral para obtener estimaciones arbitrariamente próximas 5 al
verdadero parámetro. Por supuesto, la media,
the Breast“ la varianza
(EURAMIC), y la proporción
un estudio muestral
multicéntrico son y controles rea
de casos
estimadores consistentes de sus respectivos parámetros poblacionales.
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto d
Ejemplo 5.5  En el Ejemplo 4.9 se evaluó empíricamente el comportamiento de la media
muestral de colesterol HDL en muestras de tamaño n = 10, 25 y 100 obtenidas a partir
de los controles del estudio EURAMIC, donde la media poblacional del colesterol HDL

Pastor-Barriuso R. 61
Inferencia estadística

es μ = 1,09 mmol/l. La proporción de muestras con niveles medios de colesterol HDL
próximos a μ = 1,09 mmol/l, pongamos por ejemplo entre 1,03 y 1,15 mmol/l, aumentó
de un 48,7% para n = 10 a un 69,1% para n = 25 y a un 95,4% para n = 100. Este resultado
corrobora empíricamente la consistencia de la media muestral como estimador de la
media poblacional: la probabilidad de obtener estimaciones próximas al verdadero nivel
medio aumenta progresivamente conforme aumenta el tamaño muestral.

En los problemas de estimación más simples, como es el caso de una media o una proporción
poblacional, se dispone de un estimador natural que cumple las propiedades descritas
anteriormente. En otros problemas más complejos, como por ejemplo en la estimación de
parámetros en modelos de regresión, la elección de un estimador razonable no es tan directa. En
general, existen diversos métodos formales para obtener estimadores con buenas propiedades
estadísticas, entre los que destacan el método de máxima verosimilitud, el método de mínimos
cuadrados y el método de los momentos. Los métodos de mínimos cuadrados y máxima
verosimilitud se presentarán en el contexto particular de los modelos de regresión lineal (Temas
10 y 11) y logística (Tema 12), respectivamente. No obstante, los principios generales de estos
procesos de estimación y la evaluación de los estimadores resultantes pueden consultarse en los
textos de estadística matemática referenciados al final del tema.
TENDENCIA CENTRAL
5.3  ESTIMACIÓN POR INTERVALO
dencia central informan acerca de cuál es el valor más representativo
Como ya se ha comentado previamente, las estimaciones puntuales obtenidas a partir de una muestra
diferirán
variable o, dicho del equivalente,
de forma parámetro poblacional y, en consecuencia,
estos estimadores indican quedará un margen de incertidumbre que se
expresa en términos del error estándar del estimador. Así, resulta natural la pretensión de disponer de
unadatos
or se agrupan los medida
5.3.1 del parámetro
observados.
Distribución Las poblacional
t demedidas que incorpore tanto la estimación puntual como su error
Studentde tendencia
estándar. Esta medida es el intervalo de confianza, que facilita un rango de valores dentro del cual se
encontrará
a sirven tanto para resumir
5.3.1
El métodoellos
verdadero tvalor
resultados
Distribución
más del
paraparámetro
deobservados
extendido Student comopoblacional
el cálculo para conde
de intervalos unconfianza
cierto grado
se de confianza.
basa en las En este
apartado se describe detenidamente el procedimiento para la construcción de un intervalo de
confianza
acerca de los parámetros
El para
método
propiedades lade
másmedia
poblacionales poblacional.
extendido elLos
correspondientes.principios
para muestral
la distribución Adel
cálculo básicos del
de estimador.
intervalos de
Porcálculo e interpretación
confianza
el teorema secentral
basa endeldelímite
las intervalos
de confianza para otros parámetros son similares y se discutirán en los siguientes temas.
criben los principales estimadores
propiedades
sabemos dedistribución
que,depara
la la tendencia
cualquier centralaleatoria
muestral
variable dedeluna
estimador. Porμelyteorema
con media varianzacentral
σ 2, la del límite
5.3.1 Distribución t de Student
sabemos que,depara
distribución las cualquier variable aleatoria
medias muestrales con media μ y varianza
x es aproximadamente normal conσ 2,media
la μy
El método más extendido para el cálculo de intervalos de confianza se basa en las propiedades
tica de distribución
la distribución
varianza σ 2/n desimuestral
las
el medias
delmuestrales
tamaño esxsuficientemente
estimador.
muestral es aproximadamente
Por grande;normal
el teorema central del
es límite
decir, media μ que,
consabemos y para
cualquier variable aleatoria con media μ y varianza σ , la distribución de las medias muestrales
2
2
, denotada por x es defineσcomo
, varianza
seaproximadamente
/n silaelsuma decon
normal
tamaño cada uno es
media
muestral de los
μ ysuficientemente
varianza σ2/n si elgrande;
tamañoesmuestral
decir, es suficientemente
grande; es decir, 
~ N  μ, σ 2

x→ 
ividida por el número de observaciones realizadas. Si denotamos 
 n2 
x→ ~ N  μ , σ 
estral y por xi el valor observado para el sujeto i-ésimo, i = 1, ...,  n, n 
 
o, de forma equivalente, aplicando la estandarización de una distribución normal
da por o, de forma equivalente, aplicando la estandarización de una distribución normal
o, de forma equivalente, aplicando la estandarización de una distribución normal
x−μ ~
→ N (0, 1) .
1 n x1 + x 2 + ... + x n σ
x =  xi = . x−μ n ~
n i =1 n → N (0, 1) .
σ
n
Esta cantidad estandarizada depende de dos parámetros desconocidos: la media
edida de tendencia central más utilizada y de más fácil
Esta cantidad
62 Pastor-Barriuso
poblacional R.
μ,estandarizada depende
que es el parámetro de dos
objeto deparámetros
inferencia, desconocidos:
y la desviaciónlatípica
media
esponde al “centro de gravedad” de los datos de la muestra. Su
poblacional μ
poblacional σ,, que
que es
es el
unparámetro
parámetroobjeto denecesario
auxiliar inferencia, y laconocer
para desviación típica
el error estándar en
es que está muy influenciada por los valores extremos y, en este
s probabilidad en los extremos (Figura 5.1). Los grados de libertad de
la estimación de μ. Parece entonces lógico sustituir en la expresión anterior el valor
Estimación por intervalo
t de Student determinan su dispersión: al aumentar los grados de
desconocido de σ por la desviación típica muestral s. Sin embargo, como s es un
uye la variabilidad y la distribuciónt de Student se aproxima a una
Estaestimador de σ que conlleva
cantidad estandarizada depende a sude vezdosunparámetros
error de muestreo, el estadístico
desconocidos: la media resultante
poblacional ( xμ,-que
mal estandarizada. es elCuanto
parámetro menorobjetoseade el inferencia,
tamaño muestral y la n, mayor será
desviación típica poblacional σ, que es un parámetro
auxiliar
μ)/(s/necesario para conocer
n ) presentará una mayor el error estándar en
imprecisión. Puede la estimación
probarse que de μ.
la Parece entonces
distribución lógico
de este
t de
sustituir en la expresión anterior el valor desconocido de σ por la desviación típica muestral s.
Sinestadístico
embargo, ya como sLa
no será esnormal,
un estimador
distribución sino tquede σ que aproximadamente
deStudent
seguirá conlleva a su vez una
es una distribución un error dealrededor
distribución
simétrica muestreo,deel0 y de aspecto
á una mayo estadístico resultante (x − )/(s/ n ) presentará una mayor imprecisión. Puede probarse que la
distribución
conocida comode este deestadístico
tparecido
Student al deconya nno
una 1será normal,
- distribución
grados sino que
de libertad
normal seguirá por
y denotada
estandarizada, aproximadamente
tn-1,
aunque una
menos apuntada en el
ral es grande,s distribución
facilitará unconocida
estimación como t de Student
precisa deσ con n – 1 grados de libertad y denotada por tn–1,
centro y con más probabilidad x − μ ~ en los extremos (Figura 5.1). Los grados de libertad de
icho estadístico será aproximadamente normal. En la Tabla 5→del t n −1 .
s
una distribución t de Student n determinan su dispersión: al aumentar los grados de
entan los percentiles de la distribuciónt de Student para distintos
La distribución tlibertad,
de Student es una distribución
disminuye la variabilidad simétrica y la alrededor
distribución det0dey de aspecto
Student separecido
aproxima a una
ad. al de una distribución normal estandarizada, aunque menos apuntada en el centro y con más
probabilidad en los distribución
extremos (Figura normal 5.1).estandarizada.
Los grados de Cuanto libertad menor sea el tamaño
de una distribución t demuestral
Studentn, mayor será
determinan su dispersión: al aumentar los grados de libertad, disminuye la variabilidad y la
[Figura 5.1 aproximadamente
distribución t de Student se aproximaaquí] a una distribución normal estandarizada. Cuanto menor8sea t de
el tamaño muestral n, mayor será el error de la desviación típica muestral s y, en consecuencia,
la distribución t de StudentStudent otorgará
otorgará una mayo dispersión al estadístico (x − )/(s/ n ). Por el
unamayor
contrario, si el tamaño muestral
6 De la Tabla 5 del Apéndice se obtiene que el percentil 97,5 es grande, s facilitará
en unauna estimación precisa de σ, de tal forma
que la distribuciónelde dichomuestral
tamaño estadístico será aproximadamente
es grande, normal. En
s facilitará un estimación la Tabla
precisa deσ 5 del
Apéndice se presentan los percentiles
n t de Student con 2, 5, 10 y 30 grados de libertad es respectivamente de la distribución t de Student para distintos grados de
libertad. distribución de dicho estadístico será aproximadamente normal. En la Tabla 5 del
303, t5;0,975 = 2,571, t10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de
Ejemplo 5.6 Apéndice De la Tabla 5 del Apéndice
se presentan los percentiles se obtiene que el percentil
de la distribución 97,5 en
t de Student paraunadistintos
nes simétricas en 0, eldistribución
percentil 2,5 t decoincide
Studentcon 5, 10 y 30 grados de libertad es respectivamente t2;0,975 =
conel2,correspondiente
4,303, t5;0,975 grados
= 2,571, t
de libertad.
10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de distribuciones
7,5 con signo opuesto; simétricas
es decir, en 0, el=percentil
t2;0,025 2,5 coincide
-4,303, t5;0,025 = -2,571, con el correspondiente percentil 97,5 con signo
t10;0,025
opuesto; es decir, t2;0,025 = – 4,303, t5;0,025 = – 2,571, t10;0,025 = – 2,228 y t30;0,025 = – 2,042. Por
= -2,042. tanto, elel95% central dedelaladistribución t [Figura
de Student 5.1 con
aproximadamente
2, 5, 10 y 30 grados aquí] de libertad
tdistribución
30;0,025 simétricatanto,
Por alrededor 95% de central
0 y de aspectodistribuciónt de
está comprendido entre ± 4,303, ± 2,571, ± 2,228 y ± 2,042, respectivamente. Así, puede
nl estandarizada,
2, 5, 10 y 30 grados
aunqueobservarse
demenos
libertad queestá
apuntadala comprendido
dispersión
en el deentre ± 4,303, ± t de Student disminuye al aumentar los
la distribución
grados de libertad, aproximándose a una distribución normal estandarizada (95% de los
Ejemplo 5.6 De la Tabla 5 del Apéndice se obtiene que el percentil 97,5 en una
228 y ± 2,042,
extremos (Figura 5.1).valores
respectivamente. entreAsí,
Los grados ±de1,96,
puede Ejemplo
libertad de 3.11).
observarse que la
distribución t de Student con 2, 5, 10 y 30 grados de libertad es respectivamente
de
an lasudistribución
dispersión: t
al de Student
aumentar disminuye
los grados
5.3.2  Intervalo de confianza al aumentar
de para una losmedia
gradospoblacional
de
t2;0,975 = 4,303, t5;0,975 = 2,571, t10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de
a distribuciónt de Student
A partir de se
losaproxima
resultadosa anteriores
una puede construirse un intervalo de confianza para la media
poblacional. En general, la distribucionespor
estimación intervaloenlleva
simétricas 0, elasociada
percentiluna coincide conoelnivel
2,5probabilidad de
correspondiente
uanto menor sea el tamañodenotada
confianza, muestral n,enmayor
términosserá porcentuales por 100(1 – α)%, que indica la cobertura del
parámetro poblacional. Aunque percentil en97,5
la práctica
con signo se utilizan
opuesto; 9 casi exclusivamente
es decir, los intervalos
t2;0,025 = -4,303, t5;0,025 = de
-2,571, t10;0,025
confianza al 95% (α = 0,05), t de nos referiremos aquí de forma genérica al intervalo de confianza
al 100(1 – α)% para la media = -2,228
poblacional. = -2,042. la
y t30;0,025Utilizando Por tanto, el 95%
aproximación t decentral
Studentdeallaestadístico
distribución t de
(x − )/(s/ n ), se sigue que hay una probabilidad 1 – α de que dicho estadístico esté
Student con 2, 5, 10 y 30 grados de libertad está comprendido entre± 4,303, ±
ará un estimación precisa deσ
2,571, ± 2,228 y ± 2,042, respectivamente. Así, puede observarse que la
aproximadamente normal. En la Tabla 5 del
dispersión de la distribución t de Student disminuye al aumentar los grados de
de la distribuciónt de Student para distintos Pastor-Barriuso R. 63
libertad, aproximándose a una distribución normal estandarizada (95% de los

valores
Inferencia estadística entre ± 1,96, Ejemplo 3.11).

libertad, aproximándose a una distribución normal estandarizada (95% de los


5.3.2 Intervalo de confianza para una media f(x) poblacional
valores entre ± 1,96, Ejemplo 3.11).
A partir de los resultados anteriores puede construirse un intervalo de confianza para la
N(0, 1)
t
media poblacional.
5.3.2 Intervalo En general,para
de confianza la estimación
una mediapor intervalo lleva asociada una 30
poblacional t10
t5
probabilidad nivel de confianza
A partir de loso resultados , denotada
anteriores en términos
puede construirse un porcentuales por 100(1
intervalo de confianza - α)%,
t2 para la

que indica
media la cobertura
poblacional. del parámetro
En general, poblacional.
la estimación Aunque lleva
por intervalo en la asociada
práctica se
unautilizan casi

exclusivamente
probabilidad los intervalos
o nivel de confianza
de confianza , denotadaalen
95% (α = 0,05),
términos nos referiremos
porcentuales aquí
por 100(1 - αde
)%,

forma
que genérica
indica al intervalo
la cobertura de confianza
del parámetro poblacional. α)% para
al 100(1 - Aunque enlalamedia poblacional.
práctica se utilizan casi

exclusivamente
Utilizando los intervalos
la aproximación deStudent
t de confianza al 95% (α (=x0,05),
al estadístico - μ)/(s/
nos nreferiremos
), se sigue aquí de
que hay

forma
una genérica al1intervalo
probabilidad de dicho
- α de que confianza al 100(1
estadístico - αcomprendido
esté )% para la media
entrepoblacional.
los percentiles

α/2 y 1 - α/2
Utilizando la de una distribución
aproximación t de Student
t de Student con n – 1( xgrados
al estadístico - μ)/(s/
de libertad, denotados
n ), se sigue que hay
-3 -2 -1 0 1 2 3

respectivamente
una probabilidadpor y tn-1,1-
1 - tαn-1,deα/2que dicho α/2;estadístico
esto es,x esté comprendido entre los percentiles
Figura 5.1  Función de densidad
1.2 MEDIDAS de la distribución t de Student con
DE TENDENCIA 2, 5, 10 y 30 grados de libertad,
CENTRAL Figuray 5.1
fun-
ción de densidad normal estandarizada.
α/2 y 1 - α/2 de una distribución 
t de Student con n – 1 grados de libertad, denotados

 x − μ central informan 
Las medidasP t −1α/2 de tendencia
,α / 2 y<1 – α/2 de< t una acerca de cuál es el valor más representativ
/ 2  = 1 − α .t de Student con n – 1 grados
comprendido entre los
respectivamente tn-1,α/2 y tnn-1,1-
porpercentiles ;
α/2 s esto es, distribución
n −1,1−α
 por tn–1,α/2 ; esto es,
de libertad, denotados respectivamente
de una 
determinada n y tn–1,1–α/2
variable o, dicho de forma equivalente, estos estimadores indican
a distribución simétrica alrededor de 0 y de aspecto
 
al estandarizada, aunque menos se
Este resultado apuntada en
representa el
alrededor de qué valor
gráficamente x − μenselaagrupan los datos observados. Las medidas de tendencia
P t n −1,α / 2 < < t n −1,1−α / 2 5.2.
Figura =1− Por
α .la simetría de la
 s 
extremos (Figuradistribución
5.1). Los grados central de

de libertad
t de Student, la
tn-1,αde
/2 =muestra
-t n
sirven
n-1,1-α/2 y la tanto
expresión para resumirpuede
 anterior los resultados observados como para
rescribirse
Estecomo
nan su dispersión: alresultado
aumentar selos
representa
realizar
grados gráficamente
de inferenciasenacerca la Figura de los5.2.parámetros
Por la simetría de la distribución
poblacionales t de
correspondientes. A
Este resultado se representa gráficamente en la Figura
Student, tn–1,α/2 = – tn–1,1–α/2 y la expresión anterior puede rescribirse como 5.2. Por la simetría de la
la distribuciónt de Student se aproxima continuación
a una se describen los principales estimadores de la tendencia central de una
distribución t de Student, tn-1,α/2 = -tn-1,1-α/2 y la expresión anterior puede rescribirse
 x−μ 
Cuanto menor sea el tamaño muestral n, variable.
mayor P −será
t n −1,1−α / 2 < < t n −1,1−α / 2  = 1 − α .
como s
 
 n 
t de Media aritmética
1.2.1 s s 
P x − t n −1,1−α / 2 < μ < x + t n −1,1−α / 2  =1−α .
 
Para despejar la media poblacional, se nmultiplica cada término  n de la desigualdad por el error
x − μ muestral 
(x Para
estándar despejar
− )/(s/ n )y alacontinuación
media
La poblacional,
P − tse
media −1resta
se< multiplica
,1−α / 2 la
naritmética, media
denotada< t n −cada término
1−α / 2 x,,=
1,por αde. lacomo
resultando
se
1 −define desigualdad
que la sumapor de el
cada uno de los
 s 
Así, elestándar
intervalo de confianza  muestrales
(IC) al
y a continuación s 100(1 n- α)% para la  media
s  depoblacional
xobservaciones viene
precisa deσ s/ nPvalores
ará un estimaciónerror  x − t n −1,1−α / 2
sedividida
resta la por
media muestral
el número
< μ < x + t n −1,1−α / 2
, resultando
 = 1 − α .
que
realizadas. Si denotamos
 n n
determinado pormedia ndel
por5poblacional,
el tamaño se muestral y porcada xi eltérmino
valor observado para el sujeto i-ésimo, i = 1, ..., n,
aproximadamentePara despejar
normal. En la Tabla multiplica de la desigualdad por el10
Así, el intervalo de confianza (IC) al 100(1 – α)% para la media poblacional viene determinado por
de la distribuciónAsí,
t de el intervalo dedistintos
confianzavendría (IC) al 100(1por - α)% spara la media poblacional viene
error Student
estándarparas/ n lay media
a continuacióndada se resta la media muestral x , resultando que
x ± t n −1,1−α / 2 ,
determinado por n
1 n x + x 2 + ... + x n 10
x =  xi = 1 .
que depende tanto de la estimación puntual x (valor n i =1 del intervalo) n como de su
s central
64 Pastor-Barriuso R.

.1 aproximadamente aquí] x ± t n −1,1−α / 2 ,


n
error estándar s/ n . La media es la medida de tendencia central más utilizada y de más fácil
Estimación por intervalo

tn-1

1.2 MEDIDAS DE TENDENCIA CENTRAL

La distribución tLas
de Student
medidasesdeuna distribución
tendencia centralsimétrica
informanalrededor
acerca dedecuál
0 y es
deelaspecto
valor más representativo
1-α
parecido al de una de
distribución normal variable
una determinada estandarizada,
o, dichoaunque menos
de forma apuntadaestos
equivalente, en elestimadores indican
a distribución simétrica alrededor de 0 y de aspecto
centro y con más probabilidad
alrededor deen losvalor
qué extremos (Figura
se agrupan los5.1).
datosLos grados deLas
observados. libertad de de tendencia
medidas
al estandarizada, aunque menos apuntada en el
una distribución t de Student
central de determinan
la muestra sirven su dispersión:
tanto para alresumir
aumentar loslos grados de
resultados observados como para
α /2
extremos (Figura 5.1). Los grados de libertad de α/2
libertad, disminuyerealizar la variabilidad y la distribución t de Student se
inferencias acerca de los parámetros poblacionales correspondientes. A aproxima a una
nan su dispersión: al aumentar los tn-1,α/2grados de 0 tn-1,1-α/2
distribución normalcontinuación
estandarizada. Cuanto menor
se describen seax el
los principales −μ tamaño muestral
estimadores n,
de mayor
la será central de una
tendencia
la distribuciónt de Student se aproxima a una s
variable. n t de
Figura 5.2
uanto menor sea el tamaño muestral n, mayor será
Student otorgará
Figura 5.2 una mayo muestral del estadístico (x − )/(s/ n ).
Distribución
1.2.1 Media aritmética
t de
el tamaño que muestral
depende Laes media
grande,
tanto de facilitará
s la estimación
aritmética, un estimación
denotada puntual por x ,precisa
(valor
se define deσcomo
central dellaintervalo)
suma de cada como unodedesulos
error
DIDAS DE TENDENCIA CENTRAL
(x − )/(s/ n .)
estándar
distribución1.2 de MEDIDAS
dicho DE TENDENCIA
estadístico será aproximadamente CENTRALnormal. En la Tabla 5 del
Los límitesvalores muestrales
del intervalo estándividida
determinados por el número
por datosdemuestrales
observaciones realizadas. Sieldenotamos
y, en consecuencia, intervalo
didas
ará undeestimación
tendencia central
precisainforman
de σ acerca de cuál es el valor más representativo
ApéndiceLasde confianza
se presentan variará en función de la muestra seleccionada. El principio fundamental de la estimación
medidas por de nloseltendencia
percentiles
tamaño muestral de la informan
central distribución
y por xi el t de Student
acerca
valor de cuál es
observado para distintos
elpara
valor el más
sujeto representativo
i-ésimo, i = 1, ..., n,
por intervalo radica en que, de todas las posibles muestras del mismo tamaño de la población de
determinada
aproximadamentevariablenormal.
o, dichoEn delaforma equivalente, estos estimadores indican
grados dereferencia,
libertad. el 100(1 –Tabla
α)% de5 los delintervalos resultantes incluirá el parámetro poblacional. Así, aunque
de una determinada
la media vendría variable o, dicho
dada por de forma equivalente, estos estimadores indican
no es posible saber si efectivamente un intervalo concreto incluye o no el parámetro desconocido, se
ordedelaqué valor se agrupan
distribución t deuna
Studentlos datos paradel observados.
distintos Las medidas de tendencia
l estudio EURAMIC. tendrá En cadaconfianzaunavalor de las 100(1 – α)% en que el único intervalo disponible esté entre aquellos que
alrededor de qué se agrupan los datos observados. Las medidas de tendencia
contienen dicho parámetro. [Figura En
5.1 otras palabras,1el nivel
aproximadamente n
dexconfianza
aquí] 1 + x 2 + ...de x n intervalo hace referencia a
+ un
de la muestra sirven tanto para resumir los resultados observados x =  x i como = para .
mo la frecuencia con la cual el método producenintervalos certeros y no a la probabilidad de que el
n observados
central de la muestra sirven tanto para resumir i =1 los resultados como para
intervalo obtenido en una muestra concreta incluya el parámetro poblacional.
inferencias acerca de los parámetros poblacionales correspondientes. A
.1 realizarobtenidas
inferencias a partir acercade los de controles
los parámetros del estudio EURAMIC.
poblacionales En cada una de
correspondientes. A las
s aproximadamente
Ejemplo aquí]
5.6
s Ejemplo De La la5.7 
Tabla
media 5es del
la
En la Figura Apéndice
medida de se obtiene
tendencia que
centralel percentil
más 97,5
utilizada eny una
de más fácil
ación = xse±describen
2,262 los, principales estimadores de 5.3 se presentan
la tendencia centrallos ICde unaal 95% para la media poblacional del
10 10 colesterol
muestras,
continuación HDL
el IC
se describen en
al 100
95% muestras
se calculó
los5,principales aleatorias
como
estimadores de tamaño n =
de laestendencia 10 obtenidas
central de a partir
una de los
distribución de Student
tinterpretación. conCorresponde
2, 10 y 30algrados “centro dede libertad
gravedad” respectivamente
de los datos de la muestra. Su
. controles del estudio EURAMIC. En cada una de las muestras, el IC al 95% se calculó como
Apéndice
s medias ysedesviaciones
tobtiene que típicas
variable. el percentil muestrales.97,5 en una = 2,228 sy t = 2,042.sPor tratarse de
2;0,975 = 4,303, t5;0,975
principal =limitación
2,571, t10;0,975
es
x ±quet 9;0está
, 975
muy30;0,975
=influenciada
x ± 2,262 por, los valores extremos y, en este
edia aritmética 10 10
5, 10 y 30 grados x 1.2.1de libertad es respectivamente
tra se obtuvodistribuciones
= 1,20 Media simétricas
y scaso,
= aritmética
0,30,
puede de talen 0,
no serelunpercentil
fiel reflejo 2,5 decoincide con el central
la tendencia correspondiente
de la distribución.
a aritmética, denotada por x y, se
donde s sondefinelas correspondientes
como la suma de medias
cada yuno desviaciones
de los típicas muestrales. Así, por ejemplo,
= 2,228 y t30;0,975 = 2,042.
donde x y Por
s son tratarse
las de
correspondientes medias
a0;0,975 percentil
media poblacional La media 97,5
de con
colesterol
en la aritmética, signo
primera muestra HDL opuesto;
denotada es
se obtuvo decir,
por x = , set
1,20 =
y s =como
define
2;0,025 0,30,desviaciones
y
-4,303, lat5;0,025
de tal
suma =de
forma típicas
-2,571,
que
cada launo muestrales.
testimación
de los puntual de la
10;0,025

muestrales dividida por el


media número Ejemplo
poblacional de 1.4 En esteHDL
observaciones
de colesterol yrealizadas.
enresultó
los sucesivos
Si
ser denotamos
1,20 ejemplos
mmol/l y sobre
su IC al estimadores
95% muestrales, se
1,20 ± 2,262·0,30/
el percentil 2,5 coincide
= -2,228 Así,
y10 con
por el
tmuestrales correspondiente
ejemplo,
= -2,042. enPor la primera
tanto, elmuestra
95% se
central obtuvo la xdistribución
de puede 1,20 y tsde
=afirmarse = 0,30, de tal
% 1,20 ± 2,262⋅0,30/ valores = (0,99;
30;0,025 (0,99; 1,41);
dividida
1,41); es decir,
es por a partir
el número de esta
de muestra
observaciones realizadas. con Siuna confianza
denotamos del 95%
tamaño muestral y quexilaelmedia
por valor utilizarán
poblacional
observado los valores
del colesterol
para el del
sujeto colesterol
HDL
i-ésimo, HDL
se encuentra
i = 1, obtenidos
entre
..., n, en los 10
0,99 y 1,41 mmol/l. primeros sujetos del
o; es decir, t2;0,025
Student = -4,303,
forma 2, t5,
que 10lay=estimación
-2,571, t10;0,025
puntual de la media poblacional de± colesterol
4,303, ± HDL
ncon 30 grados de libertad está comprendido entre
5;0,025
afirmarse con una porconfianza
el tamaño 95% queylapor xi el valor observado para el sujeto i-ésimo, i = 1, ..., n,
del muestral
a tanto,
vendríaeldada por estudio “European Study on Antioxidants, Myocardial InfarctionPastor-Barriuso
and Cancer R. of65
95% central
2,571, de
± 0,99
2,228 la distribución
± 2,042, t de
L se encuentra la media
entre resultóy y1,41
vendríaser 1,20 respectivamente.
dadammol/l
mmol/l. por y su IC al 95% Así, puede
1,20 ±observarse
2,262⋅0,30/que 10la= (0,99; 1,41); es
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado
s de libertaddispersión de1la distribución
está comprendido n
entre x1±+4,303,
x 2t de ±+ x n disminuye al aumentar los grados de
+ ...Student
Inferencia estadística

En este ejemplo ilustrativo, donde se conoce el verdadero valor de la media poblacional


μ = 1,09 mmol/l, puede comprobarse empíricamente el significado del nivel de confianza
al 95%: 94 de los 100 intervalos calculados contienen efectivamente la media poblacional,
mientras que los 6 restantes no la contienen. Un IC particular puede o no incluir el
parámetro y, por tanto, carece de sentido decir que hay una probabilidad del 95% de que
μ se encuentre dentro de un intervalo concreto.

La estimación por intervalo facilita un rango de valores verosímiles o compatibles con la


media poblacional μ, cuya amplitud depende de:
yy El nivel de confianza 100(1 – α)%. Cuanto mayor sea la confianza deseada para un
intervalo, mayor será la amplitud del mismo.

0,6 0,8 1 1,2 1,4 1,6


Nivel medio de colesterol HDL (mmol/l)
Figura 5.3

Figura 5.3  Estimaciones puntuales (círculos) e intervalos de confianza al 95% (líneas horizontales) para
la media poblacional del colesterol HDL en 100 muestras aleatorias de tamaño n = 10 obtenidas a partir de
los controles del estudio EURAMIC. La línea vertical en trazo discontinuo corresponde al verdadero nivel
medio μ = 1,09 mmol/l de colesterol HDL.

66 Pastor-Barriuso R.
• El error estándar de la estimación SE( x ) = s/ n . Cuanto mayor sea el error de la
esto es, la media
MEDIDAS DE TENDENCIA poblacional del colesterol HDL se encuentra entre 0,89 y 1,51
CENTRAL
se calcularía como
estimación,
mmol/l con unamayor confianza será del la amplitud
99%. Notar del intervalo. Es decir,eslamás
que este intervalo amplitud
amplio deque
un el
Contraste de hipótesis

medidas de tendenciaEjemplo 5.8 En la acerca


central informan primerademuestra cuál s es del el valor
ejemplo 0,30 el IC al 99% (α = 0,01)
másanterior,
representativo
intervalo de confianza x ± t 9;0aporta, 995 una = 1medida
,20 ± 3,250 de la precisión = (0,89;de la1,51);
estimación.
correspondiente intervalo al 95% 10 (0,99; 1,41). 10
na determinada variable se o, dicho
calcularía
Ejemplo de
5.8 como forma equivalente, estos estimadores
En la primera muestra del ejemplo anterior, el IC al 99% (α = 0,01) se indican
calcularía como
dedor de qué valor se agrupan Ejemplo
esto es,losla5.9
datosEn observados.
media una muestraLas
poblacional aleatoria
medidas de tamaño
de tendencia n =encuentra
100 de los controles del
• El error estándar de la estimación s delSE( colesterol
x ) = s/ 0HDL n,30 se
. Cuanto mayor sea entreel 0,89
erroryde 1,51
la
x ± t 9;0,995 = 1,20 ± 3,250 = (0,89; 1,51);
EURAMIC
ral de la muestra sirven mmol/l
tanto para resumir se obtuvo x =10del
los resultados 1,09 s = 0,31,que
yobservados 10
resultando
como paraun IC al es 95% para la que
media
estimación,con una
mayor confianza
será la amplitud 99%. del Notar
intervalo. Es estedecir,
intervalo
la amplitud más deamplio
un el
esto es, la media poblacional del colesterol HDL se encuentra entre 0,89 y 1,51 mmol/l
izar inferencias acerca esto poblacional
decorrespondiente
los la
es, parámetros
media depoblacional
poblacionales
intervalo al
del 95% correspondientes.
(0,99;
colesterol 1,41).
HDL se esAmás amplio
encuentra
con una
intervalo confianza
de confianzadel 99%.
aporta Notar
una que
medida este de intervalo
la precisión de la entre 0,89
que
estimación. y 1,51
el correspondiente
intervalo al 95% (0,99; 1,41).
tinuación se describenmmol/l los principales estimadores
con una confianza delde 99%.sla tendencia
Notar quecentral 3de1 una es más amplio que el
este0,intervalo
El error ±latla 97x 1,09x ±) 1=,9s/84 n =
SE( = (1,03; 1,15).
yy El error
•Ejemplo 5.9estándar
estándar
En una dede muestra estimación
99estimación
;0, 5
100 de tamaño n 10
aleatoria =. Cuanto
Cuanto
100 de losmayor
mayor seaseael del
controles error
el de la
error de la
able. estimación,
correspondiente mayor será la amplitud
intervalo al 95% (0,99; del intervalo.
1,41). Es decir, la amplitud de un intervalo de
confianza
EURAMIC aporta
estimación, una medida
mayor
se obtuvo será
x = la1,09 de la
y sprecisión
amplitud de la estimación.
del intervalo.
= 0,31, resultando Esun decir,
IC alla95% amplitud
para la demedia
un
1 Media aritmética Así, a partir de esta muestra de mayor tamaño, se concluye que la media
• El intervalo
error
Ejemplo
poblacional deEn
estándar
5.9 de confianza
de
una lamuestra aporta
estimación una
SE(medida
aleatoria xde s/denla. nCuanto
) =tamaño precisión
= 100 de de
mayorloslacontroles
estimación.
sea el error
del de la
EURAMIC
media aritmética, denotada poblacional
se obtuvo por x ,=se1,09 del colesterol
definey s =como HDL
0,31,laresultando se
suma de cada encuentra
un IC uno entre
al de
95% 1,03 y 1,15 mmol/l
lospara la media poblacional decon un
estimación, mayor será la amplitud del intervalo. Es decir, la amplitud de un
s Este 0,31 n = más
ores muestrales dividida Ejemplonivelelde
por 5.9 En
confianza
número ±una
x de del muestra
95%.
t observaciones
99; 0 , 975
aleatoria
,intervalo
= 1realizadas. de tamaño
09 ± 1,984 es
Simucho
denotamos 100 de
= (1,03; los controles
preciso
1,15). que los del
intervalo de confianza aporta100 10
una medida de la precisión de la estimación.
intervalos
EURAMIC representados
se
n el tamaño muestral y por xi el valor observado para obtuvo x en
= laelFigura
1,09 y s = 5.3
sujeto 0,31, para
i-ésimo, muestras
resultando unde
i = 1, ..., n,IC al 95%n para
tamaño = 10.la media
Así, a partir de esta muestra de mayor tamaño, se concluye que la media poblacional del
Así, a partir
colesterol HDL de esta
se muestra de
encuentra mayor tamaño, se concluye unque la media
media vendría dada porEjemplo poblacional
5.9 Ende una muestra entre aleatoria 1,03de y 1,15
tamaño mmol/ln = 100con de nivel
los de confianza
controles del del 95%.
Este
Como intervalo
se verá es másmuchoadelante, más precisoel cálculo quedelos losintervalos
intervalosrepresentados
de confianzaen eslasimilar
Figurapara5.3 para
poblacional
muestras de del
tamañocolesterol
n = 10. HDL se encuentra entre 1,03 y 1,15 mmol/l con un
EURAMICn se obtuvo x = 1,09 ys s = 0,31, resultando 0,31unalIC100(1 al 95% para la media
1
todos los parámetros. x1xEn xt 99
+± general,
2 ;+ ... + elx nintervalo
= 1 , 09 ±de confianza
1,984 = (1,03; - α )% para un
1,15).
Como nivel x de
se verá 
= confianzax i = del 95%. Este intervalo
n i =1más
0 , 975
100
. es mucho 10 más preciso que los
poblacional de adelante,nel cálculo de los intervalos de confianza es similar para todos
los determinado
parámetros. parámetro
En general, poblacional
el intervalo se construye
de confianza como al 100(1 – α)% para un determinado
parámetrointervalos representados
poblacional seesta
construye en la Figura
como 5.3 para muestras de tamaño n = 10.
Así, a partir de
La media es la medida de tendencia central más utilizada muestra s de mayor tamaño,
y de más fácil 0,31 se concluye que la media
x ± t 99;0,975 estimador = 1,09 ± 1,984
puntual ± x1–α/2 SE, = (1,03; 1,15).
poblacional del colesterol 100
HDL se encuentra 10
entrede 1,03 y 1,15 mmol/l conpara
un
Como se verá más adelante,
rpretación. Corresponde al “centro de gravedad” de los datos el cálculo de losdeintervalos
la muestra. confianza
Su es similar
donde x1–α/2 denota el percentil 1 – α/2 de la distribución muestral del estimador.
nivel de confianza delpor 95%. Este intervalo essemucho másque preciso que 13
cipal limitacióntodos
es queAsí,
losestáa partir
parámetros.
muy de esta muestra
En general,
influenciada de
el mayor
losintervalo
valores tamaño,
de confianza
extremos concluye
y, en al este
100(1 α)%
- la paralos
media un
5.4  CONTRASTE DE HIPÓTESIS
o, puede no ser undeterminado intervalos
fielpoblacional
reflejo de ladel
parámetro representados
colesterol
poblacional
tendencia HDL
central en sela Figura
seconstruye
de encuentra
la 5.3como
para
distribución. entremuestras
1,03 y 1,15 mmol/lncon
de tamaño = 10.un
En ocasiones, el interés de la investigación se centra no tanto en estimar un parámetro desconocido,
sino en niveldilucidar si dichodelparámetro
de confianza 95%. Esteesintervalo compatible con unmás
es mucho valor predeterminado.
preciso que los A partir de
Como
conocimientos se verá
previos máso adelante,
mediante estimador
un el puntual
cálculo
razonamiento de los x1- α/2 SE,
±lógico,
intervalos
se puedende confianza
elaborar es similar
hipótesis o para
conjeturas
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
sobre intervalos
el fenómeno o parámetroen
representados objetola Figurade estudio5.3 para (pormuestras
ejemplo,deestablecer
tamaño nla= hipótesis
10. de que la
todos
media de los
una parámetros.
población En
toma general,
un valor el intervalo
determinado).
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del de Laconfianza
validez al
de 100(1
estas - α )%
hipótesis para un
poblacionales
13 ha
de ser contrastada estadísticamente a partir de la información disponible en la muestra. Las técnicas
queComo
estudio “European permiten
determinado
Study onevaluar
se verá parámetro el grado
más adelante,
Antioxidants, poblacionaleldecálculo
Myocardial compatibilidad
se de construye
Infarction de
como
los intervalos
and losCancer
datos
de muestrales
confianza
of con una
es similar parahipótesis
predeterminada se conocen genéricamente con el nombre de tests (pruebas o contrastes) de hipótesis.
todos los parámetros.
the Breast“ (EURAMIC), un estudio Enmulticéntrico
general,estimador el intervalo
de casos dey confianza
puntual controles
±x al 100(1 - α)% para un
realizado
SE,
1-α/2
5.4.1  Formulación de hipótesis
entre 1991 y determinado
1992 en ochoparámetro poblacional
países Europeos se para
e Israel construye como
evaluar el efecto de los
Los tests de hipótesis parten del planteamiento de una hipótesis nula, denotada por H013 , que
representa el valor preestablecido del parámetro poblacional.
estimador puntual ± x1-α/2 SE, Esta hipótesis nula se aceptará si
5
los datos muestrales no aportan suficiente evidencia en contra de la misma. Por el contrario, si
se cuenta con pruebas suficientes para contradecir la hipótesis nula, ésta se rechazará en favor
de una hipótesis alternativa, denotada por H1, que corresponde generalmente a la negación 13 de la

Pastor-Barriuso R. 67
tratamiento;
Ejemplo 5.10esEn
decir, la presión
un estudio paraarterial medialade
determinar la población
eficacia tratada con el
de un fármaco
Inferencia estadística

fármaco μT es igual
antihipertensivo, a la medialade
se compara la población
presión arterial no
de tratada μP.deLapacientes
un grupo hipótesistratados

alternativa
hipótesis
con nula.
dichoEnsería,
estepor
fármaco el la
punto,
con contrario,
cabe que las
de unincidir
grupo presiones
en pacientes
de arteriales
que el término
tratados medias
“aceptar”
con ladehipótesis
placebo. ambas
La nula no
implica que dicha hipótesis sea efectivamente cierta, sino que se carece de evidencia suficiente
poblaciones
para rechazarla. son
Como
hipótesis nula másdistintas.
se verá Así,
natural, más eladelante,
en estecontraste de
caso, eslas hipótesis de
la hipótesis quedaría
nunca formulado
pueden
no efecto como
del ser corroboradas
completamente, quedando siempre un margen o probabilidad de error.
tratamiento; es decir, la presión arterial H0: μmedia
T = μP,
de la población tratada con el
Ejemplo 5.10  En un estudio para determinar la eficacia de un fármaco antihipertensivo,
se compara
fármaco la presión
μT es igual a laarterial
mediadedeunlaH grupo de pacientes
población tratados
no tratada μP. Lacon dicho fármaco con la
hipótesis
1: μT ≠ μP.
de un grupo de pacientes tratados con placebo. La hipótesis nula más natural, en este caso,
es la hipótesis
alternativa sería,depornoelefecto del que
contrario, tratamiento; es decir,
las presiones la presión
arteriales mediasarterial media de la
de ambas
La hipótesis nula se aceptará a no ser que los resultados del ensayo clínico
población tratada con el fármaco μT es igual a la media de la población no tratada μP. La
hipótesis alternativa
poblaciones sería, Así,
son distintas. por el contrario,
contraste de quehipótesis
las presiones arteriales
quedaría medias
formulado de ambas
como
muestren una gran diferencia entre los grupos que resulte poco compatible
poblaciones son distintas. Así, el contraste de hipótesis quedaría formulado como con

una ausencia de efecto del tratamiento. H0 : μ T = μ P ,


H1 : μ T ≠ μ P .
Supongamos hipotéticamente que el grupo control del estudio EURAMIC
La hipótesis nula se aceptará a no ser que los resultados del ensayo clínico muestren una
sentidos.
granEndiferencia
algunas
constituye lanulacircunstancias,
entre losa grupos
población donde
estudio. que
Para lascontrastar
desviaciones
resulte poco si la de la hipótesis
compatible
media con unanula en de efecto
ausencia
poblacional del
La hipótesis
del tratamiento. se aceptará a no ser que los resultados del ensayo clínico
algún sentido carecen de importancia o son simplemente inconcebibles, es posible
colesterol
Supongamos
muestren HDL
una μ esdiferencia
gran igual a unentre
hipotéticamente determinado
que ellosgrupo
grupos valor,
control pongamospocopor
del estudio
que resulte ejemplo 1con
EURAMIC
compatible constituye la
población a estudio. Para contrastar si la media poblacional del colesterol HDL μ es igual
formular un contraste unilateral, aceptando como evidencia contra H0 únicamente las
mmol/l,
una el testdedeefecto
a un ausencia
determinado hipótesis
valor, se formularía
pongamos
del por ejemplo
tratamiento. como1 mmol/l, el test de hipótesis se formularía
como
diferencias en un sentido.
Supongamos hipotéticamente que el H grupo control del estudio EURAMIC
0 : μ = 1,
H1 : μ ≠ 1.
constituye
Ejemplo 5.11la población
En el estudio a estudio. Para contrastar
de la eficacia si la antihipertensivo,
del fármaco media poblacionalsedel formuló
La elección entre ambas hipótesis dependerá de los resultados obtenidos en una muestra
colesterol
de los
una HDL
controles
hipótesis μdelesestudio
igualbilateral
alternativa a EURAMIC.
un determinado
H1: μT ≠ μPvalor, pongamos
. En este caso, sepor ejemplo
admite que 1la
La elección entre ambas hipótesis dependerá de los resultados obtenidos en una
En mmol/l,
evidenciaelen
testcontra
los ejemplos de hipótesis
de la se
anteriores, se
haformularía
hipótesis como
nula puede
planteado provenir alternativa
una hipótesis tanto por unbilateral;
efecto nocivo
es decir, se
muestra de los controles del estudio EURAMIC.
aceptan como evidencia contra la hipótesis nula las diferencias en ambos sentidos. En algunas
circunstancias, donde(μlas
del tratamiento T>μ desviaciones
P) como por la de la hipótesis
Heficacia
0: μ = 1,
μT <algún
nula (en
del mismo μP). Sisentido
en fasescarecen de
importancia o son anteriores,
En los ejemplos simplemente inconcebibles,
se ha planteado una eshipótesis
posible formular
alternativaunbilateral
contraste; esunilateral,
aceptando como
previas del evidencia
ensayo clínico contraseHha
0 únicamente
H : μ ≠las
comprobado 1.ladiferencias
ausencia deenefectos
un sentido.
secundarios
1
decir, se aceptan como evidencia contra la hipótesis nula las diferencias en ambos
del tratamiento,
Ejemplo la posibilidad
5.11  En el estudio de delaque la presión
eficacia arterial media
del fármaco de los tratados
antihipertensivo, sea
se formuló una
La elección entre ambas hipótesis dependerá de los resultados obtenidos en
hipótesis alternativa bilateral H1: μT ≠ μP. En este caso, se admite que la evidencia en una
superior
contra dea la media de los
hipótesis nulanopuede
tratados (μT > μtanto
provenir P) carecería
por unde sentido
efecto y sólodel
nocivo podría
tratamiento
muestra de los controles del estudio EURAMIC. 15
(μT > μP) como por la eficacia del mismo (μT < μP). Si en fases previas del ensayo clínico
explicarse por variabilidad
se ha comprobado la ausenciaaleatoria. En talsecundarios
de efectos caso, cabríadel plantearse el siguiente
tratamiento, la posibilidad de
que la presión arterial media de los tratados sea superior a la media de los no tratados
En contraste
los ejemplos anteriores,
de hipótesis se ha planteado una hipótesis alternativa bilateral; es
(μT > μP) carecería de unilateral
sentido y sólo podría explicarse por variabilidad aleatoria. En tal
caso, cabría plantearse el siguiente contraste de hipótesis unilateral
decir, se aceptan como evidencia contra la hipótesis nula las diferencias en ambos
H0 : μ T = μ P ,
H1 : μ T < μ P ,
15
donde sólo se considera como alternativa a H0 la posibilidad de que el tratamiento
antihipertensivo sea eficaz.
donde sólo se considera como alternativa a H0 la posibilidad de que el tratamiento

68 antihipertensivo
Pastor-Barriuso R. sea eficaz.

Los contrates bilaterales son más conservadores que sus correspondientes contrates
Contraste de hipótesis
1.2 MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central informan acerca de cuál es el va


Los contrastes bilateralesDE
1.2 MEDIDAS sonTENDENCIA
más conservadoresCENTRAL que sus correspondientes contrastes
unilaterales, dado que aquellos contemplan desviaciones de H0 en cualquier sentido. En la
de una determinada variable o, dicho de forma equivalente, estos
mayor parte de las aplicaciones 1.2 prácticas seDE
MEDIDAS utilizan hipótesis CENTRAL
TENDENCIA alternativas bilaterales, ya que
Las medidas de tendencia central informan acerca de cuál es el valor más representativo
resulta imposible excluir con absoluta certeza diferencias en alguno de los dos sentidos. Así,
alrededor de qué valor se agrupan los datos observados. Las medi
todos los contrastes de hipótesis planteados a lo largo de este texto están basados en hipótesis
de una determinada variablede
Las medidas o, tendencia
dicho de forma
centralequivalente, estos de
informan acerca estimadores
cuál es el indican
valor más represen
alternativas bilaterales.
central de la muestra sirven tanto para resumir los resultados obse
alrededor de qué de valor se agrupan los
una determinada datos o,
variable observados. Las medidas
dicho de forma de tendencia
equivalente, estos estimadores indi
realizar
5.4.2  Contraste estadístico para la media de una población inferencias acerca de los parámetros poblacionales corres
central de la muestra sirven
alrededor tantovalor
de qué paraseresumir
agrupan loslos
resultados observados
datos observados. Lascomo para de tendencia
medidas
En este apartado se discuten los conceptos continuación
básicos para se la describen
realizaciónlose principales
interpretación de un de la tenden
estimadores
contraste de hipótesis bilateral
realizar inferencias sobredelalamedia
acerca
central de los de
muestra una población.
parámetros
sirven Esto
poblacionales
tanto para es, correspondientes.
resumirselos
pretende contrastar
resultados A
observados como pa
la hipótesis nula H0: μ = μ0 frente a la hipótesis alternativa bilateral H1: μ ≠ μ0, donde μ0 es un
variable.
valor predeterminado de laserealizar
continuación media poblacional.
describen El contraste
los principales
inferencias acerca de otros
estimadores
de de parámetros,
los parámetros la tendencia así como
central
poblacionales delauna
correspondientes. A
comparación de parámetros entre distintas poblaciones, se presentará en temas posteriores.
1.2.1 Media aritmética
La elecciónvariable. continuación
entre las hipótesis se describen
nula y alternativa los principales
dependerá estimadores
de los resultados de la tendencia
obtenidos en la central de u
muestra o, más concretamente, de la compatibilidad La media aritmética, de la media muestral
denotada por x ,con el valor
se define como la suma de
predeterminado 1.2.1μ0Media variable.
. Comoaritmética
la media muestral es un estimador sujeto a error, el objetivo es
determinar si laCENTRAL
EDIDAS DE TENDENCIA variabilidad inherente al muestreo valoresconstituye
muestralesuna dividida por el probable
explicación número de paraobservaciones
la realiz
diferencia observada
La mediaentre la media
aritmética,
1.2.1 muestral
denotada
Media por x ,yseeldefine
aritmética valorcomo predeterminado
la suma de cada μ0 deuno la de medialos
poblacional. Para ello, se calcula la probabilidad por n el de tamaño
que bajomuestral y por xi el
la hipótesis valor
nula, unaobservado
media para el sujeto
edidas de tendencia
muestralcentral
inferior oinforman
igual
valores
difiera que
tanto acerca
oα más
se La
muestrales de
rechazacuál laes
μ0 que
dividida
demedia el valor
hipótesis
elpor
aritmética, más
nula
el número
valor representativo
o, de observaciones
observado
denotada forma
de x .,equivalente,
por Esta
se define se afirma
realizadas.
probabilidad
como que
Si conoce
se
la suma denotamos
de cada uno de los
como valor P del contraste de hipótesis y determina la media vendría el grado dada por
de compatibilidad de los datos
determinada variable
muestrales o, dicho
porde
los resultados
con nson
la forma
el tamaño
hipótesisequivalente,
estadísticamente
muestral
valores Si yestos
nula. muestrales por estimadores
significativos;
este xvalor
i el valor
divididaP en
es indican
caso
observado
por el contrario,
elevado,número para
los el
desi P es
sujeto
datos superior
i-ésimo,
observaciones
muestrales α 1, ..., n, Si denotam
arealizadas.
i serán
=
compatibles con el valor μ0 de la media poblacional, careciendo así de evidencia 1 n para rechazar
x1 + x 2 + ... + x n
dor de qué valorlasehipótesis
seagrupan loshipótesis
aceptanula.
la datos
media observados.
vendría
nula,
por dada
n Las
por
concluyendo
el tamañomedidas que de
los
muestral tendencia
Por el contrario, si el valor P es pequeño,i la media muestralresultará
resultados
y por x eldelvalortest no x
son
observado= x i =el sujeto
para pocoi-ésimo, i. = 1, .
n i =1 n
compatible con el valor preestablecido μ0, concluyendo entonces que los datos aportan suficiente
l de la muestra sirven tanto para
estadísticamente resumir los resultados
significativos.
la media observados
vendría Endada como para
evidencia para rechazar dicha hipótesis. n por cuanto menor sea el valor P, menos
1general, x + x + ... + x n
compatibles serán los datos con la hipótesis x =nula.La x i = 1es la 2medida de
media .tendencia central más utilizada y de
r inferencias acerca de losconocer
Para parámetros poblacionales
el valor P del contraste es npor
correspondientes. A
i =1tanto necesario n calcular la probabilidad
La decisión de rechazar la hipótesis nula se basa en la definición 1 n de un x umbral
+ x 2 + ... + xn
preestablecido
o nivel
uación se describen losde significación
principales α, tradicionalmente
estimadores de la tendencia
interpretación.
α = central
x
0,05. Sideeluna
=
valor
n

Corresponde x i = 1 al “centro
P es inferiorno igual
.
de gravedad”
que α se de los datos
de que las mediasLa media de todaslalas posibles muestras de tamaño inutilizada
=1 difieran tanto o más de μ0
rechaza la hipótesis nula o, es de formamedida de tendencia
equivalente, se afirmacentralquemáslos resultados yson
de estadísticamente
más fácil
significativos; en caso contrario, si P es superior principal a α limitación
se acepta la eshipótesis
que está muy nula,influenciada
concluyendopor los valores e
le.
que el valor observado deCorresponde
interpretación. xLa, asumiendo
media al
es
que los resultados del test no son estadísticamente significativos.
que
“centro
la la media
medida de de poblacional
gravedad”
tendencia de los
central μ
es datos. Bajo
0más de la muestra.
utilizada y de Su más fácil
caso, puede no ser un fiel reflejo de la tendencia central de la dist
Media aritmética Para conocer
hipótesis nula elHvalor
principal 0 : μ =Pμ del
limitación
0
contraste
es que
interpretación.
, las medias es
está por
muy tanto
Corresponde
muestrales senecesario
influenciada
al “centro
distribuirán calcular
por los la probabilidad
valores
de gravedad”
alrededor deextremos
μde lostal
0, de
de
y, en
datos queestela muestra. Su
de
las medias de todas las posibles muestras de tamaño n difieran tanto o más de μ0 que el valor
observado
dia aritmética, denotada
forma porque xsus
decaso,
,,asumiendo
sedesviaciones
definenocomo
puede que lalamedia
principal suma
serestandarizadas
un fiel poblacional
de cada
reflejo
limitación deesla Ejemplo
uno es μlos
deestá
tendencia
que 1.4
0. Bajo
muy En la
central este dey la
hipótesis
influenciada endistribución.
los
nulasucesivos
por Hlos
0: μ = μejemplos
valores 0, las
extremossobre
y, estim
en e
medias muestrales se distribuirán alrededor de μ0, de tal forma que sus desviaciones estandarizadas
s muestrales dividida por el número de observaciones caso, puederealizadas.no ser un fiel utilizarán
reflejolos
Si denotamos de valores
la tendencia del colesterol
central deHDL obtenidos en los 1
la distribución.
Ejemplo 1.4 En este y en x −sucesivos
los μ0 ejemplos sobre estimadores muestrales, se
t=
el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, s estudioi = 1,“European
..., n, Study on Antioxidants, Myocardial Infar
utilizarán los valores Ejemplo del1.4colesterol
En esten HDL y en los obtenidos
sucesivos en ejemplos
los 10 primeros sujetos del muestra
sobre estimadores
ia vendría dadaseguirán
por the Breast“ (EURAMIC), un estudio multicéntrico de casos
aproximadamente una distribución t de Student con n – 1 grados de libertad (Apartado
seguirán
5.3.1). estudio
aproximadamente
Una vez “European
calculado el valor Study
utilizarán
una distribución on
los
de este estadístico Antioxidants,
valores
t de Student tdel Myocardial
colesterol
con
a partir 1 HDL
nde- los grados Infarction
datos obtenidos
de and
libertad
observados en los Cancer
en10 of
la primeros sujet
entre 1991 y 1992 en ocho países Europeos e Israel para eva
1 n P delx1contraste
muestra, el valor + x 2 + ...vendrá
+ x n determinado por el área bajo la curva de la distribución
= 
parax aquellos
tn–1 (Apartado
the Breast“
x i = Una vez calculado
5.3.1). (EURAMIC),
estudio un
“European
. el valor de esteestudio Studymulticéntrico
on Antioxidants,
estadístico de casos
t a partir y controles
Myocardial
de los realizadoand Cance
datos Infarction
n i =1 valores tanto n o más distantes de 0 que el valor observado de t (esto es,
desviaciones de μ0 mayores o iguales que la observada en cualquiera de los dos sentidos). En la
observados
Figura en laentre
5.4 se representa
1991 el
muestra, y 1992
gráficamentevalor en
the Breast“ocho
Peldel países Europeos
(EURAMIC),
contraste
cálculo del valorvendrá un eestudio
Israel para
determinado
P para este contraste
evaluar
multicéntrico
por eldeárea elde
efecto
bajo
hipótesis.
casosde los
y controles real
media es la medida de tendencia central más utilizada y de más fácil
la curva de la distribución tn-1 para entreaquellos
1991 y 1992 valores en tanto
ocho opaíses Europeosde
más distantes e Israel
0 que parael evaluar el efecto de
Pastor-Barriuso R. 69 5
etación. Corresponde al “centro de gravedad” de los datos de la muestra. Su
valor observado de t (esto es, desviaciones de μ0 mayores o iguales que la observada en
pal limitación es que está muy influenciada por los valores extremos y, en este
Inferencia estadística

x − μ0
Distribuci ón de t = bajo H 0 : μ = μ 0
s
n
tn-1

1.2 MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central informan


P/2 acerca de cuál es el valor más representativo
P/2

de una determinada variable o, dicho de forma equivalente, estos estimadores indican


-t 0 t
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia (valor observado)
MEDIDAS DE TENDENCIA CENTRAL Figura 5.4

central de la muestra
Figura sirven tanto
5.4  Valor para elresumir
P para losbilateral
contraste resultados
de la observados
media de unacomo para
población.
medidas de tendencia central informan acerca de cuál es el valor más representativo
realizar inferencias acerca de los parámetros poblacionales : μ = 1,
H0correspondientes. A
Ejemplo 5.12  Supongamos que se pretende contrastar si la media poblacional del
na determinada variable o, dicho de forma equivalente, estos estimadores indican
colesterol
continuación se describen HDL en los
los principales controles del
estimadores de laHEURAMIC es igualdea una
: μ ≠ 1. central
1tendencia 1 mmol/l mediante el test de
hipótesis bilateral
edor de qué valor se agrupan los datos observados. Las medidas de tendencia
variable.
Para ello, se obtiene una muestra de H 0 : μ = 1,
tamaño n = 10 donde la media y desviación
al de la muestra sirven tanto para resumir los resultados observados H1 : μ ≠ 1. como para
1.2.1 Media aritmética típica resultaron ser x = 1,20 y s = 0,30 mmol/l. A partir de estos datos se calcula
zar inferencias acercaPara
de los parámetros
ello, se obtiene poblacionales
una muestracorrespondientes.
de tamaño n = 10Adonde la media y desviación típica
La media aritmética, resultaron
denotada
el estadístico por x ,=contraste
ser del se1,20 ys=
define 0,30lammol/l.
como suma de A cada
partiruno
de estos
de losdatos se calcula el estadístico
Para
nuación se describen del ello, se obtiene
los contraste
principales una muestra
estimadores de tamañocentral
de la tendencia n = 10 de donde
una la media y desviación
valores muestrales dividida por el número de observaciones realizadas. Si denotamos
ble. típica resultaron ser x = 1,20 xy − ,20 − 1 A partir de estos datos se calcula
s =μ 00,301mmol/l.
t= = = 2,11,
por n el tamaño muestral y por xi el valor observado para s 0,30 i-ésimo, i = 1, ..., n,
el sujeto
el estadístico del contraste n 10
Media aritmética
la media vendría dadaque pordetermina la diferencia estandarizada (dividida por el error estándar) entre la media
que determina
por x ,yse
muestral ella diferencia
valor predeterminadox − μ 0 μ cada
estandariza − 1 de
1,20 uno
(dividida porlos
el error estándar) entre la
edia aritmética, denotada define como t =la suma de =0. La distribución
= 2,11,muestral de este estadístico bajo
la hipótesis 1nula n H : μ = 1 seguirá s 0,30
0 x1 + x 2 + ... + xaproximadamente una t de Student con 9 grados de
–n1 n n
es muestrales dividida media
por el (n
libertad x =
muestral
número x
= dex
10 y=el valor
i observaciones predeterminado
– 1 = 9). nAsí, sirealizadas..
la hipótesis μ10
Si. La distribución
fuera ciertamuestral
denotamos
0 nula (esto es, de este
si la verdadera
i =1
media poblacional fuera 1 mmol/l), la probabilidad de obtener una muestra de 10 sujetos
el tamaño muestral ycon poruna
que xi elmedia
estadístico
determinavalor
bajola deobservado
hipótesispara
ladiferencia
colesterol nulaelHsujeto
superior 0: o
estandariza μ igual
i-ésimo,
a 1,20ipor
=(dividida
1 seguirá =mmol/l
1,el..., n,
aproximadamente
(mayor
error una
o igual
estándar) tdesviación
entredela que
La media es la medida de tendencia
la observada por lacentral
derecha)másoutilizada
inferior oy de mása fácil
igual 0,80 mmol/l (mayor o igual desviación
edia vendría dada porquemedia la observada
Student con 9 grados
muestral xpor
y ella izquierda)
devalor
libertad (nsería
- 1 = 10 - μ10.=La
predeterminado 9).distribución
Así, si la hipótesis
muestral nula fuera
de este
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su
cierta (esto es, sixla +verdadera + media
x n H0: poblacional
1 n bajo
estadístico x 2 + ... nula
la1 hipótesis μ = 1 seguiráfuera 1 mmol/l), la probabilidad
aproximadamente una t de
principal limitación es que x =está
n
 muy
x i = influenciada
n
por los
. valores extremos y, en este
de obtener una muestra de 10 sujetos con una media de colesterol superior o igual
70 Pastor-Barriuso R. i =1

caso, puede no ser unStudent con de


fiel reflejo 9 grados de libertad
la tendencia central(n de- 1la= distribución.
10 - 1 = 9). Así, si la hipótesis nula fuera

a media es la medida ade 1,20


cierta
mmol/l (mayormás
tendencia
(esto es,central
o igual
si la verdadera
desviación
utilizada
media y de quefácil
más
poblacional
la observada por la derecha) o
fuera 1 mmol/l), la probabilidad
a 1,20 mmol/l (mayor o igual desviación que la observada por la derecha) o

inferior o igual a 0,80 mmol/l (mayor o igual desviación que la observada por la
Contraste de hipótesis

izquierda) sería

P = P( x ≥ 1,20 | H0 ) + P( x ≤ 0,80 | H0 )
   
 x − μ 0 1,20 − μ 0   x − μ 0 0,80 − μ 0 
= P ≥ H 0  + P ≤ H0 
 s s   s s 
 n n   n n 

≈ P(t9 ≥ 2,11) + P(t9 ≤ − 2,11) = 2P(t9 ≥ 2,11) = 0,064,


que corresponde al área bajo la curva de la distribución t9 para valores superiores a 2,11
(valor observado del estadístico) o inferiores a – 2,11. Notar que el valor exacto de P se
que corresponde
ha obtenido por alordenador.
área bajo laNocurva de la distribución
obstante, utilizando lat9 para
Tablavalores
5 del superiores
Apéndice, puede
S DE TENDENCIAcomprobarse
CENTRAL que el estadístico t = 2,11 está comprendido entre los percentiles t9;0,95 =
a1,833
2,11 y(valor
t9;0,975 observado
= 2,262, dedel estadístico)
lo cual se deduceo inferiores a -2,11.
la desigualdad Notar
0,025 que≥el2,11)
< P(t valor< 0,05, que
9
equivaleacerca
e tendencia central informan a un valor P bilateral
de cuál comprendido
es el valor entre 0,05 < P < 0,10.
más representativo
exacto de P se ha obtenido por ordenador. No obstante, utilizando la Tabla 5 del
Si se adopta el nivel de significación α = 0,05 como regla de decisión, los resultados de
inada variable o, dicho demuestra
esta forma equivalente,
no aportan estos estimadores
1.2 MEDIDAS
suficiente DE indican
TENDENCIA
evidencia CENTRAL
para rechazar la hipótesis nula (P = 0,064 >
0,05), concluyendo que la verdadera media poblacional del colesterol HDL no19resulta
ué valor se agrupan los datos observados.
significativamente Las medidas
distinta de tendencia
de 1demmol/l.
Las medidas tendencia central informan acerca de cuál es el valor más representativ
muestra sirven tantoElpara resumir
valor los resultados
P determina observados
la significación como para
estadística deo,losdicho
resultados de un contraste de hipótesis,
de una determinada variable de forma equivalente, estos estimadores indican
y depende tanto de la magnitud de la diferencia entre el verdadero valor del parámetro y su
ncias acerca de valor
los parámetros poblacionales
predeterminado bajo H0,correspondientes.
como delvalor
tamaño Amuestral. Así, una pequeña diferencia puede
alrededor de qué se agrupan los datos observados. Las medidas de tendencia
resultar estadísticamente significativa si el tamaño muestral es suficientemente grande y, por el
e describen loscontrario,
principales estimadores
Supongamosgranque sedeplantea
la tendencia nocentral de una :μ
si laHmuestra
una diferencia
central laelmuestra
puede
de mismo contraste
alcanzar bilateral
sirvenlatanto de laestadística
significación
para resumirhipótesis nula
los resultados es como para
0observados
insuficiente. En consecuencia, el valor P no debe interpretarse como una medida de la magnitud
de la diferencia
= 1 a partiro de
asociación
unarealizarobjeto
muestra de de estudio.
tamaño
inferencias n = 100
acerca de con media x = poblacionales
los parámetros 1,09 mmol/l y correspondientes. A

ritmética Ejemplo 5.13 


desviación típicaEns =el0,31
ejemplo
continuación mmol/l.anterior
se se observó
El estadístico
describen del una diferencia
contraste
los principales es en eldecolesterol
estimadores la tendenciaHDL central de una
Supongamos
de 0,20 mmol/l que se plantea
entre el valoreldeterminado
mismo contraste bajo labilateral
hipótesis denula
la hipótesis nula Hy0:laμ media
μ0 = 1 mmol/l
x ,=se1,20
mética, denotada por Supongamos mmol/l
define como en una
sumamuestra
laplantea
que variable. x − de
deelcada μunotamaño
de los−n1bilateral
= 10. Los dexresultados
la hipótesisdel testH no fueron
se mismo 0 contraste
1,09 nula 0: μ
= 1 a partir de una muestra tde
= tamaño n
= = 100 con= media
2,90 = 1,09
estadísticamente significativos (P = 0,064) pero la magnitud de la diferencia podría ser mmol/l y
s 0,31
rales dividida por el número de observaciones
clínicamente importante de realizadas.
confirmarsenSi denotamos
en estudios con mayor tamaño muestral.
= 1 a partir típica
desviación de una1.2.1
s muestra
Media
= 0,31 de aritmética
tamaño
mmol/l. n = 10010con
El estadístico delmedia
contrastex = es1,09 mmol/l y
Supongamos que se plantea el mismo contraste bilateral de la hipótesis nula H0: μ = 1 a
o muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n,
partir
y, por de
desviación una
tanto,típica s =media
elmuestra
La
valor de
P0,31 tamaño
mmol/l. n El
aritmética,
vendría = 100 con media
estadístico
determinadodenotada x ,=se1,09
del contraste
por mmol/l
es comoy la
define desviación
suma de cadatípicauno de los
s = 0,31 mmol/l. El estadístico del μ 0 1,09por
x − contraste −1
es
ría dada por t= = = 2,90
valores muestrales s dividida 0,31por el número de observaciones realizadas. Si denotamos
x − μ 0 1,09 −=12P(t ≥ 2,90) = 0,005.
P = P(t99 ≥ 2,90) t =+ P(t99n≤ =-2,90) 10 = 2,90
99
x + x 2 + ... s
+ xnnel tamaño muestral 0,31
1 por 10 xi el valor observado para el sujeto i-ésimo, i = 1, ..., n,
y por
n
x =  xi = 1 . n
y,
=1 por tanto,
n iUtilizando nvalor P vendría
laelaproximación determinado
normal por
a la distribución t de Student con 99 grados de
y, por tanto, el valor P vendría
la media determinado
vendría dada por por
y, por tanto, el valor P vendría determinado por
libertad, el valor
P = P(tP también puede
P(t99aproximarse
≤ − 2,90) =a2P(tpartir≥de2,90)la Tabla 3 del Apéndice
s la medida de tendencia central más 99 ≥ 2,90)
utilizada y de+más fácil 99 = 0,005.
1 n
x1 + x 2 + ... + x n
como
Utilizando laPaproximación
Corresponde al “centro de gravedad”
= P(t99 ≥ 2,90)
de los datos
normal
+ P(t99
de la
a la -2,90) =x 2P(t
≤ distribución
muestra. Su n

= t 99 x2,90)
i =
de≥Student =con 99 grados. de libertad,
0,005.
n 99 grados de
Utilizando
el la aproximación
valor P también normal a laa distribución
puede aproximarse t de Student
i
partir de la Tabla
=1 con
3 del Apéndice como
ación es que está muyUtilizando
influenciada
libertad, el la Ptambién
porPlos =valores
aproximación
valor ≥extremos
puede 2,90)
2P(t99normal ≈ 2{1
a la y, Φ(2,90)}
en− este
distribución t de=deStudent
0,004. con del
99 grados de
La media es laaproximarse a partir
medida de tendencia la Tabla
central más3 utilizada
Apéndice
y de más fácil
o ser un fiel reflejo deEn este caso,central
la tendencia
libertad,
como
aunquedelaladiferencia
el valor P también
entre el valor predeterminado y la media muestral
distribución.
puede aproximarse a partir de la Tabla 3 del Apéndice
En este caso,
resultó aunque la diferencia
interpretación.
ser sensiblemente menor entre el valor
Corresponde
(0,09 predeterminado
al “centro
mmol/l), y la media
de gravedad”
los resultados dedel
los test
datosfueron
de la muestra. Su
como
1.4 En este y en los muestral
sucesivosresultó ser
ejemplos sensiblemente
principal
Psobre
= 2P(t menor
limitación (0,09
es 2{1
que mmol/l),
-está
99 ≥ 2,90) ≈muestrales,
estimadores muy = los resultados
se influenciada
Φ(2,90)} 0,004. del Pastor-Barriuso
por los test
valores extremos
R. 71 y, en este

fueronHDL
n los valores del colesterol estadísticamente
P =en
caso,
obtenidos significativos
2P(t
puede no
los9910 ser un≈(P
≥ 2,90)
primeros =
2{1
fiel 0,005),
reflejo
sujetos aportando
- Φ(2,90)}
de
del suficiente
la=tendencia
0,004. centralevidencia
de la distribución.
En este caso, aunque la diferencia entre el valor predeterminado y la media
Inferencia estadística

estadísticamente significativos (P = 0,005), aportando suficiente evidencia para rechazar


la hipótesis nula.

La realización de una prueba de hipótesis presenta la misma estructura básica para todos los
parámetros. En general, se calcula primero un estadístico del contraste, cuyo numerador
corresponde a la diferencia entre el valor observado en la muestra y el valor esperado bajo la
hipótesis nula, y cuyo denominador representa la variabilidad o error estándar de la estimación.
El valor P se obtiene entonces como la probabilidad de obtener un valor del estadístico tanto o
más extremo que el observado en el estudio, asumiendo que la hipótesis nula es cierta.
El contraste de hipótesis para un determinado parámetro está relacionado con su
correspondiente intervalo de confianza. Si se contrasta la hipótesis nula H0: μ = μ0 frente a
la hipótesis alternativa bilateral H1: μ ≠ μ0, el resultado será estadísticamente significativo
para un nivel α = 0,05 si el IC al 95% para μ no incluye el valor μ0. Por el contrario, este
contraste no resultará estadísticamente significativo si el IC al 95% para μ contiene al valor
μ0. No obstante, ambos métodos facilitan 1.2 MEDIDAS
información DEcomplementaria.
TENDENCIA CENTRAL El intervalo de
confianza aporta una medida de la magnitud y precisión en la estimación del parámetro,
aunque no facilita el valor exacto de P Las o elmedidas
grado dedecompatibilidad
tendencia centralconinforman
una hipótesis
acercanula
de cuál es el valor
de interés. El valor P sí determina la compatibilidad de los datos con una determinada
hipótesis, pero no facilita una medida de de la
unamagnitud del parámetro
determinada variable o, odicho
asociación
de formaobjeto de
equivalente, estos esti
estudio. En general, el uso de los contrastes de hipótesis como forma exclusiva de presentar
los resultados de un estudio está siendo ampliamente
alrededor cuestionado
de qué valor se agrupan enlosla datos
actualidad. La Las medidas
observados.
presentación de los resultados de un estudio ha de consistir fundamentalmente en el
estimador puntual y el intervalo de confianza,
central dequela pueden
muestra completarse con el
sirven tanto para P deresultados
valor los
resumir la observa
hipótesis correspondiente.
realizar inferencias acerca de los parámetros poblacionales correspon
Ejemplo 5.14  En la primera muestra de tamaño n = 10 del Ejemplo 5.7 se obtuvo una
media de 1,20 mmol/l y una desviación típica de
continuación se0,30 mmol/l,
describen losde tal formaestimadores
principales que el IC alde la tendencia
95% para la media poblacional del colesterol HDL resultó ser (0,99; 1,41). Estos mismos
datos muestrales se emplearon en elvariable.
Ejemplo 5.12 para el contraste bilateral de la hipótesis
nula H0: μ = 1, obteniendo un valor P de 0,064. Ambos resultados son consistentes dado
que el IC al 95% incluye el valor preestablecido de 1 mmol/l para la hipótesis nula y, por
1.2.1 Media aritmética
tanto, el contraste no resulta estadísticamente significativo para un nivel α = 0,05.
En el Ejemplo 5.9, a partir de unaLamuestra
media aritmética, n = 100 con
de tamaño denotada por x ,=se1,09 mmol/l
define comoyla suma de cada
s = 0,31 mmol/l, se obtuvo un IC al 95% para la media poblacional del colesterol HDL de
valores muestrales
(1,03; 1,15). El correspondiente contraste de H0: μ = 1dividida
frente apor
H1:elμnúmero de observaciones
≠ 1 se realizó en el realizada
Ejemplo 5.13, resultando un valor P de 0,005. En este caso, el valor 1 mmol/l queda fuera
de los límites de confianza al 95%por ny,elen
tamaño muestral ylos
consecuencia, xi el valor observado
porresultados para el sujeto i-é
del test son
estadísticamente significativos.
la media vendría dada por
5.4.3  Errores y potencia de un contraste de hipótesis
1 n x + x 2 + ... + x n
x =  xi = 1 .
Como se comentó anteriormente, las hipótesis nunca pueden ser corroboradas n i =1 completamente,
n
quedando siempre un margen o probabilidad de error. La elección entre las hipótesis nula y
alternativa conlleva a alguna de las situaciones presentadas en la Tabla 5.1. Si se acepta la
hipótesis nula cuando ésta es cierta, o si seLarechaza
media la
es hipótesis
la medidanula
de tendencia
cuando lacentral más utilizada
alternativa es y de más
cierta, se habrá tomado una decisión correcta. Sin embargo, es posible cometer alguno de los
siguientes tipos de error en un contraste interpretación.
de hipótesis: Corresponde al “centro de gravedad” de los datos de l

principal limitación es que está muy influenciada por los valores extr
72 Pastor-Barriuso R.
caso, puede no ser un fiel reflejo de la tendencia central de la distribu
Contraste de hipótesis
P(error de tipo I) = P(rechazar H0 | H0 cierta)
P(error de tipo I) = P(rechazar H0 | H0 cierta)
= P(t ≥ tn-1,1-
Tabla 5.1  Resultados α/2 | H0 en
posibles cierta) + P(t ≤ tn-1,
un contraste /2 | H0 cierta)
deαhipótesis.
==P(t n-1,1-α/2 | H0 cierta)
P(t≥ t≥ t ≤+t P(t ≤) t=n-1,αα/2
) + P(t Realidad /2 | H0 cierta)
+ α/2 = α,
n-1 n-1,1-α/2 n-1 n-1,α/2
Decisión H0 cierta H1 cierta
Aceptar H0 = P(tn-1 ≥ tn-1,1-Correcto α/2) =deαtipo
α/2) + P(tn-1 ≤ tn-1,Error /2 +II α/2 = α,
es decir, la probabilidad
Rechazar H0
de cometer un error de
Error de tipo I
tipo I viene determinada
Correcto
de

esantemano
decir, la probabilidad
por el nivel dedesignificación
cometer un αerror . Así,depor tipo I vienepara
ejemplo, determinada
un test condeun
yy El error de tipo I consiste en rechazar la hipótesis nula cuando ésta es, en realidad, cierta.
Como
antemano
nivel de se significación
comentó
por el nivel anteriormente,
de
α =significación α. Así,
0,05, laelprobabilidad
nivel por incurrir αenpara
de significación
de ejemplo, seunutiliza
un test
error para
de con
tipoclasificar
un
I los
resultados obtenidos en un test como significativos si el valor P ≤ α, en cuyo caso se
rechaza
nivel
seráde la0,05;
hipótesis
delsignificación esto es,nula, ohipótesis
αsi=la0,05, como nonula
significativos
la probabilidad es cierta, de éstasi Pse>rechazará
incurrir α,
en enun cuyo
error caso
de tipose acepta
erróneamente I la
hipótesis nula. Con esta regla de decisión, puede comprobarse a partir de la Figura 5.4 que
en un
será del 5%
0,05; de esto
los contrastes de hipótesis realizados
es cierta, sobre todas las posibles
P(error de tipoes, I) =si P(rechazar
la hipótesis nula
H 0 | H 0 cierta)
ésta se rechazará erróneamente
= P(t ≥ tn 1,1 α /2 | H 0 cierta) + P(t ≤ tn 1 ,α /2 | H 0 cierta)
enmuestras
un 5% de dellos mismo tamaño.
contrastes de hipótesis realizados sobre todas las posibles
EDIDAS DE TENDENCIA CENTRAL = P(tn 1 ≥ tn 1,1 α /2 ) + P(t n 1 ≤ t n 1 , α /2 ) = α /2 + α /2 = α ;
muestras
es decir, la delprobabilidad
mismo tamaño. delos cometer un error de tipo I viene determinada
Ejemplo 5.15 A partir de controles del EURAMIC se obtienen 1000de antemano por
muestras
didas de tendencia central informan acerca de cuál es el valor más representativo
el nivel de significación α. Así, por ejemplo, para un test con un nivel de significación
α aleatorias
=  0,05, la deprobabilidad
tamaño nde= los
10 dey,incurrir
en cadaen una undeerror
ellas,desetipo I será
realiza del 0,05;deesto es, si la
el contraste
esEjemplo
determinada variable o, dicho
decir,
hipótesis la5.15
de A
forma
probabilidad
nula
partir
equivalente,
es cierta, de
ésta
controles
se estos
cometer un
rechazará
del
errorEURAMIC
estimadores de tipoindican
erróneamente I se obtienen
viene 1000 muestras
en undeterminada de
5% de los contrastes de
hipótesis
hipótesisrealizados
bilateral para sobre la todas
medialas posibles muestras
poblacional del mismo
del colesterol HDL tamaño.
aleatorias
or de qué valor se agrupan losde tamaño
datos n = 10 y,
observados. Las enmedidas
cada una dede ellas, se realiza el contraste de
tendencia
antemano por el nivel de significación α. Así, por ejemplo, para un test con un
Ejemplo 5.15  A partir de los controles del EURAMIC se obtienen 1000 muestras
de la muestra sirvenhipótesis
tanto para
aleatorias bilateral
resumir
de tamaño para la=media
los nresultados
10 y, en H0: μuna
poblacional
observados
cada = 1,09,
delellas,
como
de colesterol
para HDLel contraste de hipótesis
se realiza
nivel de significación α = 0,05,
bilateral para la media poblacional del colesterol HDL la probabilidad de incurrir en un error de tipo I
inferencias acerca de los parámetros poblacionales correspondientes. H1: μ ≠ 1,09, A
H0 : μ = 1,09,
será del 0,05; esto es, si la hipótesis nula es cierta, ésta se rechazará erróneamente
ación se describen los principales estimadores de la tendencia H1 : μ ≠central
1,09, de una
mediante el estadístico
en En
un este
5% de
mediante
ejemplo
ellos
ilustrativo,de
contrastes
estadístico
la hipótesis
hipótesis nula es ciertasobre
realizados ya que la media
todas poblacional
las posibles
e.
del colesterol HDL tamaño.
en el grupo control x − 1,09 es efectivamente μ = 1,09
mediante
muestras delel estadístico
mismo t = del EURAMIC ,
Media aritmética s
mmol/l. Por lo tanto, se tomó la decisión correcta 10 de aceptar H0 en el 94,4% de las
x − 1,09
donde
ia aritmética, denotada
Ejemplo por 5.15x ,yses A son
definelascomo
partir correspondientes
de los la suma
controlesde medias
t =cadadeluno yde,desviaciones
EURAMIC los típicas muestrales.
se obtienen 1000 muestras En cada
muestras
donde x se
muestra, yy se rechazo
scalcula
son P como elHmedias
erróneamente
laselcorrespondientes
valor áreas bajo
0 (error ydedesviaciones
latipo
curvaI) en
de el restante
latípicas 5,6%, t9 que
muestrales.
distribución para valores
10
muestrales dividida por
tanto
aleatoriasel onúmero
más
de de observaciones
distantes
tamaño n de
= 0 que
10 y, enelrealizadas.
valor una
cada Si
observado denotamos
de se
designificación
ellas, t, yrealiza
se decide rechazar ladehipótesis
el contraste
concuerda
En cada
nula ≤casi
si Pmuestra, 0,05. perfectamente
se calcula
Así, elcon
la hipótesis valor elnula
nivel
P se de
como el áreaenbajo
aceptó la αcurva
un 94,4% = 0,05
dedelas
la muestras (944 de
tamaño muestral ydonde
por
1000)xi elxyvalor observado
ysesrechazó
son las en unpara
5,6%
correspondientes el (56
sujeto i-ésimo,
1000). yi desviaciones
de medias = 1, ..., n, típicas muestrales.
hipótesis bilateral
preestablecido parael la media
contraste. poblacional del colesterol HDL
distribución t9 para valores tanto o más distantes de 0 que el valor observado de t,
En este ejemplo ilustrativo, la hipótesis nula es cierta ya que la media poblacional del
a vendría dada por En cada muestra, se calcula el valor P como el área bajo la curva de la
colesterol HDL en el grupo control del EURAMIC es efectivamente μ = 1,09 mmol/l. Por
y se decide rechazar la hipótesis nula H0:siμ P ≤1,09,
0,05. Así, la hipótesis nula se aceptó
• Ello error
tanto, de se tipo
tomóIIlaconsiste
decisiónencorrecta
aceptar de=
la aceptar H
hipótesis 0 encuando,
nula el 94,4% de las muestras
en realidad, es y se
distribución
1 n
rechazó erróneamentet 9 para
x + valores
x + ... + tanto
x
H0 (error o más distantes de 0 que el valor
de tipo I) en el restante 5,6%, que concuerda casiobservado de t,
en 
x =un 94,4%
perfectamente
x i =de1 las muestras
con el
2

ciertan lai =1hipótesis alternativa. nivel


n de
n
. de 1000) y se rechazó en un 5,6% (56 de 1000).
(944 H1: μ ≠ α1,09,
significación
La probabilidad =de0,05 preestablecido
cometer un error de para
tipoelIIcontraste.
se
y se decide rechazar la hipótesis nula si P ≤ 0,05. Así, la hipótesis nula se aceptó
yy El errorpor
denota deβtipo, II consiste en aceptar la hipótesis nula cuando, en realidad, es cierta la
media es la medidamediante
de
en tendencia
un 94,4% el estadístico
central
de las más muestrasutilizada (944y de de más
1000) fácil
y se rechazó
hipótesis alternativa. La probabilidad de cometer un error en un 5,6%
de tipo II se (56 de 1000).
denota por β,
24
etación. Corresponde al “centro de gravedad” P(error de tipo los datos
II) = de P(aceptar
la muestra.H0 | Su H1 cierta) = β .
x − 1,09
t= ,
al limitación es que está muy influenciada por los valores extremos s y, en este
Si la hipótesis alternativa es cierta, la probabilidad 10 de tomar la decisión correcta y, R.
Pastor-Barriuso 73
24
uede no ser un fiel reflejo de la tendencia central de la distribución.
por tanto, rechazar la hipótesis nula se conoce como potencia del test,
donde x y s son las correspondientes medias y desviaciones típicas muestrales.
1.2 MEDIDAS DE TENDENCIA CENTRAL
P(error de tipo II) = P(aceptar 1.2 β. TENDENCIA CENTRAL
| H1 cierta) =DE
H0 MEDIDAS
Inferencia estadística
Las medidas de tendencia central informan acerca de cuál es el valor más representativo
Si la hipótesis alternativa es cierta, la probabilidad de tomar de
Las medidas la decisión
tendenciacorrecta
central y, informan acerca de cuá
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
Sipor
la tanto,
hipótesis alternativa
rechazar es cierta,
la hipótesis nulalaseprobabilidad
conoce como de una depotencia
tomar ladeldecisión
determinada test,
variable correcta
o, dicho y, de
porforma equivalen
tanto, rechazar la hipótesis nula se conoce como
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia potencia del test,
Potencia = P(rechazar H0 |alrededor H1 cierta)de qué valor se agrupan los datos observados.
central de la muestra sirven tanto para resumir los resultados observados como para
= 1 − P(error de tipo II) =de1 −
central .
laβmuestra sirven tanto para resumir los resulta
realizar inferencias acerca de los parámetros poblacionales correspondientes. A
La probabilidad de error de tipo II β y la potencia de un contraste 1 – β no están
realizar inferencias acerca de los parámetros poblacional
predeterminadas de antemano y, como β se comprobará a continuación, 1dependen
- β de de distintos
continuación se describen los 2principales estimadores dede
La probabilidad de error de tipo II y la potencia la un contraste
tendencia central no una
están
factores, como el N(
aproximadamente μ0, de
nivel σ /n) si H0 es cierta
significación α, lao,desviación del verdadero
en caso contrario, σ 2/n)del
N(μ1,valor si H
parámetro
1 es
continuación se describen los principales estimadores de
respecto al valor nulo
predeterminadas de μ –2 μ0, la dispersión
antemano y, como se de los datos σaycontinuación,
comprobará el tamaño muestral dependen n.
variable.
aproximadamente N(μ0muestral
, σ /n) side H0 xesbajo cierta 2
N(μ1, σ se/n)representa
si H1 es
cierta. La distribución laso,hipótesis
en caso contrario,
nula y alternativa
Supongamos, para simplificar la exposición, que una variable aleatoria tiene media variable.
de distintos factores, como el nivel de significación α, la desviación del verdadero
cierta.
desconocida
1.2.1
enMedia La μaritmética
la Figura distribución
y5.5.
varianza
Para unmuestral
conocida
nivel de de , xy bajo
σ2significación
que se laspretende
hipótesis nula y alternativa
contrastar
α, el contraste delahipótesis
hipótesis senorepresenta
nula H0: μ = μ0
resultará
frente a la hipótesis alternativa H1: μ = μ1, donde μ1 ≠ μ
1.2.1 . Por el teorema
0 Media aritmética central del límite, se
valor del parámetro respecto al valor nulo μ - μ 0, la dispersión de los datos σ y el
La en
sabe la Figura
que
media 5.5.
(P >Para
laaritmética,
significativodistribución unelnivel
α)muestral
denotada
si pordedex significación
estadístico en
, semuestras
define como deαtamaño
, ellacontraste
suma de de
n será hipótesis
uno de no
aproximadamente
cada losresultará
N(μ0, σ2/n)
si H0 es cierta o, en caso contrario, N(μ1, σ2/n) si H1 esLa cierta.
media Laaritmética,
distribución muestralpor
denotada de x ,bajo
se define como la
tamaño muestral n.
las significativo
valores muestrales
hipótesis α) si elpor
nula(Pydividida
>alternativa estadístico
seelrepresenta
número deen observaciones
la Figura 5.5.realizadas.Para un nivel Si denotamos
de significación α,
x − μ(P 0 valores si elmuestrales
estadísticodividida por el número de observacio
el contraste de hipótesis no resultará-zsignificativo
Supongamos, para simplificar la exposición, 1-α/2 < que <> zα)
una 1-variable
α/2 aleatoria tiene media
por n el tamaño muestral y por xi el valor observado σ para el sujeto i-ésimo, i = 1, ..., n,
x − μn0
− z12− α /2 < <porz1−αn/2el tamaño muestral y por xi el valor observado para
desconocida
la media vendría μ y varianza
dada por conocida σ , y queσse pretende contrastar la hipótesis nula H0:
n
la media vendría dada por
μ =deo,μforma
o,
de forma equivalente, si
0 frente a la hipótesis alternativa H1: μ = μ1, donde μ1 ≠ μ0. Por el teorema central
equivalente, si 1 n x + x 2 + ... + x n
o, de forma equivalente, six =  x i = 1 .
; tamaño n seráx = 1  x = x1 + x 2 + ... +
n
del límite, se sabe que la distribución μ 0 − z1n− αi/2=1σmuestral
/ n < xde< nμx 0 en + zmuestras
1−α /2 σ / nde
i
n i =1 n
μ0 - z1-α/2σ/ n < x < μ0 + z1-α/2σ/ n ;
La media la
es decir, eshipotes
la medida nuladesetendencia
Distribuci ón de x bajo
aceptará central
enHtodas
1 más utilizada
Distribuci
aquellas ónyde
muestras dex másconHfácil
bajo una
0 media x 25
N(μ1, σ /n)2 La media
N(μ0, σ /n)2 es la medida de tendencia central más utiliz
es decir, la hipotes
interpretación. nula se
Corresponde al aceptará
“centro en
de todas
gravedad” aquellas de muestras
los datos con
de la una mediaSux
muestra.
comprendida en la región μ0 ± z1-α/2σ/ n , que se denomina comúnmente como región
interpretación. Corresponde al “centro de gravedad” de l
principal
comprendidalimitación en laesregión
que está μ0 muy± z1-αinfluenciada
σ / n , que por
se los valorescomúnmente
denomina extremos y, como en esteregión
de aceptación. Así, la probabilidad/2 de un error de tipo I α está determinada por el área
principal limitación es que está muy influenciada por los
caso,
de puede no
aceptación. ser un fiel reflejo
Así,Hla probabilidad de la de un error de tipodeI α
tendencia central la está
distribución.
determinada por el área
bajo la curva para 0 situada fuera de la región de aceptación (área en gris oscuro de la
caso, puede no ser un fiel reflejo de la tendencia central
bajo
Figura la curva ypara
5.5),1.4 laEn H0 situada fuera
probabilidad de laderegión IIdeβ aceptación (árealaencurvagris oscuro
para H1de la
Ejemplo este y en losdesucesivoserror tipo
ejemplos por
sobre el área bajo
estimadores muestrales, se
Ejemplo 1.4 En este y en los sucesivos ejemplos so
Figura
situada 5.5),
dentroy ladeprobabilidad
la región de error de tipo IIenβ porgrisel áreade bajo Figura
la curva5.5).para H1
utilizarán los valores del de aceptación
colesterol HDL (área
obtenidos claro
en los 10laprimeros sujetos del
β en gris claro utilizarán los valores del colesterol HDL obtenidos
situada dentro de la región de aceptación (área de la Figura 5.5).
estudio “European Study on Antioxidants, α /2
Myocardial Infarction and Cancer α/2
of
[Figura 5.5 aproximadamente aquí]
estudio “European Study on Antioxidants, Myocar
the Breast“ (EURAMIC),[Figura un
μ1
estudio 5.5 aproximadamentecasos
multicéntrico de μaquí]
y controles realizado
the Breast“ (EURAMIC), un estudio multicéntrico
0

El balance
entre 1991 yentre1992lasenprobabilidades
ocho países de un error
Europeos e de tipo
Israel para I yevaluar
tipo II el puede
efecto observarse
los en
μ0 − z1−α / 2σ / n μ0 + z1−αde
/ 2σ / n

El balance entre 1991IIypuede 1992 observarse


en ocho países Europeos e Israe
la Figura 5.5. entre
Si se las probabilidades
reduce la probabilidad de undeerror errordedetipo tipoI Iyαtipo (esto es, se aumenta la en
Región de aceptación de H0
5
la Figura 5.5. Si se reduce la probabilidad de error de tipo I α (esto es, se aumenta
región de aceptación), aumenta la probabilidad de error de tipo II β, mientras que si αla
Figura 5.5  Errores de tipo I y II para el contraste bilateral de la hipótesis nula H0: μ = μ0 frenteFigura
región de aceptación),
tesisaumenta,
alternativadisminuye β.aumenta
H1: μ = μ1 en
la probabilidad
En distribución
una la práctica, de error
la estrategia
con
de tipo
habitual
varianza conocida.
II β,αmientras
es fijar que sia α
en el nivel
la5.5hipó-

aumenta, disminuye
predeterminado β. En la práctica,
(típicamente α = 0,05)laeestrategia
intentar minimizar o, deαforma
habitual esβ fijar en el nivel
equivalente,
74 Pastor-Barriuso R.

predeterminado (típicamente
maximizar la potencia α =contraste.
1 - β del 0,05) e intentar
Para α minimizar β o, dedeforma
fijo, la potencia equivalente,
1 - β depende de la
TENDENCIA CENTRAL

μ0 -de
dencia central informan acerca α/2σ/es n
z1-cuál μ0 +
< x <más
el valor z1-αvariable.
/2σ/ n ;
representativo Contraste de hipótesis

1.2.1 Media aritmética


variable o, dicho de forma equivalente, estos estimadores indican
es decir, la hipotes nula se aceptará en todas aquellas muestras con una media x
es decir,
or se agrupan los la hipotesis nula
datos observados. se aceptará
Las medidas de en todas
tendenciaLaaquellas muestras con
media aritmética, por x ,comprendida
una media
denotada se define como la suma de
región μ0 ± z1 α/2σ/ n , que se denomina comúnmente como región de aceptación. Así, la
comprendida en la región
probabilidad
a sirven tanto para resumir losderesultados
un error de tipo I α está
observados como valores muestrales
determinada
para dividida
por el área bajo lapor para H0 de
el número
curva observaciones realiz
situada
de aceptación.fuera
Así, de
la la región de aceptación
probabilidad (área
de un error deen grisI oscuro
tipo α está de la Figura 5.5),
determinada poryellaárea
probabilidad de error
β por el área bajo
de tipo II poblacionales
acerca de los parámetros por n el tamaño muestral y por xi el valor observado
la curva para HA1 situada dentro de la región de aceptación
correspondientes. (área en para el sujeto
gris claro de la Figura 5.5).
bajo la curva para H0 situada fuera de la región de aceptación (área en gris oscuro de la
la media vendría dada por
criben los principales estimadores
El balance entredelasla probabilidades
tendencia centralde de
ununa
error de tipo I y tipo II puede observarse en la
Figura 5.5), y Figura 5.5. Si se de
la probabilidad reduce
errorladeprobabilidad deelerror
tipo II β por áreade α (estopara
tipolaI curva
bajo es, se
H1aumenta la región de
aceptación), aumenta la probabilidad de error de tipo II β; mientras que si α aumenta,
n
x + xβ.
1 disminuye 2 + ... + x n
x =  xi = 1 .
situada dentroEndelalapráctica,
región dela estrategia
aceptación habitual
(área en gris αclaro
es fijar en undenivel predeterminado
la Figura 5.5). (típicamente
n i =1 α = 0,05)n
tica e intentar minimizar β o, de forma equivalente, maximizar la potencia 1 – β del contraste. Para
α fijo, la potencia 1 – β depende de la superposición de las distribuciones nula y alternativa de
, denotada por x ,, que está a como
se define su[Figura
vezladeterminada
suma
5.5 de poruno
cada losde
aproximadamente los La
siguientes media
aquí]
es la medida de tendencia central más utilizada y de
factores:
yy La diferencia subyacente μ1 – μ0. La potencia para detectar
interpretación. una hipótesis
Corresponde alternativa
al “centro cierta de los datos
de gravedad”
ividida por el número de observaciones realizadas. Si denotamos
será tanto mayor cuanto mayor sea la diferencia entre el verdadero valor del parámetro μ1 y
El balance entreellas probabilidades
valor de un error
nulo μ0. Esta situación de tipo
se ilustra enIlayFigura
tipo II5.6(a),
puededonde
observarse en un incremento
se observa
estral y por xi el valor observado para el sujeto i-ésimo, i = 1,principal
..., n, limitación es que está muy influenciada por los valores
de la potencia como consecuencia de una mayor diferencia entre μ1 y μ0.
la por
da Figura 5.5. Si se reduce la probabilidad de error de tipo I αpuede
caso, (estono
es,ser
se un
aumenta la de la tendencia central de la dist
fiel reflejo
~ N ( μ , σ 2 / n)
H1 : x → ~ N ( μ , σ 2 / n)
H0 : x →
1 0

región de aceptación), aumenta la probabilidad de error de tipo II β, mientras que si α


1 n
x + x 2 + ... + x n Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estim
x= 
n i =1
xi = 1 .
aumenta, disminuye β. En lan práctica, la estrategia habitual esutilizarán
fijar α en
loselvalores
nivel del colesterol HDL obtenidos en los 1

predeterminado
edida de tendencia(típicamente α = 0,05)y edeintentar
central más utilizada minimizar βestudio
más fácil o, de forma equivalente,
“European Study on Antioxidants, Myocardial Infar

esponde al “centro
maximizar de gravedad”
la potencia 1 - β deldecontraste.
los datos Para
de la α
muestra.
fijo, laSu
potencia de 1 - β
the Breast“ (EURAMIC),
depende de un
la estudio multicéntrico de casos
α/2 β α/2
es que está muy influenciada por los valores extremos y, en este entre 1991 y 1992 en ocho países Europeos e Israel para ev
μ μ0 − z1 σ/ n μ μ0 + z
1−α / 2 σ/ n 0 1−α / 2

n fiel reflejo de la tendencia central de la distribución. (a)

~ N ( μ , σ 2 / n)
H1 : x → ~ N ( μ , σ 2 / n)
H0 : x → 26
n este y en los sucesivos ejemplos sobre estimadores muestrales, se
1 0

valores del colesterol HDL obtenidos en los 10 primeros sujetos del

pean Study on Antioxidants, Myocardial Infarction and Cancer of

URAMIC), un estudio multicéntrico de casos y controles realizado

992 en ocho países Europeos e Israel para evaluar el efecto de los


β
α/2 α/2

μ1 μ0 − z1−α / 2σ / n5 μ0 μ0 + z1−α / 2σ / n

(b)

Figura 5.6  Errores de tipo I y II para una mayor diferencia μ0 – μ1 (a) y para un mayor tamaño muestral n (b).
Figura 5.6

Pastor-Barriuso R. 75
S DE TENDENCIA CENTRAL

Inferencia estadística
superposición
e tendencia central informan de las distribuciones
acerca nula ymás
de cuál es el valor alternativa de x , que está a su vez
representativo

nada variable determinada por los


o, dicho de forma siguientes factores:
equivalente, estos estimadores indican
Tabla 5.2  Porcentaje de muestras de tamaño n = 10, 25 y 100 con
ué valor se agrupan datosresultados
La diferencia
• los
significativos
Las μmedidas
subyacente
observados. (P
1 - μ0. La
≤tendencia
0,05) para
depotencia el contraste
para detectar bilateral de
una hipótesis
las hipótesis nulas H0: μ = 1 y 1,05 mmol/l sobre la media poblacional
uestra sirven tanto para del
alternativa colesterol
resumircierta HDLobservados
los resultados
será tanto en los cuando
mayor controles
como del estudio
para
mayor EURAMIC.
sea la diferencia entre el
Hipótesis nula H0: μ = μ0
ncias acerca de los parámetros
verdadero poblacionales correspondientes.
valor del parámetro μ1 y el valorAnulo μ0. Esta situación se ilustra en la
Tamaño muestral (n) μ0 = 1 μ0 = 1,05
  la
10 tendencia central de una
e describen los principales
Figura estimadores
5.6(a), dondedese observa un incremento11,2  5,0
de la potencia como consecuencia
 25 26,9  8,0
100 85,7 23,0
de una mayor diferencia entre μ1 y μ0.

ritmética • yyEl
Elerror
error estándar
estándar σ / n . Al Al aumentar
aumentareleltamaño muestraln,n,disminuye
tamañomuestral disminuye el el
error estándar de la
error
media muestral y, en consecuencia, la variabilidad de las distribuciones nula y alternativa de
x .,Así,
mética, denotada por estándar para
de laun
se define comonivellamuestral
media de significación
suma de y,
cada α predeterminado,
uno de los
en consecuencia, la potencia
la variabilidad de del
las contraste aumenta
conforme aumenta el tamaño de la muestra (Figura 5.6(b)). Esta relación puede utilizarse
ales dividida por el número
tanto para de observaciones
distribuciones calcular realizadas.
nula ylaalternativa
potencia de
deun xSi denotamos
.contraste
Así, parauna vez determinado
un nivel el tamaño
de significación α muestral,
como para estimar a priori el tamaño muestral necesario para una determinada potencia.
o muestral y por xi elpredeterminado,
valorúltimo
Este observado
puntolapara
se el sujeto
discutirá
potencia i-ésimo,
delcon mayoridetalle
contraste = 1, ...,enn,conforme
aumenta el Tema 9 aumenta
de determinación
el tamañodel tamaño
muestral.
ía dada por de la muestra (Figura 5.6(b)). Esta relación puede utilizarse tanto para calcular la
Ejemplo 5.16  A partir de los controles del EURAMIC se obtienen 1000 muestras
potencia
1 aleatorias
n
xde+de
un contraste
+ ... + x nn una
x 2 tamaño = 10,vez25determinado
y 100 y, enelcada tamaño unamuestral,
de ellas, como para el contraste
se realiza
x =  xi = 1 .
n i =bilateral
1
de lasn hipótesis nulas H0: μ = 1 y 1,05 mmol/l para la media poblacional del
estimar a priori
colesterol HDL. el Para
tamaño cada muestral
muestranecesario paraeluna
y contraste, determinada
valor potencia.
P se calcula según Este
los métodos
del Apartado 5.4.2 y la hipótesis nula se rechaza si P ≤ 0,05. En la Tabla 5.2 se presenta
último
la medida de tendencia puntomás
central
el porcentaje se discutirá
utilizada
de muestras con
y demayor detalle en significativos
más resultados
con fácil el Tema 9 de determinación del tamaños
para los distintos
muestrales e hipótesis nulas.
tamaño
Corresponde al “centro muestral. de los datos de la muestra. Su
de gravedad”
En este caso, ambas hipótesis nulas son falsas dado que la verdadera media del colesterol
ación es que está muyHDL en los controles
influenciada del estudio
por los valores EURAMIC
extremos es 1,09 mmol/l. Así, los porcentajes de la
y, en este
Tabla 5.2 representan [Figuravalores empíricos de la potenciaaquí]
5.6 aproximadamente de cada contraste. Para una desviación
subyacente de μ – μ = 1,09
ser un fiel reflejo de la tendencia central0 de la distribución.– 1 = 0,09 mmol/l entre el verdadero nivel medio de colesterol
HDL y el valor nulo, la potencia resultó ser del 11,2% para n = 10, 26,9% para n = 25 y
85,7% para n = 100. Para una desviación de μ – μ0 = 1,09 – 1,05 = 0,04 mmol/l, la potencia
Ejemplo
se redujo5.16
1.4 En este y en los sucesivos A 5,0%
ejemplos
a un partir de los
sobre
para controles
estimadores
n= 10, 8,0% del EURAMIC
muestrales,
para n = 25 se yse obtienen
23,0% para1000 muestras
n = 100. Como puede
apreciarse, sólo se alcanza una potencia aceptable para detectar una diferencia de 0,09
aleatorias
n los valores del colesterol
mmol/l HDL de obtenidos
con tamaño
un tamaño n en
= muestral
10,los25
10yprimeros
100100,
de y, enmientras
cada una
sujetos del desería
que ellas,necesaria
se realizaunael muestra mayor
para poder detectar una diferencia de 0,04 mmol/l.
contraste
European Study on Antioxidants, bilateral de las hipótesis
Myocardial Infarction nulas 0: μ = 1of
andHCancer y 1,05 mmol/l para la media

5.5  REFERENCIAS
st“ (EURAMIC), unpoblacional del colesterol
estudio multicéntrico HDL.yPara
de casos realizadoy contraste, el valor P se
cada muestra
controles
1. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
calcula
91 y 1992 en ocho países según los
Europeos
Englewood
métodos
e Israel
Cliffs, paradel Apartado
evaluar
NJ: Prentice
5.4.2de
Hall,el1977.
efecto loshipótesis nula se rechaza si P ≤
y la

2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole,
2001. 5
3. Colton T. Estadística en Medicina. Barcelona: Salvat, 1979.
27

76 Pastor-Barriuso R.
Referencias

4. Lehmann EL. Testing Statistical Hypotheses, Second Edition. New York: Springer Verlag,
1997.
5. Lehmann EL, Casella G. Theory of Point Estimation, Second Edition. New York: Springer
Verlag, 1998.
6. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999.
7. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia:
Lippincott Williams & Wilkins, 2008.
8. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State
University Press, 1989.
9. Stuart A, Ord JK, Arnold S. Kendall’s Advanced Theory of Statistics, Volume 2A, Classical
Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.

Pastor-Barriuso R. 77
TEMA 6

INFERENCIA SOBRE MEDIAS

6.1 INTRODUCCIÓN

En el presente tema se revisan las técnicas básicas de inferencia a partir de datos de carácter
cuantitativo. En la mayor parte de las ocasiones, la inferencia sobre variables cuantitativas se
centra en el estudio de parámetros subyacentes tales como la media y la varianza poblacional.
A partir de los datos obtenidos en muestras aleatorias y utilizando los principios de inferencia
descritos en el tema anterior, se pretende dar respuesta a los siguientes tipos de problemas:
yy La estimación de la media y la varianza de una población.

Ejemplo 6.1  Supongamos que los controles del estudio EURAMIC constituyen una
muestra representativa de la población de referencia del estudio. A partir de los valores de
colesterol HDL obtenidos en los controles, ¿cuál es la estimación y el intervalo de
confianza al 95% para la media y la varianza del colesterol HDL en la población de
referencia? ¿Son estos datos muestrales compatibles con una verdadera media poblacional
de 1 mmol/l?

yy La comparación de medias y varianzas poblacionales a partir de dos muestras


independientes.

Ejemplo 6.2  En el estudio EURAMIC se comparan dos muestras independientes: una


muestra de casos de infarto de miocardio, recogida de las unidades de cuidados intensivos,
y una muestra independiente de controles, representativos de la población de la que
proceden los casos. ¿Cuál es entonces la estimación y el intervalo de confianza al 95%
para la diferencia en los niveles medios de colesterol HDL entre los casos de infarto y los
sujetos libres de la enfermedad? ¿Es esta diferencia estadísticamente significativa?
En un ensayo clínico para evaluar la eficacia antihipertensiva de un nuevo medicamento,
se asignaron aleatoriamente 100 pacientes hipertensos a uno de los dos grupos de
tratamiento: un grupo que toma la medicación a estudio y otro que toma un placebo.
Después de 4 semanas de tratamiento, se compararon las medias de presión arterial
sistólica entre ambos grupos como medida de la eficacia de dicho medicamento. ¿Cuál es
la estimación puntual y el intervalo de confianza al 95% para la reducción en el nivel
medio de presión arterial sistólica? ¿Cómo se determina si esta reducción es efecto del
tratamiento o se debe a simple variabilidad aleatoria?

yy La comparación de medias poblacionales a partir de dos muestras dependientes.

Ejemplo 6.3  En un estudio de casos y controles sobre el efecto del colesterol HDL en
el riesgo de desarrollar infarto de miocardio, cada caso se emparejó por grupo de edad y
sexo a un control libre de la enfermedad. En este caso, las medias de colesterol HDL de
los casos y de los controles no pueden analizarse como medidas procedentes de muestras
independientes, ya que es esperable un cierto grado de correlación entre los valores de

Pastor-Barriuso R. 79
Inferencia sobre medias

colesterol HDL en cada pareja caso-control. ¿Cómo contrastar entonces si existe una
asociación significativa entre el nivel de colesterol HDL y la ocurrencia de un infarto de
miocardio?
Para evaluar la eficacia de un fármaco antihipertensivo, se seleccionaron 50 pacientes
hipertensos y se administró a todos ellos dicho fármaco durante 4 semanas. La presión
arterial sistólica de cada paciente se determinó tanto al comienzo del estudio como
después de las 4 semanas de tratamiento. En tal caso, los valores medios de presión arterial
antes y después del tratamiento no son independientes, ya que los datos recogidos en un
mismo paciente están correlacionados. En estas circunstancias, ¿cómo estimar la reducción
media de presión arterial sistólica al administrar dicho tratamiento?
1.2 MEDIDAS DE TENDENCIA CENTRAL
Para cada uno de estos problemas, se facilitan las técnicas de inferencia apropiadas para
Las medidas
obtener estimaciones puntuales y por intervalo de tendencia
del parámetro central objeto
poblacional informan acerca deasícuál es el valor
de estudio,
como para el contraste de hipótesis preestablecidas. Estos procedimientos van a permitir inferir
de una determinada
los resultados del estudio al ámbito poblacional variable
de forma clara o, dicho de forma equivalente, estos estim
y sucinta.

alrededor de qué valor se agrupan los datos observados. Las medidas


6.2  INFERENCIA SOBRE UNA MEDIA Y VARIANZA POBLACIONAL
central de la muestra sirven tanto para resumir los resultados observad
La media y la varianza poblacional son parámetros que representan la tendencia central y
dispersión de la distribución subyacente de una
realizar variableacerca
inferencias aleatoria.
de losEstos parámetros
parámetros son
poblacionales correspon
típicamente desconocidos y, en consecuencia, han de ser estimados a partir de los valores
observados de dicha variable en una muestra. En esta
continuación sección, selospresentan
se describen losestimadores
principales métodos dede la tendencia
estimación y contraste para la media y la varianza de una distribución poblacional.
variable.
6.2.1  Inferencia sobre la media de una población
1.2.1 Media aritmética
La estimación e inferencia de una media poblacional µ se discutió en el tema anterior. Para
Utilizando
cualquier lasaleatoria,
variable propiedadesse de
ha lacomprobado
distribución muestral
La media aritmética,
que de la muestral
media,
denotada
la media poresxposible
,es
se un obtener
define como la suma de cada
estimador
insesgado y consistente de µ y que, en el caso de distribuciones normales, es el estimador con
un intervalo
menor de confianza
error estándar. 100(1 - αvalores
Estas alcaracterísticas
)% para hacen la media poblacional
de la media
muestrales porμelcomo
muestral
dividida un buendeestimador
número observaciones realizada
Utilizando las propiedades de la distribución muestral de la media, es posible obtener
puntual de la media poblacional.
Utilizando por n el tamaño s muestral y por xiesel posible
valor observado para el sujeto i-és
un intervalolas
de propiedades
confianza al de la distribución
100(1 - xα)%
± t npara muestral
la
−1,1−α / 2
media de la media,
. poblacional μ como obtener un
intervalo de confianza al 100(1 – α)% para la media poblacional n µ como
la media vendría dada por
s
x ± t n −1,1−α / 2 .
A su vez, el contraste de la hipótesis nula H0: μ = μ n 0 frente a la hipótesis alternativa
1 n x + x 2 + ... + x n
x =  xi = 1 .
A su vez, el contraste de la hipótesis nula
bilateral H1: μ ≠ μ0 puede realizarse medianteH 0 : μ = μ frente a la
el0 estadístico hipótesis n
alternativa
i =1 bilateralnH 1:
μ ≠Aμ0supuede realizarse
vez, el contrastemediante el estadístico
de la hipótesis nula H0: μ = μ0 frente a la hipótesis alternativa
Laxmedia es la medida de tendencia central más utilizada y de más
− μel0 estadístico
bilateral H1: μ ≠ μ0 puede realizarse mediante t= .
s
interpretación.
n Corresponde al “centro de gravedad” de los datos de la
x − μ0
Bajo la hipótesis nula, este estadístico seguirá t = aproximadamente
principal . una distribución t de Student
s limitación es que está muy influenciada por los valores extre
Bajo la hipótesis nula, este estadístico seguirá aproximadamente
con n – 1 grados de libertad y, en consecuencia, elnvalor P del contraste una puede
distribución t de como
calcularse
el área bajo la curva de esta distribucióncaso, para aquellos
puede novalores tanto
ser un fiel o másdedistantes
reflejo de 0 que
la tendencia el de la distribu
central
Student con n - 1 grados de libertad y, en consecuencia, el valor P del contraste
valor observado de t. En general, el planteamiento de una determinada hipótesis nula puede puede
Bajo lade
proceder hipótesis
estudiosnula, este estadístico
previos seguirá
o de hipótesis aproximadamente
biológicas respecto al distribución t dede las
unacomportamiento
calcularse como el área bajo la curva de esta distribución
Ejemplo 1.4 Enpara
esteaquellos
y en losvalores tanto
sucesivos o
ejemplos sobre estimado
80 Student con
Pastor-Barriuso R. n - 1 grados de libertad y, en consecuencia, el valor P del contraste puede
más distantes de 0 que el valor observado de t. En general,
utilizarán el planteamiento
los valores del colesteroldeHDL
una obtenidos en los 10 pr
calcularse como el área bajo la curva de esta distribución para aquellos valores tanto o
determinada hipótesis nula puede proceder estudio de estudios anteriores
“European o de
Study onhipótesis
Antioxidants, Myocardial Infarctio
n 539
media poblacional los contrastes de hipótesis pueden resultar un tanto artificiales.
realizar inferencias acerca de los parámetros poblacionales correspondientes. A
Inferencia sobre una media y varianza poblacional
cuya distribución bajo la hipótesis nula será t538 o, de forma equivalente, normal
continuación se describen los principales estimadores de la tendencia central de un
Ejemplo 6.4 Entre los n = 539 controles del estudio EURAMIC con
estandarizada. De la Tabla 3 del Apéndice se desprende que la probabilidad de
variables, aunque en el casovariable.
de una única media poblacional los contrastes de hipótesis pueden
determinaciones
resultar un tanto del colesterol HDL, la media y desviación típica fueron x = 1,09
artificiales.
obtener valores superiores a 7,21 en una distribución normal estandarizada es
1.2.1 Media aritmética
y s = 0,29 mmol/l. Así, el IC al 95% para la media de colesterol HDL en la
Ejemplo 6.4  Entre
virtualmente pornlo=que
nula, los 539elcontroles del estudio
valor P bilateral seráEURAMIC con determinaciones
inferior a 0,001. En
del colesterol HDL, laLamedia mediay aritmética,
desviacióndenotada por x ,=se1,09
típica fueron ys=
define como
0,29lammol/l.
suma de cada uno de los
Así,
población de referencia resultó ser
el IC al 95% para
conclusión, la media
el nivel mediodedecolesterol
colesterolHDL
HDLenenlaesta
población
poblaciónde difiere
referencia resultó ser
valores muestrales dividida por el número de observaciones realizadas. Si denotam
significativamente 0,29 (P < 0,001). De hecho, la media poblacional de
1,09 ± t 538de 1 mmol/l
; 0 , 975 = 1,09 ± 1,96⋅0,012 = (1,07; 1,11).
por n el 539 tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..
colesterol HDL se estimó en 1,09 mmol/l, con un intervalo de confianza al 95%
Estos datos muestrales también
la media se emplearon
vendría dada porpara el contraste bilateral de la hipótesis
Estos
nula Hdatos
0: μ =muestrales
comprendido 1. Para ello,
entre también
1,07 se mmol/l.
seycalculó
1,11 emplearon paradel
el estadístico el contraste bilateral de la

hipótesis nula H0: μ = 1. Para x − μ0 1,09 − 1 x = 1


n
x1 + x 2 + ... + x n
t = ello, se=calculó el estadístico
= 7,21, xdel
i =
contraste .
s 0,29 n i =1 n
6.2.2 Inferencia sobre la varianza de n una población
539
En cuya distribución
el interésbajo la media
La hipótesis
es lanula noserá
medida ttendencia
dela o, dedecentral
forma equivalente,
más utilizada normal
ocasiones, se centra en estimar sólo 538media una variable aleatoria4y de más fácil
cuya distribución
estandarizada. De bajo la hipótesis
la Tabla nula seráset538desprende
3 del Apéndice o, de forma queequivalente,
la probabilidadnormal
de obtener
valoressino
continua, superiores
tambiéna su 7,21 en unapoblacional.
interpretación.
varianza distribución
Corresponde normal
Como al se estandarizada
“centro
mostródeen el es virtualmente
gravedad”
Apartado de los delnula,
5.2datos de la muestra. Su
estandarizada. De la Tabla 3 del Apéndice se desprende que la
por lo que el valor P bilateral será inferior a 0,001. En conclusión, el nivel medio de probabilidad de
tema anterior,HDL
colesterol la varianza
en esta principal
muestral
población s2difiere
limitación es que estáinsesgado
es un estimador muy influenciada
significativamente por
dey 1consistente
mmol/l (Plos
de valoresDe
la
< 0,001). extremos y, en es
obtener valores superiores a 7,21 en una distribución normal estandarizada
hecho, la media poblacional de colesterol HDL se estimó en 1,09 mmol/l, con un intervalo es
varianza poblacional
de confianza al 95% σ 2comprendido
caso, puede novariable
de cualquier ser un
entre 1,07fiel
y reflejo
aleatoria, de la tendencia
siendo
1,11 mmol/l. además elcentral
estimadorde la distribución.
virtualmente nula, por lo que el valor P bilateral será inferior a 0,001. En
insesgado con menor error estándar para distribuciones normales.
6.2.2  conclusión,
Inferenciaelsobrenivellamedio
varianza de una
Ejemplo 1.4 población
de colesterol En
HDL esteenyesta
en los sucesivos
población ejemplos sobre estimadores muestral
difiere
Al igual que ocurría en el caso de una media, los intervalos de confianza y las
En ocasiones, el interés sedecentra
significativamente 1 mmol/len estimar
utilizarán no valores
los
(P < 0,001). sóloDela media de
la una
del colesterol
hecho, mediavariable
HDL aleatoria
obtenidos
poblacional continua,
deen los 10 primeros sujeto
sino también su varianza poblacional. Como se mostró en 2 el Apartado 5.2 del tema anterior, la
pruebas de hipótesis sobre la varianza poblacional σ se basan en la distribución
varianza muestral
colesterol HDLs2 esseun estimador
estimó insesgado
estudio
en 1,09 “European
mmol/l, ycon
consistente
Study
un intervalode la
devarianza
on Antioxidants, poblacional
Myocardial
confianza σ 2 de
al 95% Infarction and Cance
cualquier variable aleatoria, siendo además el estimador insesgado con menor error estándar
muestral de s2. Si la distribución subyacente de la variable es normal, puede probarse
para distribuciones
comprendido normales.
entre 1,07 y 1,11 the Breast“
mmol/l.(EURAMIC), un estudio multicéntrico de casos y controles reali
Al igual
que que ocurría(nen– el1)s
el estadístico caso
2 de una media,
/σ 2 sigue los intervalos
una distribución de confianza
denominada y las pruebas de
chi-cuadrado con hipótesis
n-
sobre la varianza poblacional σ 2 entre 1991en
se basan y 1992 en ocho países
la distribución Europeos
muestral de s2. eSiIsrael para evaluar el efecto de
la distribución
subyacente
6.2.2
1 grados de
de la
Inferencia variable
sobre
libertad es normal,
yladenotada
varianza depuede
por χuna probarse que el estadístico (n – 1)s2/σ2 sigue una
2 población
n −1 ,
distribución denominada chi-cuadrado con n – 1 grados de libertad y denotada por χ2n–1,
En ocasiones, el interés se centra en estimar no sólo la media de una variable aleatoria
(n − 1) s 2 χ 2
~ n −1 .
continua, sino también su varianza poblacional. σ2 Como se mostró en el Apartado 5.2 del
Como
tema puede
anterior, la apreciarse en la Figura
varianza muestral 6.1,
s2 es un la distribución
estimador chi-cuadrado
insesgado sólo
y consistente de toma
la valores
positivos y está sesgada a la derecha. Los grados de libertad de una distribución chi-cuadrado
determinan su tendencia
varianza poblacional central,
σ 2 de dispersión
cualquier variableyaleatoria,
asimetría:siendo
al aumentar
además los grados de libertad,
el estimador
aumenta la media y la varianza de la distribución y disminuye su sesgo a la derecha. En la Tabla5 6
del Apéndice se presentan los percentiles de la distribución chi-cuadrado para distintos grados
insesgado con menor error estándar para distribuciones normales.
de libertad.
Al igual que ocurría en el caso de una media, los intervalos de confianza y las

pruebas de hipótesis sobre la varianza poblacional σ 2 se basan en la distribución

muestral de s2. Si la distribución subyacente de la variable es normal, puede probarse


Pastor-Barriuso R. 81

que el estadístico (n – 1)s2/σ 2 sigue una distribución denominada chi-cuadrado con n -


Como
Inferencia puede
sobre medias apreciarse en la Figura 6.1, la distribución chi-cuadrado sólo toma
Como puede apreciarse en la Figura 6.1, la distribución chi-cuadrado sólo toma
valores positivos y está sesgada a la derecha. Los grados de libertad de una distribución
valores
Comopositivos
puede y está sesgada
apreciarse en la aFigura
la derecha.
6.1, laLos grados dechi-cuadrado
distribución libertad de una
sólodistribución
toma
chi-cuadrado
0,6 determinan su tendencia central, dispersión y asimetría: al χ 21aumentar los
χ2
chi-cuadrado
valores determinan
positivos su tendencia central,Los
dispersión y asimetría: aluna
aumentar los
libertad,y aumenta
está sesgada a la derecha. grados de libertad de distribución
2

grados de la media y la varianza de la distribución yχdisminuye


2 su
0,5 3

χ2
grados de libertad,
chi-cuadrado aumenta
determinan su la media ycentral,
tendencia la varianza de la distribución yaldisminuye su
6 del Apéndicedispersión y asimetría: aumentar
de la los
5

sesgo a la derecha. En la Tabla se presentan los percentiles


0,4
sesgo
grados ade
la libertad,
derecha. aumenta
En la Tabla 6 del Apéndice
la media y lagrados se presentan
varianza los percentiles
de la distribución de la su
y disminuye
distribución chi-cuadrado para distintos de libertad.
distribución
f(x)a la 0,3
sesgo chi-cuadrado
derecha. para distintos
En la Tabla grados se
6 del Apéndice de presentan
libertad. los percentiles de la
[Figura 6.1 aproximadamente aquí]
distribución 0,2
chi-cuadrado para distintos grados de libertad.
[Figura 6.1 aproximadamente aquí]
A partir de la distribución χ n2−1 del estadístico (n – 1)s2/σ 2 resulta sencillo calcular
0,1 [Figura 6.1 aproximadamente aquí]
A partir de la distribución χ n2−1 del estadístico (n – 1)s2/σ 2 resulta sencillo calcular
un intervalo de confianza para la varianza poblacional. El 100(1 - α)% de la
un A partir 0dedelaconfianza
intervalo paraχlan −1varianza
distribución 2
del estadístico (n – 1)s
poblacional.
2
/σ 2 resulta
El 100(1 - α)%sencillo
de la calcular
distribución muestral de este estadístico está comprendido entre los percentiles α/2 y 1 -
0 2 4 6 8 10 12
un intervalo muestral
distribución de confianza paraestadístico
de este la varianza poblacional.
está El 100(1
comprendido - α)%
entre los de la α/2
percentiles y1-
α/2 de la distribución chi-cuadrado con n - 1 gradosx de libertad, denotados por χ n −1,α / 2
2

distribución muestral de este estadístico está comprendido entre los percentiles α/2
α/2 6.1 
Figura de laFunción
distribución chi-cuadrado
de densidad con n - 1chi-cuadrado
de la distribución grados de libertad,
con 1, 2, 3denotados χ n −1,α / 2
porlibertad.
y 5 grados de
y1-
2 Figura 6.1

y χ n −1,1−α / 2 ,
2
1.2 MEDIDAS DE TENDENCIA CENTRAL
yα /2 2de la distribución chi-cuadrado con n - 1 grados 2de2 libertad, denotados por χ n2−1,α / 2
Aχ partir de
n −1,1−α / 2 ,
la distribución χ 2
n–1 del estadístico (n – 1)s /σ resulta sencillo calcular un intervalo
de confianza para la varianza Las medidas
 poblacional. (n − 1El de tendencia
) s 100(1
2 – α)% central
de lainforman
distribución acerca de cuáldeeseste
muestral el valor más repre
y χ 2
, P  χ 2
< < χ 2
 = 1 − α .
estadístico
n −1,1−αestá
/ 2 comprendido  entre los percentiles σ12)2s 2 α/2 y 1 – α/2 de la distribución chi-cuadrado
n −1,α / 2 n − 1 ,1 − α / 2

con n – 1 grados de libertad,  denotados


2de una determinada(npor − χ variable
y 2χ2 o,, dicho de forma equivalente, estos estimadores i
P χ n −1,α / 2 < < χ n −1,n–1,1–α/2
n–1,α/2 1−α / 2   =1−α .
 σ 2 2

Manipulado esta desigualdad  2alrededor
para ( n de
despejar− 1 )
qués lavalor 2 se agrupan  los datos observados. Las medidas de tenden
P χ n −1, α / 2 < 2
< χ n −1,1−α / 2  = 1 − α . se obtiene que
varianza poblacional,
 σ 
Manipulado esta desigualdad para despejar
central de la muestra la varianza
sirvenpoblacional,
tanto para resumir se obtiene que
los resultados observados como
Manipulando esta desigualdad (para n − 1) s despejar
2 la varianza
(n − 1) s  2poblacional,
 se obtiene que
Manipulado esta desigualdad P para < σ 2 <la varianza
despejar =1−α ;
 realizar inferencias acerca poblacional,
2 de los parámetros se obtiene que
poblacionales correspondientes. A
 (χnn −−1,11−)αs/22 χ
2 2
2 ( n −
n − 1
1 ,α) s/ 2 
 =1−α ;
P 2 <σ < 2
χ χ 
 continuación
n − 1 ,1− α / 2
2 se describen
n − 1, α / 2 2 los
 principales estimadores de la tendencia central d
( n − 1)
 para la varianzas ( n − 1 ) s 2
 =21σ− αviene
es decir, el IC al 100(1 - α P)% < σ < poblacional
2
; determinado por
es decir, el IC al 100(1 – α)% para
χ 2 la varianza poblacional
χ 2  σ viene determinado por
variable.
 n −1,1−α / 2 n −1,α / 2 
es decir, el IC al 100(1 - α)% para la varianza poblacional σ 2 viene determinado por
2 2 2
intervalos de confianza para [(n –σ1)s no/ χson n −1,1simétricos
2
−α / 2 , (n – 1)s
2
alrededor/ χ n2−1,α de/ 2 ],s , particularmente
es decir, el IC al 100(1 - α)% 1.2.1
para2Media la varianza aritmética poblacional 2
2
σ viene determinado por
cuyos límites pueden [(n – a1)s
calcularse partir/ χ n2de α / 2 ,datos
−1,1−los (n – 1)s observados / χ n2−1,α / 2en ], la muestra. A diferencia de
cuando el tamaño muestral es reducido.
cuyos límites pueden
los intervalos de confianza paraLa calcularse μ, que
mediaa partir
están de
aritmética, los datos
centradosdenotada observados
alrededor de x ,en
por selaintervalos
,los muestra.
define como A confianza
de la suma de cada uno de l
2 2
para σDeno sonforma,
simétricos [(n –
alrededor 1)s / χ 2
2α / 2 , (n – 1)s / χ n −1,α / 2 ],
sde, particularmente
de determinada
2
cuando
nulaenHla0el: muestra.
σtamaño
= σ 0 Amuestral
frente a es
2 2 2
cuyos igual
límites pueden el calcularse
contraste de una
a partir n −1,1 −
los datoshipótesis observados
diferencia de los intervalos de
reducido. confianza
valores muestrales para μdividida
, que están porcentrados
el númeroalrededor de x , losrealizadas. Si deno
de observaciones
cuyos límites
diferencia
Dehipótesis
la igual forma,pueden
dealternativa
los calcularse
elintervalos
contraste de una
bilateral Ha 1partir
confianzaσ 2 ≠deσlos
determinada
: tamaño μ,hipótesis
2 datos observados en2 la muestra.
para
0 puedeque realizarse
estánnula
centrados
0: σ =alrededor
Hmediante σ02 el
frente Ala xhipótesis
ade
estadístico, los
por n el muestral y por x i el valor observado para el sujeto i-ésimo, i =
alternativa bilateral H1: σ ≠ σ0 puede realizarse mediante el estadístico
2 2

diferencia de los intervalos de confianza para μ, que están centrados alrededor de x , los
la media vendría
2 (n dada
− 1) s 2por
χ =
2
, 6
σ 0
1 n x + x 2 + ... + x n 6
x =  xi = 1 .
que bajo H sigue una distribución chi-cuadrado con n - 1 n i =1 de libertad. Así,
grados n el
82 Pastor-Barriuso R. 0 6

valor P del test se obtiene como


Laelmedia
doblees
dellaárea a la de
medida izquierda de este
tendencia estadístico
central bajo y de más fácil
más utilizada
s2 > σ 02 . Eslaimportante
distribución notar
χ n2−1que,
, si ssi2 ≤la σdistribución
2 subyacente dista mucho de ser
0 , o como el doble del área a la derecha del estadístico, si
menos fiables que para la media, en cuyo caso conviene proceder con cautela.
normal, los 2intervalos de confianza y los contrastes para la varianza poblacional
Comparación de medias sonen dos muestras independientes
s > σ 02 . Es importante notar que, si la distribución subyacente dista mucho de ser
menos fiables que para la media, en cuyoEjemplo caso conviene 6.5 Utilizando
procederlacon cautela. típica s = 0,29 mmol/l del colesterol HDL
desviación
normal, los intervalos de confianza y los contrastes para la varianza poblacional son
que bajo H0 sigue una distribución chi-cuadrado con n – 1 grados de libertad. Así, el valor P del
en los n = 539 controles del EURAMIC, el IC al 95% para la varianza poblacio
test se obtiene como el doble del área a la izquierda de este estadístico bajo la distribución χ2n–1,
Ejemplomenos fiables que paradesviación
la media, típica en cuyo=caso 0,29conviene proceder con cautela.
si s2 6.5
≤ σ0Utilizando
2
, o como elladoble del área a la sderecha mmol/l del
del estadístico, colesterol
si s2 >HDL σ02 . Es importante notar
viene determinado por
que, si la distribución subyacente dista mucho de ser normal, los intervalos de confianza y los
n = 539 controles
en loscontrastes para6.5 del EURAMIC,
la Utilizando
varianza poblacional el ICson al 95% menosparafiables
la varianza que parapoblacional
la media, HDL en cuyo caso
Ejemplo la desviación típica s =2 0,29 mmol/l del colesterol
2
conviene proceder con cautela. (538⋅0,29 / χ 2
538; 0 , 975 , 538⋅0,29 / χ 2
538; 0 , 025 )
viene determinado por
en los n = 539 controles del EURAMIC, el IC al 95% para la varianza poblacional
Ejemplo 6.5  Utilizando la desviación típica s==(45,25/604,16; 0,29 mmol/l del 45,25/475,62)
colesterol HDL = (0,075;
en los0,095),
2 2
n(538⋅0,29
= 539
viene / χ 538;0,975por
2
controles
determinado , 538⋅0,29
del EURAMIC, / χ 538;0el
2
) al 95% para la varianza poblacional viene
, 025IC
determinado por ya que los percentiles 2,5 y 97,5 de la distribución chi-cuadrado con 538 grado
= (45,25/604,16; 2 2 45,25/475,62) 2 =2(0,075; 0,095),
(538⋅0,29 / χ 538;0,975 , 538⋅0,29 / χ 538;0,025 )
de libertad son respectivamente χ 538 2
; 0 , 025 = 475,62 y χ 538; 0 , 975 = 604,16. Así, el
2

= (45,25/604,16; 45,25/475,62) = (0,075; 0,095),


ya que los percentiles 2,5 y 97,5 de la distribución chi-cuadrado con 538 grados
ya que los percentiles 2,5aly 97,5 95% de para la desviaciónchi-cuadrado
la distribución típica del colesterol con 538 gradosHDL endelalibertad
población de referenc
de libertad son son respectivamente χ 538 2
; 0 , 025 = 475,62 y χ 2
538; 0 , 975 = 604,16. Así, el
el ICIC al 95% para la
ya que los percentiles 2,5esy 97,5 de la distribución chi-cuadrado con 538 grados
desviación típica del colesterol HDL en la población de referencia es
al 95% para Para determinartípica
la desviación si los del niveles
colesterol de colesterol
2 HDL enHDL en los2controles
la población de referencia del EURAMIC
de libertad son respectivamente χ 538 025 = 475,62 y χ 538; 0 , 975 = 604,16. Así, el IC
( 0,075 ; 0;0,,095 ) = (0,27; 0,31).
es son compatibles con una desviación típica poblacional de 0,30 mmol/l, se
Para
al 95% determinar si los niveles
para la desviación típicade delcolesterol
colesterolHDL HDLen enlos controles de
la población delreferencia
EURAMIC son
compatibles con una desviación típica poblacional 2 2 de 0,30 mmol/l, se contrastó
( 0,075 ; contrastó (0,27; 0,31). la hipótesis nula H0: σ = 0,30 mediante el estadístico
0,095 ) =bilateralmente
bilateralmente la hipótesis nula H0: σ2 = 0,302 mediante el estadístico
es

( 0,075 ; 0,095 ) = (0,27; (n − 1) s 2 538 ⋅ 0,29 2


χ 2 = 0,31). = = 502,73.
σ 02 0,30 2
1.2 MEDIDAS
1.2 MEDIDAS DE TENDENCIA
DE TENDENCIA CENTRAL
CENTRAL 7
Como s < σ0, el valor P corresponde a 2P(χ 2
1.2538 ≤ 502,73)
MEDIDAS
1.2 MEDIDAS =DE 2∙0,140 = 0,280; es
TENDENCIA
DE TENDENCIA decir,
CENTRAL el
CENTRAL
contraste
Como σ 0resultó
s <no , Las estadísticamente
el valor P
medidas corresponde
Las medidas
de tendencia a 2P(
de tendencia χ
significativo,
central
2

central
538 careciendo
502,73)
informan
informan= entonces
2⋅0,140
acerca acerca = de evidencia
0,280;
de cuál
de cuál es
es el es
valor para
el valor
más más
representativo
representat
rechazar la hipótesis nula. La conclusión de este contraste es consistente con el intervalo 7
de confianza para σ, Las medidas
Las medidas
de
σdetendencia
de tendencia
central
central
informan
informan
acerca
acerca
de cuál
de cuá
es
decir, el contraste dedado
de una
no queestadísticamente
resultó éstevariable
determinada
una determinada incluye el
o, valor
variable dicho nulo
o, dicho 0 =
de forma
significativo, 0,30
forma mmol/l.
equivalente,
equivalente,
careciendo estosestos
entonces estimadores
estimadores
indican
indican
de unade determinada
una determinadavariable
variable
o, dicho
o, dicho
de forma
de forma
equivalente,
equivalene
alrededor
de evidencia para alrededor
de qué
rechazar lade valor
qué valor
senula.
hipótesis agrupan
se agrupanlos datos
los datos
La conclusión observados.
observados.
de este Las medidas
contraste Las
es medidas
de tendencia
de tendencia
6.3  COMPARACIÓN DE MEDIAS EN DOS MUESTRAS
alrededor
alrededor deINDEPENDIENTES
de qué valor
qué valor
se agrupan
se agrupanlos datos
los datos
observados.
observados.
Las mL
consistente concentral
central
de lade
el intervalo muestra
delaconfianza
muestra
sirven
sirven
tantoσtanto
para ,para
dadopara
resumir
queresumir
losincluye
éste resultados
los resultados
observados
el valor observados
comocomo
para para
Hasta ahora se han revisado las técnicas estadísticas para realizar inferencias sobre el valor de
central
central
de lademuestra
la muestra
sirven
sirven
tantotanto
parapara
resumir
resumir
los resultados
los resulta
un parámetro
nulo σ 0 en unarealizar
= 0,30 población.
realizar
mmol/l. Sin embargo,
inferencias
inferencias
acercauna
acercasituación
de los muchopoblacionales
deparámetros
los parámetros máspoblacionales
frecuente en correspondientes.
la práctica A A
correspondientes.
es la comparación de un determinado parámetro entre dos poblaciones distintas. En este apartado
realizar
realizar
inferencias
inferencias
acercaacerca
de losdeparámetros
los parámetros
poblacionales
poblacionale
co
se presentan los métodos para comparar
continuación
continuación la media
se describen
se describen poblacional
los principales
los principalesdeestimadores
una variable
estimadores de lade cuantitativa
tendencia
la tendencia acentral
central de una
de una
partir de dos muestras independientes, donde las observaciones de una muestra no están
continuación
continuación
se describen
se describen
los principales
los principales
estimadores
estimadores
de ladete
6.3 COMPARACIÓN
relacionadas DE
o emparejadas
variable. MEDIAS EN DOS MUESTRAS
con las observaciones
variable. INDEPENDIENTES
de la otra muestra.
En adelante, la media y la varianza de la variable aleatoria
variable.en la primera población se denotan
variable.
Hasta
por μ1 ahora
y σ12, yseenhan revisado
1.2.11.2.1
la segunda lasMedia
Media técnicasporestadísticas
aritmética
población μ2 y σ22. Elpara
aritmética realizar
objetivo inferencias
se centra sobrelaeldiferencia
en estimar
entre ambas medias poblacionales μ1 – μ2 a partir de dos muestras independientes de dichas
1.2.11.2.1
Media Media
aritmética
aritmética2
valor de un parámetro
poblaciones Laen
de tamaños una
media
nLa población.
media
aritmética, Sin
aritmética, embargo,
denotada por una
denotada xpor situación
, sexdefine mucho
, se define
como la más
como
1 y n2 con medias respectivas 1 y 2 y varianzas s1 y s2 .
suma
la 2suma
de cada
de cada
uno de
unolos
de los
Como cabría esperar, el estimador puntual es laLa media
La media
diferencia aritmética,
aritmética,
de las denotada
medias denotada
muestrales x 1,–sex 2define
por por , se
quedefine
comocomo la suma
la s
frecuente en la práctica es
valores lamuestrales
comparación
valores muestrales dedividida
divididaunpor
determinado
elpor
número parámetro
el número entre dosrealizadas.
de observaciones
de observaciones realizadas.
Si denotamos
Si denotamos
representa además un estimador insesgado y consistente de la diferencia subyacente μ1 – μ2 en la
población. Para realizar inferencias sobre esta valores
valores
diferencia muestrales
muestrales
de medias dividida
dividida
por el
poblacionales, por
número
es elnecesario
número de observaciones
de observacion r
poblaciones distintas.
porEnnpor
este
n apartado
el tamaño
el tamañosemuestral
presentan
muestral los
i el métodos
y poryxpor xvalor
i el valorpara
observadocomparar
observado el la
para para media
sujeto
el i-ésimo,
sujeto i-ésimo,
i = 1,i ...,
= 1,n,..., n
por npor
el ntamaño
el tamaño
muestral y pory xpor
muestral el xvalor
i el valor
observado
observado
parapara
el su
poblacional de una variable
la media cuantitativa
la media
vendría
vendría a dada
dada partir de dos muestras independientes, idonde
por por
Pastor-Barriuso R. 83
la media
la media
vendría
vendría
dadadada
por por
las observaciones de una muestra no están relacionadas no emparejadas con las
1 1 n
x1 + x12 ++ x...2 ++ x...n + x n
x = x= x i
= xi = . .
distribuciones
centraltamaños
del límite),normales N(μ1, muestrales
las medias σn12 /n continuación
1) y N(xμ
continuación
, σx222 /n se describenseaproximadamente
2), respectivamente.
describen
los principales
los
Así, principales
allas estimadores
tratarse estimadores
de la tendenc
de la ten
ambos muestrales n y son 1 2y
suficientemente seguirán grandes (recuérdese el la
teorema
de muestras independientes (véase Apartado 3.4), la distribución
variable.
variable. 1 2 muestral de
de muestras independientes variable. variable.
N(μ(véase Apartado x1μ2y,3.4), la2),distribución muestral de la
Inferencia sobre medias
distribuciones
central
diferencia del de normales
límite),
medias lastambién
medias σ 12 /n
1,muestrales
será 1) y N(
aproximadamente σx 222 /n
seguirán respectivamente.
normal con media Así, allastratarse
aproximadamente
1.2.11.2.1
Media Media aritmética
aritmética
diferencia de medias también(véase
de muestras independientes será aproximadamente
1.2.1 Media 1.2.1 2 Media normal
laaritmética con media
aritmética
distribuciones normales N(E( μ1x, σ-12 x/nApartado
) = E( x )
3.4),
- E( x )
distribución
1) y N(μ2, σ 2 /n2), respectivamente. Así, al tratarse
= μ - μ
muestral de la
Laconocer
media
La media aritmética,
la aritmética,
distribución denotada
denotada
muestral por x 1,–se
de1por 2x define
,2. Si
se ambos
define1como comola2suma
tamaños lamuestrales
suma
1de cada 2de cadauno
n1 y nuno
de losde los
2 son suficientemente
grandes
diferencia(recuérdese el
deindependientes teorema
medias también central
x1será
E((véase La
del
- x 2aproximadamente media
) = E( x1 )3.4), La
límite), media
- E(2laaritmética,
las aritmética,
medias
)normal
= μ1 - μcon
x 2 distribución denotada media depor
denotada
muestrales por x , se xdefine
1 y
, se define
como como
2 seguirán
la suma la suma
de ca
de
valores muestras
valoresmuestrales
muestrales dividida
divididapor elpornúmero Apartado
elnormales
número de observaciones
de observaciones realizadas.
2 2 muestral
realizadas. Si denotamos
Si denotamosla
aproximadamente
y varianza las distribuciones N(μ 1, σ1 /n1) y N(μ2, σ2 /n2), respectivamente. Así, al
valores
tratarse de muestras independientes (véase Apartado 3.4), la distribución muestral valores
muestrales muestrales dividida dividida
por el por
número el número
de la de observaciones
de observaciones
diferencia realizadre
diferencia de medias tambiénE( xserá- x aproximadamente
) = E( x ) - E( x normal
) = μ - con
μ media
denpor
por mediasntamaño
yelvarianza
el también
tamañomuestral
muestral y pory xpori elxvalor
será aproximadamente 1
i el valor
2 observado
normal observado
1
con para para
media
2 el sujetoel sujeto
1 i-ésimo,
2 i-ésimo,i = 1,i =...,1,n,..., n,
var( x1 - x 2 ) = var( xpor 1 ) + n var(
por
el xn
tamaño
2 )
el = σ
tamaño 2
/n
muestral
1 1 + σ
muestral
y2
2 /n
por . x
2 i por
y el valorxi el valor
observado
observado
para elparasujeto
el sui
la media
lay mediavendría
varianza vendríadadadada por por E( x1 − x 2 ) = E( x1 ) − E( x 2 ) = μ2 1 − μ 2 2
var( x1 - x 2 ) = var( x1 ) + var( x 2 ) = σ 1 /n1 + σ 2 /n2.
la media la media
vendría vendría
dada por dada por
En
y varianza consecuencia, se tiene que
yEn varianza x1x2 )
n
1 n xx1 )++xx1var( 2++x... 2x +)...x n+ x2n/n + σ 2 /n .
consecuencia, se var( x1x−=
tiene que 
== xvar(
i = xi =
n i =1n i =1 
1
n n 2
2 = σ . 1 .1 2 2
1 n 1 n x1 + xx2 1++...x 2+ +x n... + x n
En consecuencia, se tiene que x1 − x 2 → ~ Nμ − μ , 1 + 2  σ σ 2
 x = x=x i  = xi = . .
 1 2
 n i =1 n i =1 n n
2 σ 1 n/n 2 + σ 2 /n2.
2 2
En consecuencia, var( se tienex1 - que
x 2 ) = var( x1 ) + var( x 2 )n=
~ σ 11 σ 22 1
La media
La media es laesmedida
la medida dextendencia
1 − x 2 central
de tendencia →N 
central
 μmás 1 − más 2 , utilizada
μutilizada + y deymás de más
fácilfácil
 La media n
La media es
1
la nmedida
2 
es la medida
de tendencia
de tendencia centralcentral
más utilizada
más utilizada
y de my
En
o, consecuencia,
aplicando la se tiene que de una
estandarización ~ 
distribución σ 2
normal, σ 2

interpretación.
o, interpretación.
aplicando laCorresponde Corresponde al “centro
xal “centro
x 2de gravedad”
de gravedad” de los 1de+datos
los datos
2
de lademuestra.
la muestra. Su Su
estandarización 1 −una
de → N  μ1 interpretación.
distribución − μ normal,
interpretación.
2,
n n
Corresponde Corresponde al “centro
al “centro
de gravedad”
de gravedad”
de losde datos
los da
de
o, aplicando la estandarización de una distribución  normal,
1 2 
principal
principal limitación
limitación es que es que
está está
muy x1 muy
−influenciada
x ~influenciada
− ( μ1 − μpor los
por valores
2 ) ~σ 1
2
losσvalores
2 extremos
2
extremos y, eny,este en este
x1 − x 2 2→ μ1 −principal
Nprincipal
 μ 2limitación
→, N (+limitación
0, 1)es . queesestá que muy
está influenciada
muy influenciada
por losporvalores
los valoex
o, aplicando la estandarización x de
− xuna
σ 2
− ( σ1 22− μ 2 ) ~nnormal,
distribución
μ 1 n2 
caso,caso,
puede puedeno serno un serfiel
un reflejo
fiel reflejo
de ladetendencia
1 2 la tendencia
1
+ central central
→ de N (la 0de
, distribución.
1)la. distribución.
n
σ1 σ 2
1 2 caso, n 22 puede
caso, puede
no ser no
unser fielunreflejo
fiel reflejo
de la tendencia
de la tendenciacentralcentral
de la distrib
de la
o, aplicando la estandarización x1 de− xuna +
− distribución
( μ1n 2−para normal,
μ 2 )la~comparación
Esta distribución muestral constituye 2n la
1 base →sobreN (sobre de dos medias poblacionales
1) . estimadores
0,estimadores
Ejemplo Ejemplo 1.4 En 1.4esteEn estey enylos en sucesivos
los sucesivos ejemplos ejemplos muestrales,
muestrales, se se
a partir de muestras
Esta distribución independientes.
muestral constituye Noσ 1obstante,
2
la
σ 2base
2 parapara hacer
la1.4 uso de este de
comparación resultado,
dos es necesario
medias
+ Ejemplo Ejemplo En 1.4este En y este
en los
y ensucesivos
los sucesivos
ejemplos
ejemplos
sobre sobre
estimae
estimar previamente las varianzas x 1 − x 2n− ( μ 1n− μ σ
desconocidas 2 1) y σ de ambas poblaciones. La estimación
2 2
utilizarán
Esta utilizaránlos valores
distribución los valores del colesterol
muestral delconstituye
colesterol 1HDL HDL
la 2obtenidos
baseobtenidos~
para
→No Nen
2
la ,losen
1) .10
comparación
(0obstante, losprimeros
10 primeros sujetos
de 2dos sujetos
mediasdel del
poblacionales
se simplifica a partir desimuestras
notablemente se asumeindependientes. para delhacer = σuso
σcolesterol deHDL esteHDL
σ 1que σlas22 dos varianzas losson iguales 2 , en cuyo caso obtenidos
2
2
utilizarán utilizarán valoreslos valores 1 del colesterol obtenidos en losen 10lo
es posible obtener una estimación combinada + de la varianza común para ambas poblaciones.
estudio estudio
poblacionales “Europeana partirStudy
“European de2 Study
on Antioxidants,
muestras on Antioxidants,
independientes.
n1 poblacional Myocardial
nla2 base Myocardial Infarction
Nolaobstante, Infarction
paraand and
Cancer
hacer Cancer
2 uso
of
de
2 este
of
elEsta
Porresultado, distribución
contrario si σ12 ≠muestral
es necesario , cadaconstituye
σ2estimar varianza
previamente las para
varianzas
estudio estudio
comparación
deberá
“European estimarse
desconocidas
“European
depor
Study Study
on σdos medias
separado,
yon 2 de siendo
σAntioxidants,
1Antioxidants, Myocardial
MyocardialInfarctI
entonces más
the Breast“ impreciso
the Breast“ (EURAMIC), el
(EURAMIC), proceso
un estudiode inferencia.
un estudio multicéntrico Parece
multicéntrico razonable
de casos de casos pensar
y controles
y controlesque la comparación
resultado,
poblacionales
de ambas
medias es es
más necesario
acomplicada
partir estimar
de muestras previamente
enconstituye independientes.
distribuciones las
convarianzasNo obstante,
distinta desconocidas
variabilidad para hacer
queσrealizado
2
y realizado
1 uso σde
enmedias
2
2 de este
distribuciones
Estapoblaciones.
distribución La estimación
muestral se simplificala base the notablemente
para thelaBreast“
Breast“ comparación
(EURAMIC), si se asume
(EURAMIC),de dosque
un estudio
un lasestudio
dos
multicéntrico
multicéntrico
de casosde ca
y
con entre
una entre
misma
1991 1991varianza.
y 1992 y 1992en La igualdad de varianzas no es una asunción puramente teórica, sino
ambas
resultado, poblaciones.
es necesario La ochoen ochopaíses
estimación países
Europeos
se Europeos
simplifica e Israel e Israelparapara
notablemente evaluar evaluar
si seelasume
efecto
el efecto
σ
de los
2que de
σlas
los
2 dos
quepoblacionales
tiene implicaciones deestimar
a partirprácticas muestras previamente
como puede
independientes. las
entre varianzas
apreciarse No en
1991
entre desconocidas
el
obstante,
y1991
1992 siguiente
y enpara
1992 ejemplo.
hacer
ochoen y países
1 uso
países
ocho 2 de
de este
Europeos Europeos
e Israele Israel
para evalu
para
9
ambas
Ejemplo
resultado, poblaciones.
es6.6 
necesarioEnLa estimación
elestimar
ensayo previamente
clínicose simplifica
del Ejemplo notablemente
las varianzas 6.2 sedesconocidas
pretende si se asume σ 12 que
comparar las
y σlas de5 5 de
2 dos
2 medias
presión arterial sistólica entre el grupo placebo y el grupo bajo tratamiento antihipertensivo. 9
ambas Si este tratamiento
poblaciones. Laprodujera
estimación unasereducción
simplificadel nivel de presión
notablemente si searterial
asume aproximadamente
que las dos
igual en todos los pacientes, cabría esperar que la distribución de la presión arterial en9los
tratados presentara un nivel medio inferior que en el grupo placebo manteniendo
inalterable la variabilidad. En tal caso, estaríamos ante una comparación de medias 9 en
distribuciones con igual varianza (Figura 6.2(a)). En caso contrario, si el tratamiento
produjera una disminución de la presión arterial sistólica proporcional al nivel basal de
cada paciente (esto es, mayor reducción en los sujetos con niveles más altos), la presión
arterial en el grupo tratado tendría menor nivel medio y dispersión que en el grupo placebo.
Bajo esta circunstancia, nos encontraríamos con una comparación de medias en
distribuciones con distinta varianza (Figura 6.2(b)).

84 Pastor-Barriuso R.
Comparación de medias en dos muestras independientes

Tratamiento Placebo

μ trat μ plac
(a) Efecto constante

Tratamiento Placebo
6.3.1 Comparación de medias en distribuciones con igual varianza

Si se asume que las varianzas poblaciones son iguales σ 12 = σ 22 , resulta natural estimar

una única varianza combinada a partir de la información disponible en ambas muestras.


μ trat μ plac
Así, se obtendrá un estimador más estable de la varianza poblacional, lo que redundará
(b) Efecto proporcional
en una mayor precisión de la estimación de la diferencia de medias y en una mayor
Figura 6.1
Figura 6.2  Distribución de la presión arterial sistólica en los grupos placebo y tratamiento de un hipotético
ensayo clínico asumiendo un efecto constante (a) o proporcional (b) del tratamiento antihipertensivo.
potencia del contraste.

6.3.1  LaComparación de mediasmuestrales


media de las varianzas en distribuciones
s12 y s 22 con igual
podría varianza
utilizarse como estimador
Si se asume que las varianzas poblacionales son iguales σ12 = σ22, resulta natural estimar una
combinado
única varianzade la varianza.
combinada Esta media
a partir de la es, sin embargo,
información ineficiente
disponible en ya que otorga
ambas el Así, se
muestras.
obtendrá un estimador más estable de la varianza poblacional, lo que redundará en una mayor
mismo peso a ambas varianzas muestrales, aun cuando la varianza estimada a partir de
precisión de la estimación de la diferencia de medias y en una mayor potencia del contraste.
La
unamedia de las
muestra varianzas
mayor muestrales
sea más fiable. Para s22 podría
s12 ydar utilizarse
más peso como estimador
a los resultados combinado
obtenidos con de
la varianza. Esta media es, sin embargo, ineficiente ya que otorga el mismo peso a ambas
varianzas muestrales,
mayor tamaño aun cuando
muestral, la varianza
la estimación estimada
combinada dealapartir de una
varianza muestracomo
se obtiene mayorlasea más
fiable. Para dar más peso a los resultados obtenidos con mayor tamaño muestral, la estimación
combinada
media dedesla
2 varianza
2 se obtiene como la media de s12 y s2grados
1 y s 2 ponderada por sus correspondientes
2
ponderada por sus correspondientes
de libertad
grados de libertad

(n1 − 1) s12 + (n 2 − 1) s 22
s2 =
n1 + n 2 − 2
n1 n2

 ( xi − x1 ) 2 +  ( x j − x 2 ) 2
i =1 j =1
= .
n1 + n 2 − 2
El numerador de s2 es simplemente la suma de las desviaciones al cuadrado respecto de la
El numerador
media de s2 yeselsimplemente
de cada grupo, la corresponde
denominador suma de las desviaciones
al número dealgrados
cuadrado respectopara
de libertad de el
cálculo de este estimador: n1 – 1 grados de libertad en la primera muestra y n2 – 1 en la segunda,
(n1 la media
– 1) + (n2de– cada
1) = ngrupo, y el denominador corresponde al número de grados de libertad
1 + n2 – 2.

para el cálculo de este estimador: n1 – 1 grados de libertad en la primera muestra y n2 –


Pastor-Barriuso R. 85
1 en la segunda, (n1 – 1) + (n2 – 1) = n1 + n2 – 2.

En la distribución muestral de la diferencia de medias, las varianzas desconocidas


A partir
de la diferencia de esteyaresultado,
de medias y siguiendo
no será normal, un procedimiento
sino que análogo al utilizado
seguirá aproximadamente una para una
Inferencia sobre medias
distribución media
t de la(Apartado
deStudent con n5.3.2),
diferencia n2 puede
+ medias
1de yaderivarse
– 2 grados un intervalo
de libertad,
no será normal, de confianza
sino que al 100(1 - α)% para
seguirá aproximadamente una

la diferencia
distribución detmedias
En la distribución dex1 Student
poblacionales
x 2 − ( μcon
−muestral 1 − denμ1la + n~μ 2 1– -2μgrados
2 ) diferencia
2 comode libertad,
de medias, las varianzas desconocidas σ12 y σ22
→ t n1 + n2 − 2 .
pueden entonces sustituirse
de la diferencia de medias 1 por ya 1 la noestimación
será normal, combinada
sino quede la varianza
seguirá s2. Sin embargo,
aproximadamente unacomo
s
esta estimación s está sujeta al error + del muestreo, la~1distribución de la diferencia de medias ya
n1 x1n−2 xx12 −± xt 2n1 +−n2(−μ2,11−−α /μ2 2s) →
2
1
nodistribución
será normal,t de sinoStudent
que seguirá t n1 + n2 − 2, .
+ t de Student con n1 + n2 – 2
conMEDIDAS
1.2 naproximadamente
1 + n2 – 1 2 DE grados
1 TENDENCIA una
de distribución
n1libertad, n 2 CENTRAL
grados de libertad,
1.2 MEDIDAS DE TENDENCIAn1CENTRAL s +
n2
A partir de este resultado, y siguiendo un procedimiento análogo al1.2
1.2 MEDIDAS utilizado
MEDIDAS para una
DE TENDENCIA
DE TENDENCIA
que está centrado alrededorLas de medidas − x 2 −de( μtendencia
lax1diferencia 1de μ 2 ) ~central
− medias muestrales informan y cuyaacerca amplitudde cuál CENTRALes el CENTRAL
valor más represen
Las medidas de tendencia central informan → t n1 + n2 − 2 .
media (Apartado 5.3.2),
A partir depuede derivarse
este resultado, un intervalo
y siguiendo 1 un 1 acercaalde100(1
de confianza
procedimiento
cuál es
análogo - αel )% valor más representativo
al para
utilizado para una
de una determinada s + variable o, dicho detendencia
forma equivalente, estos estimadores indic
depende de su error estándar SE( x1 - xn2 1) = sn 2 1 / n1 + 1 / n 2 . Notar que este central Las medidas
Las medidas de de tendencia intervalocentral
informan
es informan acerca acerca
de cuál de es
c
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
la diferencia demedia
medias poblacionales
(Apartado 5.3.2),μalrededor1 - μ2 como
puede derivarse
de un un
quéprocedimiento
valor intervalo
se unaagrupan de confianza
los datos 100(1 - α)%
alobservados. Las para medidas de tendencia
A partir de este resultado, y siguiendo de dedeterminada
una
análogo determinadaal variable
utilizado variable
o,
paradichoo,
una dicho
de forma
media de forma
equivalente,
equivale
una generalización
alrededor de puedebastante
qué valor natural
se agrupan del intervalo
los datos para la media de una poblacional.
(Apartado
Alapartir 5.3.2),
de este deresultado, derivarsey siguiendo un intervalo μun deobservados.
procedimiento confianzaanálogo alLas100(1medidas α)%depara
al– utilizado tendencia
la diferencia
para una
diferencia medias poblacionales
central de la 1 - μ2 como
muestra sirven
alrededor tanto
alrededor de paraqué deresumir
valor
qué valor
se los resultados
agrupan
se agrupanlos datosobservados
los datos como Las
observados.
observados par
de medias poblacionales μ1 – μ2 como 1 1
x 1 − x 2 ± t
central de la muestra sirven tanto paran + n − 2 ,1 −α / 2 s + resumir , los resultados observados como para
del - α)% para
1 2
media (Apartado
Ejemplo 6.7 En 5.3.2),el estudiopuedeEURAMIC, derivarse n1 un nla2intervalo
media y la dedesviación
confianza típica al 100(1
realizar inferencias acerca central de 1los
central
de la parámetros
1demuestra
la muestra poblacionales
sirven sirven
tantotanto paracorrespondientes.
resumir
para resumir los A
los resultadosresul
realizar inferencias acercax1de− los x 2 ±parámetros
t n1 + n2 − 2,1−α / poblacionales
2 s + , correspondientes. A
colesterol HDL
la diferencia los nca = 462 μcasos
entrepoblacionales - μ2decomo infarto 1 de n
ncuya miocardio fueron x ca =
que está centrado alrededorde demedias
la diferencia continuación de medias se1muestrales
describen realizarlos principales
yrealizar amplitud
2
inferenciasinferencias estimadores
acerca de losdeparámetros
acerca la
lostendencia
parámetros central
poblacionales de unc
poblacion
continuación se describen los principales
que está centrado alrededor de la diferencia de medias muestrales y cuya amplitud depende de estimadores de la tendencia central de una
0,98 y sca = 0,25 mmol/l, y entre los nco = 539 controles fueron seyxdescriben
co = 1,09 y sco =
que está
depende de su error centrado
estándar x1 − xvariable.
SE(alrededor 2 ) =de s la1 /diferencia
n1 + 1 / n 2 de continuación
medias
. Notar continuación
1 muestrales
que este1 se describen
intervalo cuya es unalos principales
amplitudlos principales
generalización estimadores
estimadores de la dt
variable.
bastante natural del intervalo para x 1 − x
la2media ± t n1 + nde 2 − 2 ,una s
1−α / 2población. + ,
0,29 mmol/l. De estos datos se deduce que la n1 n 2 puntual de la diferencia
estimación
una generalizacióndepende de sunatural
bastante error estándar
del1.2.1 intervalo SE(
Media xpara xla
1 - aritmética = s variable.
2 ) media / n1una
1 de variable. n 2 . Notar que este intervalo es
+ 1 /poblacional.
Ejemplo
1.2.1
en el Media
nivel 6.7  En el
aritmética
medio deestudio
colesterol EURAMIC, HDL es la x camedia
- x co y=la0,98 desviación
- 1,09 =típica -0,11del colesterol
mmol/l. Si HDL
que está
entre centrado
los n
una generalización ca = alrededor
462 casosLa de
media
de la diferencia
infarto
bastante natural del intervalo aritmética,
de de
miocardio medias
denotada
1.2.1
para fueron
1.2.1
Media muestrales
por Media
la media x , se
=
aritmética
ca de 0,98 y
define cuya
aritmética y s
como
una poblacional.
ca
amplitud
= la
0,25 suma
mmol/l, de cada y uno de los
Ejemplo 6.7La En el
media
entre estudio
los naritmética, EURAMIC,
= 539 controles denotada la
fueronmedia
por x co, se y la
= 1,09 desviación
define y scomo = 0,29 típica
la suma del
mmol/l. de De cada unodatos
estos de los se deduce
asumimoscouna misma variabilidad del colesterolco HDL en casos y controles, la
que ladeestimación
depende su error estándar valores
puntual de muestrales
SE(laxdiferencia
1 - x 2 ) = en dividida
s La el nmedia
1 /nivel por
1 La
+ 1medio el
media número
/ aritmética,
n 2 . de aritmética,
Notar de
colesterol
que observaciones
denotada denotada
esteHDL pores xpor
intervalo realizadas.
ca, se
– esxdefine
, se
co = defineSi denotam
como como
la sum l
colesterol HDL
valores
0,98
es entre
Ejemplo
– 1,09
decir, los
la = n
6.7
muestrales – 0,11=
desviación 462
caEndividida
elmmol/l.casos
estudio
típica por de
Si infarto
EURAMIC,
el númeroesde
asumimos
combinada de miocardio
la
una
s media
=observaciones
misma
0 , 074 fueron
y lavariabilidad
=desviación
0,272 x =
realizadas.
cammol/l, típica
del Si del
cuyodenotamos
colesterol HDL en
varianza combinada de ambas muestras vendría determinado por
una casos y controles,
generalización la varianza
bastante n el combinada
por natural tamaño muestral
del intervalo de ambas y por
valores
para valores ximedia
muestras
la el muestrales
muestrales valor deobservado
vendríadividida dividida
unadeterminado porpara
poblacional. elpor elpor
númerosujeto
el número dei-ésimo, i = 1, ..
observaciones
de observaci
0,98 y sca =por
0,25 n mmol/l,
colesterol
valorelestá
tamañomás y entre
HDL muestral
próxima los nalos
entre ycolapor =ndesviación
539
ca controles
x=i el462 valor casos fueron
de
observado
típica infarto
observada xpara
code =enel
1,09
miocardio
sujeto
los y scoi-ésimo,
controles =fueron quei enx=ca1,=..., n,
la media vendría
2
(n ca − 1) s ca + (n co − 1) s conpor dada por 2
n el tamaño
el tamaño muestral muestral y poryxpor xi el valor
i el valor observado
observadopara elpa
s2 =
0,29 mmol/l. la De
media
los estos
0,98 yvendría
casos ca
Ejemplo s datos
=
(mayor 0,25 dada
se
6.7 En tamaño deduce por
mmol/l,
el estudio quey
muestral la
entre
n ca + de
EURAMIC, estimación
los
n colos n
− co = puntual
539
2primeros).
la media Así, controlesde la diferencia
fueron
el error estándar
y la desviación x = 1,09
típicadedel
co y
la co s =
es decir, la desviación típica combinada es sla=media la
0,074 media
vendría
12 = n vendría
0,272 dada dada
por
mmol/l, por
cuyo
x + x 2 + ... + x n

2
(462 −ca1se )-0x,deduce
25 +0,98(539 − 1estimación
) 0x=,= 29 xpuntual
= 1 Si
en el nivel medio demmol/l.
diferencia
0,29
colesterolcolesterol
de
HDL medias HDL
Deentre estos
=puede es
losdatos nxcalcularse
ca 1 = 462 n =
co como
casos que - 1,09 -0,11
x1 + x 2 + ... +n xi==n1 0,074; de
de lainfarto de mmol/l.
miocardio
i x ca .=
la diferencia
fueron
n
valor está más próxima a la desviación x = 462  +xi539 = −2
n i =1 típica observada n en.los controles que 1enn 1 n x1 + xx21 + ... x 2++x...
n +
asumimos una0,98 misma
en variabilidad
ely nivel medio de del colesterol
colesterol HDL HDL es en
x cacasos
- x co y=controles,
0,98 - 1,09 la = -0,11 = x
xmmol/l. = xSi i = xi = .
es decir,sla
es decir, = 0,25 mmol/l,
ca desviación
la desviación
SE( xtamaño
típica
típica ycombinada
entre 1 los1nco
combinada es=s 539 = controles
0 , 1 =10,272
074 fueron x co = cuyo
mmol/l, 1,09 sn =
n yivalor
=1 co i =está n n
ca - x co La)muestral
=medias es +lalos medida = 0,272 de tendencia + el error = 0,017.
central más utilizada
de la y de más fácil 1
los casos (mayor de primeros). Así, estándar
más
varianza combinada próximo
de ambas a la desviación
muestras típica
n ca observadan en los
462 controles
539 que en los casos (mayor
La media
asumimos esuna la medida
misma de vendría
tendencia
variabilidad determinado
central
co
del colesterolmáspor utilizada
HDL en ycasos de más fácil
y controles, la
0,29 está
tamaño
valor mmol/l.
muestral
más De deestos
próxima los a datos
primeros).
la se deduce
desviación Así, eltípicaque observada
error laestándar
estimación de en puntual
lalosdiferencia
controles de de laque
diferencia
mediasen 12 puede
interpretación.
diferencia de medias puede calcularse como La media Corresponde al “centro
La media de
es la es gravedad”
medidala medida de
de tendencia los
de tendenciadatoscentral decentral
lamás
muestra.
utilizada
más util Su
calcularse
interpretación. como Corresponde al “centro de gravedad” deerror
los datos de la muestra. Su
Avarianza
partir decombinada 2 de ambas muestras vendría determinado por
encasos
los els nivel (nlamedio
2 (mayor
diferencia
) sde
ca − 1tamaño ca + (de
colesterol
medias
nmuestral
co − 1) sHDL
2 muestrales
code los es x
y de su
ca - x co Así,
primeros). = 0,98 el
estándar,
- 1,09
error =
y teniendo
estándar-0,11 mmol/l. Si extremos
= principal limitación es que está
interpretación. muy
interpretación. influenciada
CorrespondeCorresponde al de
por losal lavalores
“centro “centro
de gravedad”
de gravedad” y,
deen loses
ded
en cuenta
principal que
limitación la n caes +
distribuciónn
que co −
está 2 t de
muy1 Student 1
influenciada con n +
por n 1 los– 2 =1
valores999 grados
extremos de y, en este
SE( x ca − x co ) = (n cascalcularse ) s+ca2ser
−n1cano +cocomo = 0−,272
ncolesterol
(un
ca
1reflejo2
) sprincipal
co + = 0,017.
asumimosdeuna
diferencia medias misma s 2 variabilidad
puede
caso, = 2 puede ndel 2fiel
co
principal co 462 HDL de
limitación en
539
la casos
tendencia
limitación es que y es controles,
central
está
que muy de la
está la
muy distribución.
influenciada
influenciadapor los porval
lo
(462 − 1) 0,25 + (539 − 1) 0,29
libertad
caso, puede =es novirtualmente
ser un fielidéntica reflejo de n acauna + n − 2
distribución
la tendencia
co = 0,074 centralnormal
; de estandarizada,
la distribución.el IC al
Avarianza
partir de combinada
la diferencia 462 de de
+ambas medias
539 muestrales
− 2muestras y de su
vendría error estándar,
determinado por y teniendo en cuenta
1) muestrales 1 caso,caso, puede 1 puede
no2 ser1 nounser fielunreflejo
fiel reflejo
de la de tendencia
la tendenciacentral centra
de l
A
que partir
la de la
distribución diferencia t de de
Student ( medias
462 −con 0n , 25 + 2
n+ ( –
539 y
2 de
=− su
999
1 ) 0 error
, grados
29 estándar,
de libertad y teniendo
es virtualmente
95% para μSE( ca - μ xcoca viene
- x co=)dado =Ejemplo
s por +1.4 ca En= coeste
0,272 y en los +sucesivos = 0 , ejemplos
= 0,017.
074 ; sobre estimadores muestral
idéntica a una distribución
Ejemplo 1.4 En este ynormal en los n caestandarizada,
462 n co+ 539ejemplos
sucesivos − 2el2 IC 462 alsobre
95% para μca – μcomuestrales,
539estimadores viene dado se por
2
en cuenta que la distribución 2 ( n t −de 1 ) s
Student
utilizarán los valores del
ca ca + ( n con
co − 1
n )
cas +
co n –
colesterol
Ejemplo co 2
Ejemplo = 999
1.4 HDL En grados
1.4este En de
obtenidos
yeste y enen
en los lossucesivos
sucesivos
los 10 primeros
ejemplos sujeto
ejemplos
sobre
x ca s− x=co ± t999;0,975 n +SEn( x ca− −2 x co ) 12
utilizarán
A partiresdevirtualmente los valores
la diferenciaidéntica de = delmediascolesterol
ca co HDL obtenidos en los 10 primeros sujetos del
muestrales y =de(−normal
su error estándar, y teniendo
libertad estudio − 0,11a una“European distribución
± 1,96⋅0,017 Study 0,14; −estandarizada,
onutilizarán
utilizarán 0,08).
Antioxidants, delelcolesterol
Myocardial IC al Infarction andobtenid
Cancer
2 2 los valores los valores del colesterol HDLHDL obtenidos en
estudio “European (
Study 462 −
on 1 ) 0 , 25
Antioxidants, + ( 539 − 1 )
Myocardial 0 , 29 Infarction and Cancer 12
of
en cuenta = t de Student con nca + nco – 2 == 999 0,074 ;
95% para μque la distribución
ca - μco viene dado the por Breast“ + 539 − 2estudio
462(EURAMIC), un estudio
estudio
“European
grados
multicéntrico
“European
de
StudyStudy on de on casos
Antioxidants, y controles
Antioxidants, Myocardialreali
Myoca
De lostheresultados
libertad Breast“
es virtualmente(EURAMIC),
del estudio idéntica una estudio
EURAMIC una distribución multicéntrico
puede entonces normal de casos
concluirse y que
estandarizada, controles
el nivel
el IC realizado
al
86 Pastor-Barriuso R.
entre 1991
x ca - x co ± t999;0,975 SE( x ca - x co )the Breast“y 1992 en ocho países
the Breast“ Europeos
(EURAMIC),(EURAMIC),e Israelun para un evaluar
estudio estudio el efecto de
multicéntrico
multicéntric
medio de 1991 colesterol HDL en los países
casos de infarto es inferiorpara en 0,11 mmol/l al de los
95% entre
para μca - μyco1992 vieneendado ocho por Europeos e Israel evaluar el efecto
= -0,11 ± 1,96⋅0,017 =entre (-0,14;entre
1991 1991
y 1992
-0,08). y 1992en ocho en ocho
paísespaíses 12 Europeos
Europeos e Israel e Isra
pa
medio de colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al
Comparación de medias en dos muestras independientes
nivel medio de los sujetos libres de la enfermedad, estando esta diferencia
que sigue aproximadamente una distribución t de Student con n1 + n2 - 2 grados de
comprendida entre 0,08 y 0,14 mmol/l con una confianza del 95%.
De los resultados del estudio EURAMIC puede entonces concluirse que el nivel medio de
libertad si la hipótesis nula H0: μ1 = μ2 es cierta. Por tanto, el valor P se obtiene como el
colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al nivel medio de los
En el caso
sujetos de la
libres decomparación
la enfermedad, de medias
estandoentre
esta dos poblaciones,
diferencia la hipótesis
comprendida entrenula
0,08más
y 0,14
área bajo la distribución t n1 +n2 − 2 para valores más extremos que el valor observado de t.
mmol/l con una confianza del 95%.
natural es la igualdad de ambas medias poblacionales. Para realizar el contraste de esta
Esta prueba de hipótesis se conoce genéricamente como el test de la t de Student para
En el caso de la comparación de medias entre dos poblaciones, la hipótesis nula más natural
hipótesis nula H0: μ1 = μ2 frente a la hipótesis alternativa bilateral H1: μ1 ≠ μ2 a partir de
es la igualdad
muestras de ambas medias
independientes con igualpoblacionales.
varianza. Para realizar el contraste de esta hipótesis nula
H0: μ1 = μ2 frente a la hipótesis alternativa bilateral H1: μ1 ≠ μ2 a partir de dos muestras
dos muestras independientes de igual varianza, se emplea el siguiente test estadístico
independientes de igual varianza, se emplea el siguiente test estadístico
Ejemplo 6.8 Un nivel medio de colesterol HDL significativamente más bajo en
x1 − x 2 x1 − x 2
t= = ,
los casos de infarto que en losSE ( x1 − libres
sujetos x 2 ) de enfermedad
1 1 sería compatible con
que sigue aproximadamente una distribución t de Student con ns 1 + n+ - 2 grados de
n1 2 n 2
la hipótesis de que el colesterol HDL es un factor protector en el infarto de
libertad si laque
hipótesis nula H0: μ1 = μ2 esuna
sigue aproximadamente cierta. Por tanto,t de
distribución el valor P secon
Student obtiene
n1 + ncomo el
2 – 2 grados de libertad si
la hipótesis
miocardio. H0:este
nula En μ1 =ejemplo,
μ2 es cierta. Por tanto,
se pretende el valor
contrastar estaP hipótesis
se obtiene comode
a partir el los
área bajo la
área bajo la distribución t n1 +n2 − 2 para valores
valores más másextremos
extremosque queelelvalor
valor observado
observado t. t. Esta prueba de
de de
niveles
hipótesis de colesterol
se conoce HDL observados
genéricamente la tcasos
como el testendelos de Student para muestras
y controles del estudio 13
independientes
Esta prueba con igual varianza.
de hipótesis se conoce genéricamente como el test de la t de Student para
EURAMIC. El resultado de este contraste, junto con la estimación puntual y por
muestras independientes
Ejemplo con 6.8 igual varianza.
Un nivel medio de colesterol HDL significativamente más bajo en los
intervalo
casos de infarto que enellos
obtenida en ejemplo
sujetosanterior,
libres depermiten evaluar
enfermedad seríanocompatible
sólo la con la hipótesis
de que el colesterol HDL es un factor protector para el infarto de miocardio. En este
Ejemplo 6.8significación
Un nivelse
ejemplo, medio de colesterol
estadística
pretende contrastar HDL
estasignificativamente
sino también la relevancia
hipótesis máslos
clínica
a partir de y bajo en pública
deniveles
salud del HDL
de colesterol
observados en los casos y controles del estudio EURAMIC. El resultado de este contraste,
los casos dehallazgo.
infarto
junto que
con la en los sujetos
estimación libresyde
puntual enfermedad
por sería compatible
intervalo obtenidas con anterior, permiten
en el ejemplo
evaluar no sólo la significación estadística sino también la relevancia clínica y de salud
la hipótesis Asumiendo
de que eldel
pública colesterol
igualdadHDL
hallazgo. es un factor
de varianzas protector enelelcontraste
poblacionales, infarto debilateral de la
Asumiendo
miocardio. En igualdad
este ejemplo,H0se de varianzas
: μpretende poblacionales,
contrastar elelestadístico
contraste
esta hipótesis a partir bilateral
de los de la hipótesis nula
hipótesis nula ca = μco se realiza mediante
H0: μca = μco se realiza mediante el estadístico
niveles de colesterol HDL observados en los casos y controles del estudio
x ca − x co − 0,11
t= = = − 6,35.
SE (junto
EURAMIC. El resultado de este contraste, x ca − con
x co ) la estimación
0,017 puntual y por
Si ambas medias poblacionales fueran iguales, la distribución de este estadístico sería t999 o
intervalo obtenida
Si ambasen medias
el ejemplo anterior, permiten
poblacionales fueran El evaluar la
iguales, nodistribución
sólo la de este estadístico
aproximadamente normal estandarizada. valor P bilateral se obtiene entonces como el doble
de la probabilidad a la izquierda de – 6,35 en la distribución normal estandarizada, que corresponde
significaciónsería
estadística sino también la relevancia clínica y de salud pública del se obtiene
a P < t0,001.
999 o aproximadamente normal
Así, puede concluirse estandarizada.
que existen El muy
diferencias valor P bilateral
significativas en el nivel medio
de colesterol HDL entre los infartados y los sujetos libres de enfermedad. Esta diferencia
hallazgo. entonces como el doble de la probabilidad a la izquierda de -6,35 en la
significativa es perfectamente consistente con el intervalo de confianza calculado en el ejemplo
anterior,
igualdadpuesto
Asumiendo distribución que éstepoblacionales,
de varianzas no contenía al cero (valor nulo
el corresponde
contraste para la de
bilateral diferencia
la Así,depuede
medias).
normal estandarizada, que a P < 0,001.
hipótesis Los
nulamétodos
H0: μca descritos en este apartado
μco existen
=que se realiza mediantepueden extenderse a la comparación de tres o más medias
el estadístico
poblacionales. Las técnicas para comparar medias en múltiplesen
concluirse diferencias muy significativas el nivelindependientes
muestras medio de se conocen
con el nombre de análisis de la varianza de una vía y pueden consultarse en los libros referenciados
colesterol
al final HDL
del tema. entre los
− x coinfartados
x ca estos y los sujetos
- 0,11 no selibres
tratandeexplícitamente
enfermedad. Esta
t Aunque
= procedimientos
= = -6,35. en este texto, la
comparación de múltiplesSE (medias
x ca − xacopartir de datos independientes también puede abordarse mediante
) 0,017
los modelos de regresión lineal que se presentarán más adelante (Temas 10 y 11).
14
Si ambas medias poblacionales fueran iguales, la distribución de este estadístico
Pastor-Barriuso R. 87
sería t999 o aproximadamente normal estandarizada. El valor P bilateral se obtiene

entonces como el doble de la probabilidad a la izquierda de -6,35 en la


para contrastar estadísticamente la hipótesis de homogeneidad de varianzas en dos
Inferencia sobre medias
muestras independientes.

El test para la igualdad de varianzas poblacionales se basa en la comparación de las


6.3.2  Contraste para la igualdad de varianzas
varianzas muestrales s12 y s 22 . Como se apuntó anteriormente (Apartado 6.2.2), si la
La comparación de medias presentada en el apartado anterior se fundamenta en la asunción de
igualdad de varianzas. Esta asunción es determinante para poder calcular una estimación
distribución
combinada de subyacente
la varianza.de En la variable es normalseenpresentan
este apartado ambas poblaciones,
los métodos los estadísticos
para contrastar
estadísticamente la hipótesis de homogeneidad de varianzas en dos muestras independientes.
(n1 – 1) s12 / σ 12 y (n2 – 1) s 22 / σ 22 se distribuyen como una chi-cuadrado con n1 - 1 y n2 -
El test para la igualdad de varianzas poblacionales se basa en la comparación de las varianzas
muestrales 2
s22. Como
1 gradoss1deylibertad, se apuntó anteriormente
respectivamente. (Apartado
Combinando 6.2.2), si ladedistribución
la distribución estos subyacente
estadísticos
de la variable es normal en ambas poblaciones, los estadísticos (n1 – 1)s1 /σ1 y (n2 – 1)s22/σ22 se
2 2

distribuyen
en ambascomomuestrasuna independientes,
chi-cuadrado con se nobtiene n2 – 1 grados de libertad, respectivamente.
1 – 1 yque
Combinando
A la derechala distribución de estosseestadísticos
de esta expresión en ambas
tiene el cociente de muestras independientes,
dos variables se obtiene
independientes chi- que
A la derecha de estacuadrado
expresión se tiene por
divididas el cociente des12 dos
sus respectivos / σ 12variables
χ n2 −1de
grados /(independientes
nlibertad,
1 − 1) que sechi-conoce como la
2 2
~ 2
1 .
s 2 / σ 2 χ n2 −1 /(n 2 − 1)
uadrado divididas distribución
por sus respectivos grados de libertad,
F de Fisher con n1 - 1 grados que dese libertad
conoce como la
en el numerador y n2 - 1 en el
A la derecha de esta expresión se tiene el cociente de dos variables independientes chi-
istribución F decuadrado
Fisher con n1 - 1 grados
divididas susderespectivos
pordenota libertad en el numerador y n2 que- 1 en2 el
denominador, y se por Fn1 −1, n2grados de libertad, se conoce 2como
−1 . Así, la razón entre s1 / σ 1 y s 2 / σ 2 sigue una
2 2 la distribución
15
F de Fisher con n1 – 1 grados de libertad en el numerador y n2 – 1 en el denominador, y
enominador, y se por Fn1 −1, n2 −1 . Así, la razón entre ss112/σ
denota por
se denota
2
/ σ1212y ys22s/σ22 2/2σsigue
2
2 sigue unauna
distribución F con n1 – 1 y
distribución F con n1 - 1 y n2 - 1 grados de libertad,
n2 – 1 grados de libertad,
istribución F con n1 - 1 y n2 - 1 grados de libertad,
s12 / σ 12
2 2
~ Fn1 −1, n2 −1 .
s1 / σ 1
2 2 s 2 / σ 2
~ Fn1 −1, n2 −1 .
La distribución F
2
s 2 de/ σFisher
2
2 toma sólo valores positivos y está sesgada positivamente con un
valor La
másdistribución
frecuente (moda)F de Fisher
menor toma de 1sólo valores
y una media positivos
mayor ydeestá sesgada
1. Al positivamente
aumentar los grados de
libertad del numerador y denominador, tanto la media como la moda se aproximan al valor 1
La distribución Fcon
de Fisher toma sólo valores positivos y está
deF1sesgada positivamente
(Figuraun valor
6.3). Losmás frecuente
percentiles de(moda) menor
la distribución dey Fisher
una media paramayor de grados
distintos 1. Al aumentar
de libertad del
numerador y denominador se presentan en la Tabla 7 del Apéndice.
on un valor más frecuente
los grados(moda) menordel
de libertad de numerador
1 y una media mayor de 1. Al
y denominador, aumentar
tanto la media como la moda se
os grados de libertad del0,8
numerador
aproximan al valory 1denominador,
(Figura 6.3). tanto la media como
Los percentiles
F 0,8lala
de moda se F de Fisher para F
distribución
5,5 5,5
F5,10 F10,5
proximan al valor distintos
1 (Figuragrados
6.3). Los percentiles de la distribución
F F de Fisher para F30,5
de libertad del numerador5,30y denominador se presentan en la Tabla 7 del
0,6 0,6
istintos grados de libertad
Apéndice.del numerador y denominador se presentan en la Tabla 7 del
f(x) 0,4 0,4
Apéndice.
0,2 [Figura 6.3 aproximadamente
0,2 aquí]
[Figura 6.3 aproximadamente aquí]
0 0
Ejemplo 6.9 Utilizando la Tabla 7 del Apéndice, el percentil 97,5 de una
0 1 2 3 0 1 2 3
Ejemplo 6.9 Utilizando la TablaF7de
distribución delFisher
Apéndice,
con 5elgrados
percentil 97,5 de en
de libertad unael numerador y denominador
x x
distribución F de Fisher
es F con 5 =
grados
7,15, de libertad
y (a)
para en el numerador
30 grados de libertadyendenominador
ambos es F (b) = 2,07.
5;5;0,975 30;30;0,975

es F5;5;0,975Figura
= 7,15,6.3  Función
yAunque
para de densidad
30esta
grados
tabladeno
libertad ambos Fesdeinferiores,
de la distribución
facilitaenpercentiles FFisher al aumentar los grados de libertad del de-
30;30;0,975 = 2,07.
puede comprobarse que el
nominador (a) y del numerador (b). Figura 6.1

Aunque esta tabla no facilita percentiles inferiores, puede comprobarse que el


percentil α en una distribución F con d1 y d2 grados de libertad es igual al inverso
88 Pastor-Barriuso R.
percentil α en una distribución F con d1 y d2 grados de libertad es igual al inverso
del percentil 1 - α en una distribución F con d2 y d1 grados de libertad, Fd1 , d 2 ,α =
del percentil 1 - α en una distribución F con d2 y d1 grados de libertad, Fd1 , d 2 ,α =
or y denominador, la distribución F distribución F de Fisher con 5 grados de libertad en el numerador y d

rica alrededor del valor 1. es F5;5;0,975 = 7,15, y parade30


Comparación grados
medias en dosde libertad
muestras en ambos es F30;30;0,975
independientes

distribución F30,30 entre 0,48 y 2,07.


AunquePuede
estaentonces
tabla no observarse que, al aumentar
facilita percentiles inferiores, puede comprobar
cociente entre s12 / σ 12Ejemplo
y s 22 / σ 26.9 
2
, F
el número deUtilizandogrados delalibertad
Tabla 7del delnumerador
Apéndice, yeldenominador, percentil 97,5ladedistribución
α en una ydistribución F con
una distribución F
de Fisher con 5 grados de libertadpercentil en el numerador denominador es Fd5;5;0,975
1 y d2 = grados
7,15, dey libertad es igu
para
de30
ara la razón de dos varianzas grados
Fisher de libertad
se hace en ambosy más
menos dispersa es F30;30;0,975 simétrica = alrededor
2,07. Aunque esta 1.
del valor tabla no facilita
del percentil
percentiles inferiores, puede comprobarse que el percentil α en una distribución 1 - α en una distribución F con dF d1 grados
2 ycon d1 de libertad
y d2 grados de libertad es igual al inverso del percentil 1 – α en una distribución F con d2
utilidad práctica, nos centraremos
y dpartir
A 1 grados
distribuciónde ladeFdistribución d1 , d 2 ,α = 1/F
libertad, Fmuestral Fnd1 −2 1,d, n12,1−−1entonces
. Así,
α del el percentil
entre 2,5
elobservarse
cocientepercentil 2 en
s2,5 en2las
1 / σ 1al y
lasdistribuciones
s 22distribuciones
/ σ 22 , anteriores es F5;
30,30 entre 0,48 y 2,07. Puede que, aumentar
anteriores es F
traste bilateral de la hipótesis nula 5;5;0,025 = 1/F 5;5;0,975 = 1/7,15 = 0,14 y F 30;30;0,025 = 1/F 30;30;0,975 = 1/2,07 = 0,48.
Por tanto,
el número
resulta sencillo el 95%
decalcular central
grados de de
un libertad la
intervalodel distribución
1/F
denumerador
confianza
5;5;0,975 5,5 para F = está
1/7,15 comprendido
= 0,14
y denominador, y
la razón de la F dosentre 0,14
= 1/F
distribución
varianzas
30;30;0,025 y 30;30;0,975
7,15,
F y de
= 1/2,07 = 0,48.
e basa en la razón de la varianzas F30,30 entre 0,48 y 2,07. Puede entonces observarse que, al aumentar el
lasdistribución
de Fisherdesegrados
número σhace 2 de libertad
menos dispersa del ynumerador
95%
máscentral simétrica y de
denominador,
la distribución
alrededor del F5,5 está
la valor
distribución F de Fisherentre 0,14 y 7,15
1. comprendido
1 / σ 2 . No obstante, por su mayor utilidad práctica, nos centraremos
2
poblacionales
se hace menos dispersa y más simétrica alrededor del valor 1.
aquí en el test para la igualdad de varianzas. El contraste bilateral de la hipótesis nula
A partir de la
la distribución muestral Fn1 −1, n2 −1 del
distribución muestral del cociente entre ss121/σ
cociente entre /1σ y1 sy2/σs 22,/ σ
2 2 2 2 22 2
2 ,
resulta sencillo
calcular
H0: σun2 intervalo de confianza para la razón2 de dos2 varianzas poblacionales σ1/σ2 . No obstante,
2 2
1 = σ 2 frente a la alternativa H1: σ 1 ≠ σ 2 se basa en la razón de las varianzas
2

por su mayor utilidad


resulta sencillo calcular práctica, nos centraremos
un intervalo de confianza aquí en la
para el razón
test para
de dosla igualdad
varianzas de varianzas. El
contraste bilateral de la hipótesis nula H0: σ1 = σ2 frente a la alternativa H1: σ1 ≠ σ22 se basa en la
2 2 2
muestrales 2 2
razón de las varianzas
σ 1 / σ 2 muestrales
σ 22 es cierta, lapoblacionales
razón . No obstante, por su mayor utilidad práctica, nos centraremos

aquí en el test para la igualdad de varianzas.F El s12


contraste bilateral de la hipótesis nula
que este estadístico se distribuirá = 2.
s2
H0: σ 12 = σ 22 frente a la alternativa H1: σ 12 ≠ 2σ 22 se basa en la razón de las varianzas
en el numerador Siylan2hipótesis
- 1 en elnula de igualdad de varianzas σ1 = σ22 es cierta, la razón (s12/σ12)/(s22 /σ22 ) se reduce
a s12Si
/s22la
, de tal forma
hipótesis nulaque deeste estadístico
igualdad se distribuirá
de varianzas σ 12 = σsegún 2
una F de
2 es cierta, Fisher con n1 – 1 grados
la razón
tonces como el de muestrales
doble de la
libertad en el numerador y n2 – 1 en el denominador. El valor P del contraste se calcula
entonces
( s12 / σ 1como
2
)/( 2s 22el/ σdoble
2 de la probabilidad
2 2 a la izquierda de este estadístico bajo la distribución
2 ) se reduce a s1 / s 2 , de tal forma que este estadístico se distribuirá
2 2
la distribución Fn1 −1, n2 −1, si ss1 1≤ ≤
2
s2, so2 como
, el doble del área a sla12 derecha del estadístico, si s12 > s22.
F= .
según una F de Fisher con n1 - 1 grados des 22libertad en el numerador y n2 - 1 en el 2 2
o, si s12 > s 22 . Ejemplo 6.10  En los Ejemplos 6.7 y 6.8 se comparó la media del colesterol HDL entre s ca 0,25
F= 2 =
los casos y El
denominador. controles
valor Pdel delEURAMIC
contraste sebajo la asunción
calcula entonces decomo
homogeneidad
el doble dede la varianzas. La s co 0,29 2
Si la hipótesis
validez de nulaestos deresultados
igualdad de varianzasdelσ cumplimiento
dependerá 1 = σ 2 es cierta,
2 2
la razón
de dicha hipótesis. Para contrastar
omparó la media del bilateralmente
colesterol HDL la hipótesis
probabilidad a la izquierda de este estadístico nula H 0: σ 2
ca = σ 2
, se calcula el test estadístico
cobajo la distribución Fn1 −1, n2 −1 , si s1 ≤ s 2 ,
2 2

( s1 / σ 1 )/( s 2 / σ 2 ) se reduce a s1 / s 2 , de tal forma que este estadístico se distribuirá


2 2 2 2 2 2 que sigue una distribución F con nca – 1 = 461
jo la asunción de homogeneidad de s ca2 0,25 2
o como el doble del área a la derecha F = del = estadístico, si s12 > bajo
= 0,74, s 22 . H0. Como sca < sco, el valor P es igual a 2
según una F de Fisher con n1 - 1 grados sde 2 libertad
co 0,29 2 en el numerador y n2 - 1 en el
enderá del cumplimiento de dicha
que sigueEluna
denominador. valordistribución
P del F conse
contraste ncacalcula
– 1 = 461 y nco –como
entonces 1 = 5380,001.
el grados
doble Notar laque
de este valor
libertad
decolesterol bajo HP0.sería idéntico si
Ejemplo 6.10 En los Ejemplos
el valor P esFigual 6.7
con naca2P(F y 6.8, se comparó la media
nco – =1 2∙0,0005 del HDL
pótesis nula H0: σ ca =que
2 Como 2
, sse
σ cosigue ca <una sco,distribución –1= 461≤y0,74)
461,538 = 538 grados = 0,001. de libertad
2
Notar que este
2
valor P sería idéntico si se hubiera utilizado el estadístico inverso
Fnde F = s co /2 s ca =2 1,35. En tal caso, el val
probabilidad entre alosla izquierda
casos y de este estadístico
controles del EURAMIC bajo la bajodistribución
la asunción 2 −1 , si s1 ≤ s 2 ,de
homogeneidad
1 −1, n
bajocaso,
tal H0. Como
el valorscaP<sesco , el valoraPpartir
obtendría es igual de la a 2P(F 461,538 ≤ F
distribución 0,74)
538,461=como 2⋅0,0005 2P(F=538,461 ≥ 1,35)
= 2∙0,0005 = 0,001. distribución F538,461 como 2P(F538,461 ≥ 1,35)
o como elvarianzas.
0,001. dobleNotar
La
delqueárea validez
estea lavalorde estosdel
derechaP sería
resultados
estadístico,
idéntico
dependerá
si s12 > del
sihubiera
se .cumplimiento
s 22utilizado de dicha
el estadístico
La variabilidad del colesterol HDL resulta significativamente menor entre los casos de
infarto que entre los individuos libres de la enfermedad, con Lalovariabilidad
cual2no puede 2delaceptarse
colesterollaHDL resulta sig
hipótesis. Para
2 2contrastar bilateralmente la hipótesis nula H0: σ ca = σ co , se
inverso
hipótesis 6.10F = s
de igualdad / s = 1,35. En
de varianzas. tal caso, el valor P se obtendría a partir de la
Ejemplo co
En los
17
ca
Ejemplos 6.7 yEn6.8, consecuencia,
se comparó los procedimientos
la media del colesterol utilizados
HDL en los
Ejemplos casos de infarto que entreHDL
los individuos libre
calcula 6.7 y 6.8
el test son inadecuados para comparar los niveles medios de colesterol
estadístico
distribución
entre
entre casos
los casos yFcontroles. como 2P(F
y controles
538,461 538,461 ≥ 1,35)
del EURAMIC bajo= 2⋅0,0005
la asunción = 0,001.
de homogeneidad de
puede aceptarse la hipótesis de igualdad de va
La variabilidad
varianzas. del colesterol estos HDL resultadependerá
significativamente menor entre los
Existen otrasLatécnicasvalidez deestadísticasresultadospara la comparación del cumplimiento
de varianzas
procedimientos
de dicha en muestras
utilizados en los Ejemplos 6.7
independientes,
casos de infarto tales como el test de Bartlett
que entre bilateralmente
los individuos la o la
libresprueba de
de la nula Levene
enfermedad, . En general,
2 con lo
estas técnicas
17
hipótesis. Para contrastar hipótesis H 0: σ ca = los
comparar ,cual
se nomedios
σ co2 niveles de colesterol HD
puede aceptarse la hipótesis de igualdad de varianzas. En consecuencia, losPastor-Barriuso R. 89
calcula el test estadístico
procedimientos utilizados en los Ejemplos 6.7 y 6.8 sonExisten inadecuados otras técnicas
para estadísticas para la compa
Así, sustituyendo σ 12 por s12 y σ 22 por s 22 en la distribución muestral de la
Inferencia sobre medias

diferencia de medias, se obtiene el estadístico

permiten comparar varianzas entre dosx1 − ox 2más


− ( μgrupos y, en el caso del test de Levene, la
1 − μ2 )
comparación no requiere que la distribución subyacente de . la variable sea normal. Los lectores
2 2
s
interesados pueden consultar estos procedimientos s
+ en las referencias incluidas al final del tema.
1 2

n1 n 2
6.3.3  Así,
Comparación
sustituyendode σ 1medias
2
por s12eny distribuciones
σ 22 por s 22 en lacon distinta varianza
distribución muestral de la
Aunque resulta complicado derivar la distribución exacta de este estadístico, existen
Cuando las varianzas poblacionales son distintas, carece de sentido calcular una estimación
diferencia de medias, se obtiene el estadístico
combinada
diversas de la varianza, yaque
aproximaciones quefuncionan
ésta infraestimará
bien en la o sobreestimará la variabilidad
práctica. El método específica
más utilizado es de
cada población. En este caso, aun perdiendo algo de precisión, es preferible estimar por separado las
σσ121y por y xσ1 22−sus
2
Así,poblacionales
varianzas sustituyendo
la aproximación de Welch, s12 permite
σ22que
mediante por −s(22μen
xaproximar1 −la μla2distribución
2 correspondientes muestral
)distribución
varianzas este de la s12 y s22 .
demuestrales
estadístico
.
2
s 22
Así, sustituyendo σ12 por s12 y σ22 por s22 en sla1 distribución muestral de la diferencia de medias,
diferenciauna
mediante de medias, se obtiene
t de Student con loselsiguientes +
estadísticogrados de libertad
se obtiene el estadístico n1 n 2

x1 (−s 2x 2/ n− (+μ s1 2−/μn2 )) 2


Aunque resulta complicado 2 .
d = derivar la distribución
1
2
1 2
2 2
exacta de este estadístico,
. existen
2 2 s1 s
( s1 / n1 ) /(n1 − 1)++ ( s 2 / n 2 ) 2 /(n 2 − 1)
2

diversas aproximaciones que funcionan bien n1 enn 2la práctica. El método más utilizado es
Aunque
Puederesulta complicado
comprobarse que dderivar
es siempre la distribución
inferior o igualexacta a nde1 +este
n2 –estadístico,
2; es decir, existen
esta diversas
la aproximación de Welch, que permite aproximar la distribución de este estadístico
Aunque resulta
aproximaciones complicado
que funcionan derivar
bien en la la distribución exacta de
práctica. El método más este estadístico,
utilizado es laexisten
aproximación
de distribución t de Student
Welch, que permite será más
aproximar dispersa quede
la distribución la este
empleada en el mediante
estadístico caso de igualdad
una t dedeStudent
mediante una t de Student con los siguientes grados de libertad
diversas aproximaciones que
con los siguientes grados de libertad funcionan bien en la práctica. El método más utilizado es
varianzas. Esto es lo que cabría esperar ya que, al estimar por separado las varianzas, la
la aproximación de Welch, que permite ( s12 aproximar
/ n1 + s 22 / nla2 )distribución
2
de este estadístico
d
distribución resultante ha de= .
( s12reflejar
/ n1 ) 2 /(mayor
n1 − 1)incertidumbre.
+ ( s 22 / n 2 ) 2 /(nEsto
2 − 1)
conllevará una
mediante una t de Student con los siguientes grados de libertad
disminución
Puede comprobarsetantoque
en la precisión
d es siempredeinferior los intervalos
o igual de a nconfianza
1 + n2 – 2; como en la
es decir, potencia
esta de t
distribución
de Puede
Studentcomprobarse que d que
será más dispersa es siempre
la empleada inferioren o
el igual
caso a
de n + n
igualdad
1 2 – 2;
de es decir,
varianzas.esta
Esto es lo que
( s12 / n1 + s 22 / n 2 ) 2
los contrastes.
cabría esperar ya que, al destimar
= 2 por 2separado las varianzas, la distribución
. resultante ha de
reflejar mayor tincertidumbre.
distribución de Student será( sEsto
1 más/ n1 conllevará
/(n1 − 1que
)dispersa ) +una s 22disminución
(la / n 2 ) 2 /(n 2en− tanto
empleada 1) casoendelaigualdad
el precisiónde de los
En eldecaso
intervalos de distribuciones
confianza como en lacon distinta
potencia devarianza,
los contrastes.el intervalo de confianza al 100(1 -
varianzas. Esto es lo que cabría esperar ya que, al estimar por separado las varianzas, la
Puede comprobarse
En el caso que d es con
de distribuciones siempredistintainferior o igual
varianza, n1 + n2 –de2;confianza
el aintervalo es decir, esta
al 100(1 – α)%
α)% para la diferencia de medias poblacionales μ1 - μ2 vendrá determinado por
para la diferencia
distribución de medias
resultante ha poblacionales
de reflejar mayor μ2 vendrá determinado
μ1 –incertidumbre. por
Esto conllevará una
distribución t de Student será más dispersa que la empleada en el caso de igualdad de
2 2
disminución tanto en la precisión de los intervaloss1de confianza s2 como en la potencia de
varianzas. Esto es lo que cabríax1esperar − x 2 ± ya
t d ,1−que, +
α / 2 al estimar ,por separado las varianzas, la
n1 n 2
los contrastes.
distribución
donde d son losresultante
grados dehalibertad
de reflejar mayor incertidumbre.
calculados según la fórmula Esto conllevará
anterior. una forma, para
De igual
donde
contrastar
En el dlason los
degrados
hipótesis
caso nulade H0libertad
distribuciones µ2calculados
: µ1 =con frente
distintaa la según laelfórmula
alternativa
varianza, H1: μ1 anterior.
intervalo ≠ de De de
μ2 aconfianza
partir igual
dosforma,
muestras
al 100(1 -
disminución tanto en la precisión de los intervalos
independientes con distinta varianza, se emplea el estadístico de confianza como en la potencia de
para
α contrastar
)%contrastes. la hipótesis
para la diferencia de medias 0: μ1 = μ2 frente
nula Hpoblacionales μ1 a- la
μ2alternativa H1: μ1 ≠ μpor
vendrá determinado 2 a partir de
los x1 − x 2
t= ,
dos muestras independientes con distinta varianza, s12 s 22 2se emplea el estadístico
En el caso de distribuciones con distinta varianza, + s1 els 22intervalo de confianza al 100(1 -
x1 − x 2 ± t d ,1n−α1 / 2 n 2 + ,
n1 n 2
queαbajo
)% para la diferencia
la hipótesis nula,de se medias
distribuyepoblacionales
aproximadamente μ1 - μ2 vendrá
según unadeterminado
t de Student porcon d grados
19
de que bajo Así,
libertad. la hipótesis P viene
el valor nula, se distribuye
dado por laaproximadamente
probabilidad de obtener según una t de más
valores Student con d que
extremos
el valor d son los de
dondeobservado grados
t bajodelalibertad calculados
distribución td. Estesegún la fórmula
contraste anterior.
se conoce con elDe igual forma,
nombre de test de
s12 s 22
grados de libertad. Así, el valor
la t de Student para muestras independientes P viene dado
x1 x 2 t d ,1−α / con
− ± por
2 la probabilidad
+ ,
distinta varianza. de obtener valores más
para contrastar la hipótesis nula H0: μ1 = μ2 frentena1 la nalternativa 2 H1: μ1 ≠ μ2 a partir de
90 extremos R.que el valor observado de t bajo la distribución td. Este contraste se conoce
Pastor-Barriuso
dos
donde muestras
d son losindependientes con distinta
grados de libertad calculadosvarianza,segúnselaemplea
fórmulaelanterior.
estadístico
De igual forma,
con el nombre de test de la t de Student para muestras independientes con distinta
Ejemplo 6.11 En el Ejemplo 6.10 se contrastó que
HDL difiere significativamente entre los casos de infarto y los sujetos libres de la
independientes con distinta varianza. La estimación puntual de la significativamente
HDL difiere diferencia de entre los casos de i
enfermedad. Por ello, la comparación del nivel medio de colesterol
Comparación de medias en HDL entreindependientes
dos muestras
medias es x ca - x co = 0,98 - 1,09 = -0,11 mmol/l, cuyo error estándar
enfermedad. se estima
Por ello, la comparación del nivel med
casos y controles ha de realizarse mediante la prueba t de Student para muestras
directamente
Ejemplo 6.11 porcon
En el Ejemplo 6.10 seLacontrastó casos
quepuntual y controlesdel
la variabilidad ha colesterol
de realizarse
HDL mediante la prue
independientes distinta varianza. estimación de la diferencia de
difiere significativamente entre los casos de infarto y los sujetos libres de la enfermedad.
Por ello, la comparación del nivel2 medio2 de colesterol 2 independientes
HDL2 entre casosconydistinta
controlesvarianza.
ha de La estimación
medias es x ca - x co = 0,98 - 1,09 s ca= -0,11
s co mmol/l,
0,25 cuyo 0,error
29 estándar se estima
realizarse mediante
SE( x ca la
- xprueba
co ) = t de + Student= para muestras
+ independientes
= 0,017. con distinta
varianza. La estimación puntualn cade landiferencia
co 462de medias
539 es x ca − x co == 0,98 –- 1,09
1,09 ==-0,11 mmol/l, c
directamente por
– 0,11 mmol/l, cuyo error estándar se estima directamente por
En el caso de varianzas heterogéneas, los grados de libertad directamente
para lapor
distribución
2 2 2 2
s ca s co 0,25 0,29
SE( x ca − x co ) = + = + = 0,017.
de la diferencia de medias vienen n cadeterminados
n co por la aproximación
462 539 de Welch, a
s ca2 s co2 0,25 2
SE( x ca - x co ) = + =
En el caso de varianzas heterogéneas, los grados de libertad para la distribución de
saber n cala n co 462
En el caso de
diferencia de medias
varianzas heterogéneas,
vienen determinados los grados de libertad para
por la aproximación delaWelch
distribución

( s ca2vienen s co2 / n co ) 2 por la


/ n ca +determinados En el caso de varianzas heterogéneas, los grados de
de la diferencia de medias aproximación de Welch, a
d =
Notar que, en(este
s ca / n ca ) (n ca − 1) + ( s co / n co ) (n co − 1) iguales a los obtenidos
2 ejemplo,
2 los grados 2 de libertad 2 son casi
de la diferencia de medias vienen determinados po
saber
bajo
Notarlaque,
asunción
en de igualdad (0,25 de grados
2
/varianzas
462 + de 0,29 (nca/ +
2 ncoson
539 ) – 2casi
2 = 999). A partir de estos
= este ejemplo, los libertad
saber
iguales= a los,97
998 obtenidos
.
(0,25 2 / 462( s) 22 /(462 n +− s1)2 +/ n(0,29 )
2
2 / 539)
2
(539 − 1)
resultados, co para μca - μco como
d es
= posible calcular deunvarianzas
ca ca IC co al 95%
bajo la asunción de igualdad (nca2 + nco – 2 = 999). A partir de estos
Notar que, en (este
s ca / n ca ) (n ca − 1) + ( s co / nlibertad
2
ejemplo,
2
los grados 2
de co ) son− 1casi
(n co ) iguales a los obtenidos ( s ca2 / bajo
n ca +las co2 / n co ) 2
asunción + ncopara d = de estos resultados es
resultados,deesigualdad
posible de varianzas
x ca - calcular
x co(0±,25
(nca 95%
2un IC alSE
t998,97;0,975 (29
– 2 μ= 999).
x ca2 /-539
x co)ca
A partir
)2 - μco como ( s ca2 / n ca ) 2 (n ca − 1) + ( s co2 / n co ) 2 (n co
posible calcular / 462 + 0 ,
para μca – μco como
= un 2IC al 95% = 998,97.
(0,25 / 462) (462 − 1) + (0,29 2 / 539) 2 (539 − 1)
2
(0,25 20 2 / 462 + 0,29 2 / 539)
x ca − x co ± = -0,11 ± 1,96⋅0,017
t998,97;0,975 SE ( x ca − x co =)(-0,14; -0,08),=
(0,25 2 / 462) 2 (462 − 1) + (0,29 2 / 539
= − 0,11 ± 1,96⋅0,017 = (−0,14; −0,08),
y contrastar la hipótesis nula H0: μca = μco mediante el estadístico
y contrastar la hipótesis nula H0: μca = μco mediante el estadístico
20
y contrastar la hipótesis nula Hx0ca: μ−cax=co μco mediante − 0,11 el estadístico
t= = = −6,44,
SE ( x ca − x co ) 0,017
que bajo la distribuciónt t=998,97 xocanormal − x co estandarizada,
=
- 0,11 corresponde a un valor P menor
= -6,44,
que bajo
0,001. Así, se pone de SE ( x
manifiesto − x que) los
la distribución t998,97 o normal estandarizada, corresponde
ca co 0,017
casos de infarto presentan un nivel
a un valor P medio
de colesterol HDL significativamente inferior que los sujetos libres de la enfermedad
(P
que<bajo
menor 0,001),
que con una
la 0,001. Así,diferencia
distribución set poneode estimada
manifiesto
normal en 0,11que los
estandarizada, mmol/l
casos (IC
de al 95%
infarto
corresponde 0,08-0,14
presentan
a un valor Pun mmol/l).
998,97
En este caso, los resultados obtenidos asumiendo homogeneidad o heterogeneidad de
varianzas
nivel queson
menormedio devirtualmente
0,001.colesterol
Así, se poneHDL idénticos debido, que
significativamente
de manifiesto en parte, a que
inferior
los casos de ambos
que tamaños
los sujetos
infarto muestrales
libres
presentan un
no difieren sustancialmente.
de la enfermedad
nivel (P < 0,001),
medio de colesterol HDLcon una diferencia estimada
significativamente inferior queen 0,11 mmol/llibres
los sujetos (IC al
En resumen, la comparación de medias en muestras independientes requiere contrastar en
primer95% la 0,08−0,14
delugarenfermedad mmol/l).
la igualdad (Pde En este
< 0,001), concaso,
varianzas, una los
para resultados
diferencia
después obtenidos
estimada
utilizar asumiendo
en 0,11
según mmol/l
proceda (IC de
el test al la t de
Student con igual o distinta varianza. Esta distinción no es meramente académica: si la
homogeneidad
variabilidad
95% 0,08−0,14 ommol/l).
heterogeneidad
difiere entre ambas este de varianzas
Enpoblaciones,
caso, loslos son virtualmente
obtenidosdeidénticos
procedimientos
resultados debido,
estimación
asumiendo y contraste
asumiendo igualdad de varianzas pueden ser muy engañosos, particularmente en muestras
en parte, a que ambos
cuyostamaños
tamañosmuestrales
nde no difieren
n2 difieran sustancialmente.
pequeñas o moderadas
homogeneidad o heterogeneidad 1 yvarianzas sustancialmente.
son virtualmente idénticos debido,

en parte, a que ambos tamaños muestrales no difieren sustancialmente.


En resumen, la comparación de medias en muestras independientes requiere

contrastar en primer
En resumen, lugar la igualdad
la comparación de varianzas,
de medias paraindependientes
en muestras después utilizar según proceda
requiere
el test de laent de
contrastar Student
primer con
lugar la igual o distinta
igualdad varianza.
de varianzas, Esta
para distinción
después no es
utilizar meramente
según proceda
Pastor-Barriuso R. 91

académica:
el test de la si la Student
t de variabilidad difiere
con igual entre ambas
o distinta poblaciones,
varianza. los procedimientos
Esta distinción de
no es meramente
Inferencia sobre medias

6.4  COMPARACIÓN DE MEDIAS EN DOS MUESTRAS DEPENDIENTES

Los datos dependientes surgen cuando las observaciones recogidas en el estudio están
correlacionadas entre sí. A continuación se presentan algunos mecanismos y diseños
epidemiológicos que generan datos dependientes:
yy La obtención de dos o más determinaciones de la misma variable en un mismo sujeto da
lugar a datos dependientes, que pueden presentarse como:
ƒƒ Diferentes medidas de la misma variable en un momento determinado, habitualmente
para aumentar la fiabilidad del instrumento de medida.
ƒƒ Determinaciones de la misma variable en diferentes localizaciones anatómicas.
ƒƒ Medidas repetidas en el mismo sujeto a lo largo del tiempo, bien sea en comparaciones
antes y después de un tratamiento, en ensayos clínicos cruzados o en estudios de medidas
repetidas con visitas sucesivas.
yy La selección de los participantes en un estudio emparejándolos por determinadas
características pronósticas genera datos dependientes entre los sujetos emparejados. El
ejemplo más habitual es el emparejamiento en el diseño de los estudios de casos y controles.
yy Los datos de estudios procedentes de sujetos de una misma familia o de animales
pertenecientes a la misma camada suelen ser también dependientes.
En todos estos casos, la correlación se limita a los grupos específicos donde se genera la
dependencia, que suelen ser habitualmente parejas. Así, en un estudio de casos y controles
emparejados, los datos de cada pareja son dependientes, pero los datos de las distintas parejas
son independientes entre sí. Igualmente, en un estudio de medidas repetidas, los datos de un
mismo individuo son dependientes, mientras que los resultados en diferentes individuos son
independientes entre sí.
Las muestras dependientes están constituidas por observaciones en los mismos sujetos o en
distintos sujetos emparejados según ciertas características pronósticas de interés. De esta forma,
la distribución de dichas características será similar en ambas muestras, eliminando así la
posibilidad de que estos factores influyan en la comparación objeto de estudio. En general, el
emparejamiento es una técnica frecuentemente utilizada en el diseño de estudios clínicos o
epidemiológicos con el propósito de controlar por determinados factores de confusión (ver
textos de método epidemiológico referenciados al final del tema). Estos diseños requieren de
técnicas específicas de análisis que preserven el emparejamiento. En este apartado se revisan
los métodos estadísticos para el tratamiento de un caso específico de dependencia, en el que se
dispone de dos determinaciones de una variable continua para cada pareja de datos dependientes.

Ejemplo 6.12 Supongamos que en el estudio EURAMIC se seleccionan


aleatoriamente 50 casos de infarto de miocardio. Como la edad es un importante factor
pronóstico de enfermedades coronarias, cada uno de estos casos se emparejó por grupos
quinquenales de edad a un control libre de la enfermedad. Así, por ejemplo, para un caso
de 62 años de edad se seleccionó aleatoriamente un control entre todos los controles
disponibles con edades comprendidas entre 60 y 64 años. La muestra resultante de aplicar
este procedimiento constituiría un estudio de casos y controles emparejados. En este
estudio, cabría esperar un cierto grado de correlación en la información recogida para
cada pareja, dado que tanto el caso como el control se encuentran en el mismo rango de
edad. En la Tabla 6.1 se presentan los niveles de colesterol HDL en las 50 parejas de casos
y controles.

92 Pastor-Barriuso R.
Comparación de medias en dos muestras dependientes

Tabla 6.1  Colesterol HDL en 50 casos y controles del estudio EURAMIC emparejados
según grupos quinquenales de edad.
Colesterol HDL (mmol/l) Colesterol HDL (mmol/l)
Pareja Caso Control d* Pareja Caso Control d*
1 0,81 0,63 0,18 26 0,96 1,29 – 0,33
2 0,91 0,91 0,00 27 1,33 0,72 0,61
3 0,98 0,76 0,22 28 0,93 1,04 – 0,11
4 0,91 1,19 – 0,28 29 0,32 1,54 – 1,22
5 0,55 0,99 – 0,44 30 0,86 1,08 – 0,22
6 0,62 1,14 – 0,52 31 0,93 1,12 – 0,19
7 0,79 0,73 0,06 32 1,40 1,75 – 0,35
8 0,89 1,08 – 0,19 33 1,50 1,29 0,21
9 1,24 0,87 0,37 34 0,92 1,17 – 0,25
10 1,76 1,04 0,72 35 0,88 0,93 – 0,05
11 1,35 1,03 0,32 36 0,82 0,88 – 0,06
12 0,72 1,09 – 0,37 37 1,52 0,74 0,78
13 0,94 1,12 – 0,18 38 1,68 1,45 0,23
14 1,01 1,20 – 0,19 39 0,81 1,02 – 0,21
15 0,98 1,62 – 0,64 40 0,60 1,15 – 0,55
16 0,92 1,25 – 0,33 41 1,16 1,49 – 0,33
17 0,68 1,31 – 0,63 42 0,75 0,98 – 0,23
18 1,48 1,00 0,48 43 0,96 1,31 – 0,35
etar el problema, supongamos
19 que
1,23se dispone de
0,78 n pares de
0,45 observaciones
44 1,46 1,15 0,31
20 0,83 0,95 – 0,12 45 0,76 1,51 – 0,75
e aleatoria continua. 21
En cada pareja
0,92
de datos1,13
dependientes,
– 0,21
una 46 0,76 1,01 – 0,25
22 0,82 0,97 – 0,15 47 1,12 1,26 – 0,14
corresponde a la primera muestra y la otra observación x2 a la segunda
23 1,21 0,74 0,47 48 1,01 0,91 0,10
24 0,78 0,88 – 0,10 49 0,99 1,63 – 0,64
jetivo se centra en comparar las medias poblacionales μ1 y μ2 a partir de
25 0,88 1,14 – 0,26 50 0,75 1,45 – 0,70
*  Diferencia de colesterol HDL entre caso y control.
stras dependientes.

imientos desarrollados en el Apartado 6.3 no pueden aplicarse a esta


Para concretar el problema supongamos que se dispone de n pares de observaciones de una
ue las medias de ambasaleatoria
variable muestrascontinua. En cada pareja de
no son independientes pordatos dependientes,
provenir de una observación x1 corresponde
a la primera muestra y la otra observación x2 a la segunda muestra. El objetivo se centra en
comparar
correlacionadas. las medias
Sin embargo, poblacionales
la comparación μ1 y μ2 a partir
se simplifica de estas dos muestras dependientes.
notablemente
Los procedimientos desarrollados en el Apartado 6.3 no pueden aplicarse a esta situación, ya
las diferencias dque
= x1las
- x2medias
en cadadeuna n observaciones
de lasmuestras
ambas no son emparejadas.
independientes por provenir de observaciones
correlacionadas. Sin embargo, la comparación se simplifica notablemente si se calculan las
omo las distintas parejas nodestán
diferencias = x1 –relacionadas entre
x2 en cada una desí,lasestas diferencias emparejadas. Por un lado, como las
n observaciones
distintas parejas no están relacionadas entre sí, estas diferencias son independientes. Por otro
lado, la
entes. Por otro lado, la media
media de
de las diferencias d coincide
las diferencias coincide con con la
la diferencia de medias muestrales,

medias muestrales,

1 n 1 n
d=  n
n i =1
d i =
i =1
( x i1 − x i 2 )
Pastor-Barriuso R. 93

1 n
1 n
= 
n i =1
x i1 −  xi 2 = x1 − x 2
n i =1
n i =1 n i =1

son independientes.
6.3 no puedenPor a 1esta
otro lado, la media1den las diferencias d coincide con la
n
rrollados en el Apartado aplicarse
Inferencia sobre medias
= 
n i =1
x i1 −  xi 2 = x1 − x 2
n i =1
de ambas muestras diferencia de medias muestrales,
no son independientes por provenir de
donde sd es la desviación típica de las diferencias observadas. De igual forma, la
das. Sin embargo, y, la en consecuencia,
comparación d es un estimador
se simplifica notablemente insesgado de la diferencia de medias
1 n 1 n
=  d i = H: (μx i1=−μx i 2puede
hipótesis de igualdad de mediasdpoblacionales ) contrastarse frente a la
s d = x - x en cada una de las n μobservaciones
poblacionales n i =1 de la
1 - μ2. Así, el problema
emparejadas. n comparación
0
i =1
1 2
de medias en dos muestras
1 2

1 n el estadístico
hipótesis alternativa H1: μ1 ≠ μ2 mediante 1 n
dependientes
tas parejas no están relacionadasqueda
entrereducido a=una simple
sí, estas diferencias  xi 2 = sobre
x i1 − inferencia x1 − xla
2 media de una única
n i =1 n i =1
o lado, la mediay,deen muestra
las de n diferencias
diferencias
consecuencia, d escoincide independientes.
un estimador con la insesgado d de la diferencia de medias poblacionales μ1 – μ2.
t= .
Así,y,elenproblema
consecuencia, de la comparación
d es un estimador de medias s d en dosde
insesgado muestras dependientes
la diferencia de medias queda reducido a
rales, una simple Los métodos
inferencia delsobre
Apartado la media 6.2.1de paraunalaúnica media
n muestrade unade muestra pueden independientes.
n diferencias entonces
poblacionales
Los métodos μ1 -Apartado
μ2. Así, el6.2.1 problema demedia
la comparación de medias en dos muestras
utilizarse paradel calcular un intervalo parade la confianza deal una
100(1 muestra
- α)% para pueden μ entonces
1 - μ2 como
utilizarse
1 n
1Bajo la hipótesis
para calcular
n nula, las de
un intervalo diferencias
confianzaobservadas al 100(1 – se α)% distribuirían
para μ – μaleatoriamente
2 como
d =  di =  ( x i1 − x i 2 ) queda reducido a una simple inferencia sobre1 la media
dependientes de una única
n i =1 n i =donde
alrededor sdel d esvalor
la desviación típica de quelas diferenciassobservadas. Dedistribución
igual forma,t de la
1
0, de tal forma deste
± testadístico
d seguiría una
,
nmuestra de n diferencias independientes.
n −1,1−α / 2
1 n
1 n
=  x i1 − Student  xi 2 con
hipótesis = x1de n x12 grados de
−- igualdad de medias
liberad. poblacionales
El valor P H0: μ1 = μ2 puede
corresponderá, contrastarse
por tanto, a la frente a la
n i =1 n i =1
donde sd esmétodos
Los la desviación típica de
del Apartado las para
6.2.1 diferencias
la media observadas.
de una muestra De igual puedenforma, la hipótesis de
entonces
igualdad
hipótesis
probabilidad de medias
alternativa H1: μ1 ≠ μt2H
bajo lapoblacionales
distribución µ1 =valores
0:para
mediante
n-1
µ2 el puede contrastarse
estadístico
más extremos que frenteel avalor
la hipótesis
observado alternativa
n estimador insesgado H : µ ≠
1 utilizarse µ mediante
para calcular
1 de 2la diferencia el estadístico
un intervalo de confianza al 100(1 - α)% para μ1 - μ2 como
de medias
de t. Esta prueba se denomina habitualmente como el test de la t de Student para 24
d
el problema de la comparación de medias en dos muestrast = .s d
muestras dependientes. d ± t s d
n −1,1−α / 2 ,
n n
o a una simple inferencia sobre la media de una única
Bajo la hipótesis nula, las diferencias observadas se distribuirían aleatoriamente alrededor del
dependientes. valor Bajo Ejemplo
0, la
dehipótesis 6.13 nula,
tal forma Para
que estepreservar
las diferencias
estadístico el emparejamiento
observadas
seguiría unase entre los casos
distribuirían
distribución t de yStudent
controles
aleatoriamenteconden –la1 grados
ar el problema,de libertad. Elque
supongamos valor se P corresponderá,
dispone de n parespor detanto, a la probabilidad bajo la distribución tn–1 para
observaciones
do 6.2.1 para la valores
media demás Tabla
alrededor 6.1,
del
unaextremos se calcula
valor 0,
muestra pueden de latal diferencia
que el entonces valor observado de t. HDL
forma que de colesterol
este estadístico d = xca una
Estaseguiría
prueba -sexcodenomina
en cada pareja.
distribución t de 24
habitualmente
aleatoria continua. comoEn test de
el cada la t de
pareja de Student
datos dependientes,para muestras una dependientes.
Student Como conpuede
n
ntervalo de confianza al 100(1 - α)% para μ1 - μ2 como - 1apreciarse,
grados de predominan
liberad. El las
valor parejas donde el caso
P corresponderá, porpresenta
tanto, a laun nivel
corresponde a la primera Ejemplo muestra6.13 y laPara otrapreservar
observación el emparejamiento
x2 a la segundaentre los casos y controles de la Tabla 6.1,
inferior debajo
probabilidad colesterol HDL quetn-1
la distribución supara
correspondiente
valores control (diferencias negativas).
se
sd calcula la diferencia de colesterol HDL d = xca –más extremos
xco en que el
cada pareja. valor
Como observado
puede apreciarse,
d ±
etivo se centrat n −1en
,1−α comparar ,
/ 2 predominan las parejas
las medias donde el caso
poblacionales μ1 y μ presenta
2 a partir undenivel inferior de colesterol HDL que su
de tDe hecho,
nEsta
.correspondiente
prueba la media
secontrolde estashabitualmente
denomina diferencias
(diferencias negativas). De como el hecho, t de Student
test delalamedia de estas para
diferencias
tras dependientes.
muestras dependientes. 1 50 0,18 + 0,00 + ... − 0,70
mientos desarrollados en el Apartado 6.3 no50
d= 
pueden i =1
di =
aplicarse a esta 50
= −0,12

Ejemplo 6.13 Para 24


ue las medias de ambas es muestras
una estimación
no sonde lapreservar
diferencia
independientes
el en
emparejamiento
porelprovenir
nivel medio entre los casos y controles de la
de de colesterol HDL entre los casos de
es una estimación
infarto y los sujetos2delibres la1diferencia en el nivelLa
de la enfermedad.
50 medio
varianzade colesterol HDL entre
de las diferencias losdada por
viene
Tabla 6.1, se calcula s d = la (d i − d ) 2de colesterol HDL d = xca - xco en cada pareja.
diferencia
correlacionadas. Sin embargo, la comparación 49 ise =1 simplifica notablemente
casos de infarto y los 1 50 libres de2 la enfermedad. La varianza de las
sujetos
Como puede apreciarse,
2
sd =
(n49  (d i − d2 ) las parejas donde2 el caso presenta un nivel
predominan
i =1+ 0,12) + ...
0observaciones
,18 + (−0,70 + 0,12)
as diferencias d = x1 - x2 en cada una de las = emparejadas. = 0,16,
diferencias viene dada por 49
inferior de colesterol (0HDL
,18 + 0que ,12)su +correspondiente
2
... + (−0,70 + 0,12 control
) 2
(diferencias negativas).
mo las distintas parejas no están relacionadas = entre sí, estas diferencias = 0,16,
49
luegoDe el hecho,
error la media de estas
estándar d es diferencias
ntes. Por otro lado, laluego mediaelde error
las estándar
diferencias de d es coincide con la
luego el error estándar de d es
medias muestrales, 1 50 s0d,18 +0,040 ,00 + ... − 0,70
d = SE (dd)i == = = 0,057 . = −0,12
50 i =1 n 50 50
sd 0,40
1 n 1 n SE (d ) = = = 0,057 . 25
d =  d i =  ( x i1 − x i 2 ) n 50
n i =Así,
94 Pastor-Barriuso1
es una estimación de la diferencia en el nivel
nICi =1al 95% para la diferencia de medias poblacionales μca - μco se obtiene
elR. medio de colesterol HDL entre los

1 ncomo
Así, el 1ICde
casos n
alinfarto
95% paray loslasujetos
diferencia dede
libres medias poblacionales
la enfermedad. μca - μco de
La varianza se las
obtiene
= 
n i =1
x i1 − 
n i =1
xi 2 = x1 − x 2
SE (d ) =
= = 0,057 .
n 50
Así, el IC al 95% para la diferencia de medias poblacionales μca - μco se obtiene
Referencias
Así, el IC al 95% para la diferencia de medias poblacionales μca - μco se obtiene
como

como
Así, el IC al 95% para
d ± la
t diferencia ) medias poblacionales μca – μco se obtiene como
SE( d de
49;0,975

d ± t49;0,975 SE( d±) 2,01⋅0,057 = (-0,23; -0,01),


= -0,12
= −0,12 ± 2,01⋅0,057 = (− 0,23; − 0,01),
y la hipótesis nula H0: μca = μco se contrasta mediante el test estadístico
y la hipótesis nula H0: μca = μco se contrasta mediante el test estadístico
y la hipótesis nula H0: μca = μco se contrasta mediante el test estadístico
d − 0,12
t= = = − 2,13,
SE (d ) 0,057
d − 0,12
t= = = -2,13,
cuyo valor P asociado en la distribución
SE (d ) t049,057es P = 2P(t49 ≤ – 2,13) = 2∙0,019 = 0,038. De
este valor Pdeasociado
cuyoestudio casos y en la distribución
controles emparejadost49 espuede
P = 2P(t 49 ≤ -2,13)
entonces = 2⋅0,019
concluirse que =la media del
colesterol HDL en los casos de infarto es inferior en 0,12 mmol/l al nivel medio de
cuyo
0,038.
los  valor P asociado
controles (IC al 95% en la0,01-0,23
distribución t49 es Psiendo
mmol/l), = 2P(t49 ≤ -2,13)
esta = 2⋅0,019
diferencia =
estadísticamente
significativa (P = 0,038). Esta conclusión es consistente con la obtenida en el Ejemplo
0,038.
De
6.11 este
paraestudio de casos
las muestras y controles
completas emparejados, de
e independientes puede
casosentonces concluirse
y controles. que cabe
No obstante,
destacar las siguientes particularidades. Por un lado, esta estimación está sujeta a mayor
laDemedia
este estudio
variabilidad de casos
del aleatoria
colesterol y controles
yaHDL
que en los
tan emparejados,
sólocasos de50
utiliza infarto puede
es de
parejas entonces
inferior
casos en concluirse
0,12 Porque
mmol/l
y controles. al
otro lado,
el diseño emparejado permite comparar casos con controles de similar edad y, en
la media
nivel mediodeldecolesterol HDL(IC
losestimación
controles en los casos0,01−0,23
de infartommol/l),
es inferior en 0,12
estammol/l al
consecuencia, la seráal menos
95% propensa a posibles siendo
sesgos diferencia
derivados de la
diferencia de edad entre casos y controles.
nivel medio de los
estadísticamente controles (IC
significativa (P =al0,038).
95% 0,01−0,23 mmol/l),essiendo
Esta conclusión esta diferencia
consistente con la
Los procedimientos presentados en este apartado se limitan a la comparación de una variable
estadísticamente
obtenida significativa (P las
= 0,038). Esta conclusión es consistente con
de la de dos
continua a partirendeeldos
Ejemplo 6.11emparejadas
muestras para muestras
sujeto acompletas
sujeto. Eleanálisis
independientes
de la varianza
vías permite extender esta comparación a casos más generales de dependencia, tales como el
obtenida en el Ejemplo 6.11 para lasdestacar
muestraslascompletas e independientes dePor
diseñocasos y controles.
de parejas con másNo deobstante,
un sujetocabe
por muestra (por siguientes
ejemplo, unparticularidades.
estudio de casos y controles
donde cada caso se empareja con 2 controles) o la comparación de tres o más muestras
casos
un y controles.
lado, estaejemplo, No obstante,
estimación cabe destacar las siguientes particularidades. Por
dependientes (por un está sujeta
ensayo a mayor
clínico donde variabilidad aleatoria
cada paciente recibeya que tantratamientos
diversos solo
alternativos). Los métodos de análisis de la varianza de dos vías pueden consultarse en los
un lado,
50esta estimación está sujeta a mayor variabilidad aleatoria ya que tan solo
textosutiliza
estadísticosparejas de acasos
citados y controles.
continuación. Por otro lado, el diseño emparejado

utiliza 50 parejas de casos y controles. Por otro lado, el diseño emparejado


6.5 REFERENCIAS 26

1. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, 26


Fourth
Edition. Oxford: Blackwell Science, 2001.
2. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
Englewood Cliffs, NJ: Prentice Hall, 1977.
3. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of
Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980.
4. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole,
2001.
5. Colton T. Estadística en Medicina. Barcelona: Salvat, 1979.
6. Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley &
Sons, 1986.

Pastor-Barriuso R. 95
Inferencia sobre medias

7. Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic Research: Principles and


Quantitative Methods. New York: John Wiley & Sons, 1982.
8. Kleinbaum DG, Kupper LL, Muller KE, Nizam A. Applied Regression Analysis and Other
Multivariable Methods, Third Edition. Belmont, CA: Duxbury Press, 1998.
9. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press,
1999.
10. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia:
Lippincott Williams & Wilkins, 2008.
11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State
University Press, 1989.
12. Stuart A, Ord JK, Arnold S. Kendall’s Advanced Theory of Statistics, Volume 2A, Classical
Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.

96 Pastor-Barriuso R.
7.1 INTRODUCCIÓN

En el análisis de datos epidemiológicos es frecuente el estudio de variables dicotómicas,

que reflejan la presencia o ausencia deTEMA 7 característica en los miembros


una determinada

de una población. El interés radica fundamentalmente en estimar la proporción  de


INFERENCIA SOBRE PROPORCIONES
individuos o elementos de la población que presentan dicha característica.

Esta proporción poblacional  es un parámetro desconocido que se estima mediante


7.1  INTRODUCCIÓN
la proporción muestral p = k/n, donde k es el número observado de individuos que
En el análisis de datos epidemiológicos es frecuente el estudio de variables dicotómicas, que
reflejan la presencia
presentan o ausencia
la característica de unaendeterminada
de interés una muestra característica en losn.miembros
aleatoria de tamaño La de una
población. El interés radica fundamentalmente en estimar la proporción π de individuos o
elementos de lamuestral
distribución poblacióndeque
unapresentan
proporcióndicha característica.
ya se discutió en el Apartado 4.3.4.
Esta proporción
partir de muestraspoblacional
dependientes π eesindependientes.
un parámetro Para desconocido que sedeestima
cada problema mediante la
inferencia
Brevemente,
proporción
de muestras dependientes recordamos
emuestral p = k/n,que
independientes. una
donde
Para cadakproporción
esproblema
el númeromuestral p tiende
de observado
inferencia de aindividuos
distribuirse quedepresentan
forma la
sobre proporciones se presentará un estimador puntual del parámetro
característica de interés en una muestra aleatoria de tamaño n. La distribución muestral de una poblacional objeto
normal con
proporciones seproporción
presentará unmedia
ya se  y varianza
discutió
estimador (1parámetro
en el Apartado
puntual del - )/n,
4.3.4. poblacional
Brevemente,objeto recordamos que una proporción
de estudio, un intervalo de confianza y una prueba de significación.
muestral p tiende a distribuirse de forma normal con media π y varianza π(1 – π)/n,
partir de muestras dependientes e independientes. Para cada problema de inferencia
udio, un intervalo de confianza y una prueba de significación.
p ~ N   ,  (1   )  ,
sobre proporciones se presentará un 
estimador puntual  del parámetro poblacional objeto
7.2 INFERENCIA SOBRE UNA PROPORCIÓN  n POBLACIONAL

NFERENCIA SOBRE cuando UNA
el tamaño
de estudio, PROPORCIÓN
un muestral
intervalo de es POBLACIONAL
suficientemente
confianza y una pruebagrande y la proporción poblacional no es
de significación.
Con frecuencia
cuando
excesivamente el tamaño se muestral
extrema,desea conocer
de tal la
queproporción
es suficientemente
forma lade
se cumplagrande individuos nπ(1que
y la proporción
condición – π)poseen unaaproximación
≥poblacional
5. Esta cierta
no es
se utilizará
recuencia se desea conocerrepetidamente
la proporción alo delargo de esteque
individuos tema de inferencia
poseen una cierta sobre datos de carácter binario o
característica
7.2 INFERENCIA
dicotómico.
excesivamente enextrema,
la población.
SOBRE Como
de talUNA
forma ya
queseseapuntó
PROPORCIÓN cumpla enlaPOBLACIONAL
elcondición
Apartado n5.2, (1 la- proporción
)  5. Esta
erística en la población.
Al igualComoque ya en se
el apuntó
tema deeninferencia
el Apartado 5.2,medias,
sobre la proporción
este capítulo aborda la estimación de
muestral p es un
aproximación se buen estimador
utilizará puntual adelolalargo
repetidamente proporción
de poblacional,
estaproporciones
tema que
de inferencia p es el
ya quesobre
unaCon proporción
frecuencia poblacional, así como
se desea conocer la comparación
la proporción de
 de individuos poseena partir
una de muestras
cierta
ral p es un buendependientes
estimador puntual de la proporción
e independientes. Parapoblacional,
cada problema ya quede p es el
inferencia sobre proporciones se
estimador
datos
presentará deun insesgado
carácter ypuntual
binario
estimador consistente
o dicotómico.
del de  con menor
parámetro error estándar.
poblacional objeto de estudio, un intervalo de
característica en la población. Como ya se apuntó en el Apartado 5.2, la proporción
ador insesgado confianza
y consistentey una  con menor
de prueba error estándar.
de significación.
Al igual quelaen
Utilizando el tema de inferencia
aproximación normal a la sobre medias, este
distribución capítulo
muestral de p,aborda
se tienela la
muestral p es un buen estimador puntual de la proporción poblacional, ya que p es el
lizando la aproximación normal a la distribución
7.2 estimación
INFERENCIA SOBRE UNA muestral de p, se tiene
PROPORCIÓN la
de una proporción
siguiente relación poblacional, así comoPOBLACIONAL
la comparación de proporciones a
estimador insesgado y consistente de  con menor error estándar.
nte relación Con frecuencia se desea conocer la proporción π de individuos que poseen una cierta característica
en la población. Como ya se apuntó en el Apartado 5.2, la proporción muestral p es un buen
Utilizando la aproximación  normal apladistribución
 ya que p esmuestral
 de p, se tiene la
estimador puntual de la proporciónP  z1 / 2poblacional,
  z1 / elestimador insesgado y consistente
2 1 , 1
de π con menor error  
p estándar.   (1   ) / n 

Psiguiente
z relación
  z1 / 2   1   ,
 1 / 2 
 (1   ) / n normala la distribución muestral de p, se tiene la siguiente relación
Utilizando
 la aproximación
 1 - /2 de la distribución
donde z1-/2 es el percentil p  normal  estandarizada. El método
P   z1 / 2   z 
 /2 1 ,
z1-/2 es el percentil 1 - /2 de la distribución
 normal estandarizada. El1método

más sencillo para obtener  (1   ) / n
 un intervalo de confianza consiste  en sustituir el error
encillo para obtener
dondeunz1–α/2
intervalo
es el de confianza
percentil 1 –consiste
α/2 de la en distribución
sustituir el error
normal estandarizada. El método más
estándar
sencillo
dondepara de p por
z1-/2obtener su estimación
un intervalo
es el percentil 1 - de p (1  p
/2 confianza ) / n y despejar
consistenormal
de la distribución la estandarizada.
proporción
en sustituir el error poblacional
estándar de p por su
El método
dar de p por su estimación
estimación p (1  p ) / n yy despejar
despejar la la proporción
proporción poblacional
poblacional
más sencillo para obtener un intervalo de confianza consiste en sustituir el error
 p(1  p) p (1  p) 
P p  z1 / 2    p  z1 / 2  1 .

 p (1  p
p )  n
p (
p1  p )
p  n n 
P p  z1estándar
/2
de por
  su
 estimación
p  z 1 / 2
(1  )


/
 1 y
 despejar
. la proporción poblacional
 n n 
Así, el intervalode confianza al 100(1 - )% para la proporción poblacional Pastor-Barriuso
viene R. 97
p(1  p) p (1  p) 
  poblacional 
l intervalo de confianza al 100(1P- p)%  zpara
1 / 2la proporción
n
 p  z1 / 2 viene
n  1 .
dado por  
 zn  , n 
 0 (1   0 )
n
Así, el intervalo de confianza al 100(1 - )% para la proporción poblacional  viene
Inferencia sobre proporciones

cuya distribución
dado por será aproximadamente N(0, 1) si la hipótesis nula H0:  = 0 es cierta.
Así, el intervalo de confianza al 100(1 – α)% para la proporción poblacional π viene dado por
El valor P del test corresponde entonces a la probabilidad bajo la distribución normal
p(1  p )
p  z1 / 2 .
estandarizada para valores más alejados de 0 que el nvalor observado de z.
Para realizar el contraste de la hipótesis nula H0: π = π0 frente a la alternativa bilateral H1: π ≠ π0,
puedeEjemplo
emplearse
Para el A
realizar
7.1 estadístico
el contraste
partir de controles
de los la hipótesisdelnula H0: 
estudio = 0 frente se
EURAMIC, a la alternativa
pretende estimar
p 0
bilateral H1:    z el estadístico ,
la proporción de0, individuos
puede emplearse
en la población
 0 (1 de
 0referencia
) de dicho estudio que
n
presentan niveles de colesterol HDL inferiores o iguales a 0,90 mmol/l (niveles 2
cuya distribución será aproximadamente N(0, 1) si la hipótesis nula H0: π = π0 es cierta. El
P
bajos
cuya
valor según el “National
distribución
del test Cholesterol
será aproximadamente
corresponde entonces Education
a la probabilidad Program”).
N(0, 1) si bajo
la hipótesis nula
la distribución  =de
En kH=0normal
:158 0estandarizada
los n=
es cierta.
para valores más alejados de 0 que el valor observado de z.
539 controles
El valor P del testsecorresponde
observaron entonces
valores inferiores o igualesbajo
a la probabilidad a este
la umbral,
distribución normal
Ejemplo 7.1  A partir de los controles del estudio EURAMIC, se pretende estimar la
obteniéndose
estandarizada deuna
proporción para proporción
valores
individuos más muestral
enalejados de 0 que
la población el valor observado
de referencia de dichode z.
estudio que presentan
niveles de colesterol HDL inferiores o iguales a 0,90 mmol/l (niveles bajos según el
“National Cholesterol Education p = k/nProgram”).
= 158/539 =En k = 158 de los n = 539 controles se
0,293.
Ejemplo 7.1 A partir de los controles del
observaron valores inferiores o iguales a este umbral, estudio EURAMIC, se pretende
obteniéndose una estimar
proporción
muestral
Dado que np(1 - p)
la proporción de =individuos
111,7  5,enpuede emplearse
la población de la aproximación
referencia normal
de dicho paraque
estudio
p = k/n = 158/539 = 0,293.
presentan
calcular
Dado que ICniveles
unnp(1 p) =depara
al– 95% colesterol
111,7 HDL inferiores
la≥proporción
5, puede olaiguales
poblacional
emplearse  como a 0,90 mmol/l
aproximación normal(niveles
para calcular
un IC al 95% para la proporción poblacional π como
bajos según el “National Cholesterol Education Program”). En k = 158 de los n =
0,293(1  0,293)
0,293  z 0,975
539 controles se observaron valores539 inferiores o iguales a este umbral,
= 0,293  1,960,020 = (0,255; 0,332);
obteniéndose una proporción muestral
es decir, la proporción poblacional de sujetos con niveles bajos de colesterol HDL está
comprendida entre el 25,5 y el 33,2% p = k/ncon=una confianza
158/539 del 95%. Asimismo, para determinar
es decir, la proporción poblacional de sujetos con=niveles
0,293. bajos de colesterol HDL
si los datos muestrales son compatibles con una proporción subyacente del 30%, se
contrastó la hipótesis H0: π = 0,30 versus H1: π ≠ 0,30 mediante el estadístico
estáDado
comprendida
que np(1 entre
- p) =el111,7
25,5 y 5, el puede
33,2% emplearse
con una confianza del 95%.normal
la aproximación Asimismo,
para
p 0 0,293  0,30
z=  =  0,35,
para determinar
calcular un ICsiallos
95%datos muestrales
para
0 (1 
son
laproporción
0)
compatibles
0,30 (1  0,30) con
poblacional una proporción
 como
n 539
subyacente del 30%, se contrastó la hipótesis H0:  = 0,30 versus H1:   0,30
que corresponde a un valor P = 2P(Z ≤ –0,35)
0,293 = 2{1
(1  0,293 ) – Φ(0,35)} = 0,726 en las tablas de
la distribución normal0, 293  z
estandarizada
P = 2P(Z (Tabla
que corresponde a un valor 5393 del
 -0,35) Apéndice).
= 2{1 - (0,35)}Por= tanto,
0,726 puede
en las concluirse
0 , 975
mediante el estadístico
que la prevalencia poblacional de niveles bajos de colesterol HDL no es significativamente
distintadedel
tablas la 30%.
distribución normal=estandarizada (Tabla=3(0,255;
del Apéndice).
0,293  1,960,020 0,332); Por tanto,
Lospuede concluirse que
procedimientos de la prevalencia
inferencia poblacional
presentados en de niveles
este bajosasumen
apartado de colesterol
que el tamaño
es decir, la proporción poblacional de sujetos con niveles bajos
muestral es suficientemente grande para aplicar la aproximación normal; es decir,de colesterol HDL
3 ha de
HDLelnorequerimiento
cumplirse es significativamente
mínimo de distinta del 30%.
que nπ(1 – π) ≥ 5. No obstante, en el Apéndice de este
tema (Apartado 7.8) se facilitan correcciones de con
está comprendida entre el 25,5 y el 33,2% unamétodos
estos confianza
quedelpermiten
95%. Asimismo,
aumentar la
cobertura de los intervalos de confianza y reducir la probabilidad de un error de tipo I en los
para
contrastes, determinardesiinferencia
Los procedimientos
particularmente los datoselmuestrales
cuando presentados son
en compatibles
tamaño muestral este
es apartado
moderado con
o una
asumen proporción
que el
pequeño. tamaño
Esta corrección

muestral subyacente
es suficientemente
del 30%,grande para aplicar
se contrastó H0:  = 0,30
la aproximación
la hipótesis normal; 1:   ha
versusesHdecir, de
0,30
98 Pastor-Barriuso R.

cumplirsemediante mínimo de que n(1 - )  5. No obstante, en el Apéndice de


el estadístico
el requerimiento
Comparación de proporciones en dos muestras independientes

de la aproximación normal se conoce como corrección por continuidad y es aplicable a la


mayoría de los procedimientos estadísticos descritos en este tema. En adelante, se tratarán los
métodos de inferencia sin corrección por continuidad. Las correspondientes versiones con
corrección se presentan en el Apéndice al final del tema.

7.3 COMPARACIÓN DE PROPORCIONES EN DOS MUESTRAS INDEPENDIENTES

Supongamos ahora que el interés radica en comparar la proporción de sujetos con una
determinada característica en dos muestras independientes. Este planteamiento general es
aplicable a las comparaciones realizadas en cualquiera de los siguientes diseños de un estudio:
yy Un estudio prospectivo es aquel en el que n1 individuos expuestos a una intervención
(ensayo clínico) o a un potencial factor de riesgo (estudio de cohortes) y n2 individuos no
expuestos son seguidos a lo largo de un periodo de tiempo para determinar cuántos
desarrollan la enfermedad. Los tamaños muestrales de ambos grupos n1 y n2 están fijados
de antemano y, en el caso de un ensayo clínico, la intervención se asigna de forma aleatoria
a cada sujeto. El objetivo se centra en comparar la proporción de sujetos que desarrollan
la enfermedad entre los expuestos y los no expuestos.
yy Un estudio retrospectivo (estudio de casos y controles) es aquel en el que m1 sujetos con
la enfermedad (casos) y m2 sujetos libres de ella (controles) son examinados para determinar
cuántos han estado previamente expuestos al potencial factor de riesgo. Bajo este diseño,
el número de casos y controles está predeterminado y, en consecuencia, ha de compararse
la proporción de expuestos entre los sujetos con y sin la enfermedad.
yy Un estudio transversal es aquel en el que se selecciona un total de n individuos en un
instante determinado para establecer en cada sujeto la presencia o ausencia de la exposición
y la enfermedad. A diferencia de los estudios prospectivos, donde se compara la incidencia
de nuevos casos de la enfermedad, los estudios transversales comparan la prevalencia de
la enfermedad en un instante determinado entre expuestos y no expuestos.

Ejemplo 7.2  En el “Second National Health and Nutrition Examination Survey”


(NHANES II), una encuesta llevada a cabo entre 1976 y 1980 en Estados Unidos, se
recogieron datos del nivel de colesterol sérico total en una muestra representativa
de 7.712 sujetos entre 30 y 74 años de edad sin diagnóstico previo de enfermedad
cardiovascular o cáncer. Tras un seguimiento medio de 15 años, se determinó el estatus
vital de cada sujeto y, en su caso, la causa de muerte. Así, en este estudio de cohortes
prospectivo se registraron 254 muertes por enfermedad cardiovascular entre los 2.713
participantes con niveles de colesterol total superiores o iguales a 6,20 mmol/l (niveles
altos según el “National Cholesterol Education Program”) y 309 muertes por enfermedad
cardiovascular entre los 4.999 participantes con niveles de colesterol total inferiores
a 6,20 mmol/l.

Ejemplo 7.3  En el estudio de casos y controles EURAMIC, se clasificó a los sujetos


según tuvieran valores superiores o inferiores al umbral de 0,90 mmol/l de colesterol HDL.
De los 462 casos de infarto de miocardio con datos disponibles, 193 tuvieron valores de
colesterol HDL inferiores o iguales a 0,90 mmol/l; mientras que de los 539 controles
libres de la enfermedad, 158 presentaron valores de colesterol HDL inferiores a dicho
umbral.

Pastor-Barriuso R. 99
valores de colesterol HDL
valores
inferiores
de colesterol
a dicho HDL
umbral.
inferiores a dicho umbral.

Inferencia sobre proporciones


n general, los resultados
Ende
general,
la comparación
los resultados
de una
devariable
la comparación
dicotómica
de una
en dos
variable dicotómica en dos

tras independientesmuestras
suelen organizarse
independientes en una
suelen
tablaorganizarse
22 (Tabla en 7.1).
unaEntabla
este22 (Tabla 7.1). En este
Tabla 7.1 Tabla 2×2 genérica de la
2(1 - 2)/n2). Además, como ambas muestras son
asociación entre exposición y enfermedad.
ado suponemos queapartado
se analizan
suponemos
datos deque
un estudio
se analizan
prospectivo,
datos de un
en el
estudio
que seprospectivo, en el que se
4), se tiene que Enfermedad
1, en ~ N( ,  (1 -  )/n ). Además, como ambas muestras son
N(
nde estimar la diferencia
pretende la- proporción
1(1estimar
1)/n1la p2 de
) ydiferencia
 enfermos
en
2 la2 proporción
Exposición entreSí
2 expuestos
2 de No
enfermos
y no Total
entre expuestos y no
 1 (1   1 )  2 (1   2 )  Sí a b n1
estos.
1   Estos
2, métodos independientes
expuestos. Estos . métodos
 pueden aplicarse
 (véase Apartado
igualmente a3.4),
No pueden se tiene
estudios
aplicarse que d a estudios
c retrospectivos,
igualmente peron retrospectivos, pero
n1 n2  2
Total m1 m2 n
arando la proporción comparando
de expuestos la proporción
entre casosdey expuestos controles (ver entre
 1Ejemplo
(1casos
  1 )y 7.5).
controles
 2 (1   (ver Ejemplo 7.5).
~  2)
p1 - p2 es un estimador puntuallos
En general, insesgadop1  de
resultados p 2de  1   2 ,
lalaN comparación de  .
 n1 una variable n 2 dicotómica

en dos muestras
independientes
N(1,[Tabla
1(1 - 7.1suelen ~
organizarse en
2, aquí] una tabla 2×2 (Tabla
2)/n2). Además, como 7.1). En este apartado suponemos
1)/n 1) y p2  N(
aproximadamente [Tabla 2(1
7.1- aproximadamente aquí] ambas muestras son
1 - 2 entre expuestos y no expuestos, E(p - p ) =  -
que se analizan datos de un estudio prospectivo, en el que se pretende estimar la diferencia en
1 2 1
De este resultado
la independientes
proporción se desprende
de enfermos que p1 - p2 yesno
entre expuestos unexpuestos.
estimador puntual insesgado
Estos métodos de la aplicarse
pueden
(véase Apartado 3.4), se tiene que
0(1 - )% para igualmente
-  se obtiene siguiendo el mismo
1
proporción de enfermos 2
ena laestudios retrospectivos, pero comparando la proporción
La proporción muestra de de enfermos
sujetosen expuestos
la muestra vienede sujetos
dada por p1 =
expuestos de expuestos entre= casos
viene dada por p1
diferencia(ver
y controles de Ejemplo
riesgos subyacente
7.5). 1 - 2 entre expuestos y no expuestos, E(p1 - p2) = 1 -
roporción como   1 (1   1 )  2 (1   2 ) 
y en la muestra de N( a/n
La proporción
1,yen
sujetos 1no muestra
(1la-expuestos ) ypde
1por
p2sujetos
de 1enfermos
1)/n  =~ la
p~p22en
N(
 ,2.expuestos
Nno
c/n2muestra2Sin-1 de
1(1 nsujetos
y22,)/n
2 2por
son psuficientemente
= c/n2como n1ambas
. Siviene
2expuestos
). Además, y ndada
2. son a/n1 y en la
p1 = son
suficientemente
por
muestras
 . El intervalo de confianza al 100(1
 -  )% paran 1 1 - 2 se obtiene
muestra de sujetos no expuestos por p2 = c/n2. Si n1 y n2 son suficientemente grandes, estas
2 n 2 siguiendo el mismo
des, estas proporciones grandes, ~ N(π
pp11  ~ N(π ,
π1)/n1) ypp12 
p 2 (1muestrales
proporciones  pestas
p1 (1  p1 ) independientes ) proporciones
tenderán
2muestrales
(véase tenderán a distribuirse
Apartado muestrales
3.4), sede
a distribuirse tenderán
de
tieneforma quenormal,
forma anormal,
distribuirse de forma
1, π1(1 –normal,
 / 2  procedimiento , utilizado para unamuestras
proporción como
2

n1 π (1 –
2 De este π )/n ). Además, como ambas son independientes
2n 2 2resultado se desprende que p1 - p2 es un estimador puntual insesgado de la (véase Apartado 3.4), se tiene que
~     ,  1 (1   1 )   2 (1   2 )  .
diferencia de riesgospsubyacente1  p 2  N  -1  entre 2p1 (1 expuestos
 p1 ) p 2y(1no p2 ) 
 expuestos, E(p1 - p2) = 1 -
erencia de proporciones muestrales con una p 2  z11 / 22
p1 amplitud n1  n2 6 ,  6
n1 n2
Deeste
2. Elresultado
intervalosededesprende
confianzaque p1 – p2- es
al 100(1 )% un para 1 - puntual
estimador 2 se obtiene insesgado de laeldiferencia
siguiendo mismo de
mación de su error estándar.
De este
riesgos resultadoπse
subyacente 1 –desprende que p1 - py2 no
π2 entre expuestos es un estimador
expuestos, E(p puntual
1 – p2) = insesgado deintervalo
π1 – π2. El la de
que es simétrico
confianza –alrededor
α)% para
al 100(1utilizado
procedimiento paradeπuna
la–diferencia
π se obtiene
proporción decomo proporciones
siguiendo el muestrales
mismo con una amplitud
procedimiento utilizado
encias en la probabilidad subyacente de desarrollar 1 la2
para una proporción
diferencia de riesgoscomo subyacente 1 - 2 entre expuestos y no expuestos, E(p1 - p2) = 1 -
directamente proporcional a la estimación de su error estándar.
stos y no expuestos, se contrasta la hipótesis nula H0: p1 (1  p1 ) p 2 (1  p 2 )
2. El intervalo de confianza p1  pal 2  z1 / 2- )% para 1- 2 se obtiene
100(1 , siguiendo el mismo
Para determinar si existen diferencias en lan1probabilidadn 2subyacente de desarrollar la
tiva bilateral H1: 1  2. Bajo la hipótesis nula de
queprocedimiento
es simétrico
enfermedad
utilizado
alrededor
entre los sujetos
para una
de expuestosproporcióndecomo
la diferencia y no expuestos,proporciones muestrales
se contrasta con una
la hipótesis amplitud
nula H0:
directamente
2 = , se cumple que que es proporcional
simétrico alrededor a ladeestimación
la diferencia de su
de error estándar.
proporciones muestrales con una amplitud
Para
1 = determinar
2 frente a la si hipótesis
existenalternativa
diferenciasbilateral pen1 (1la H 11): 1 p2 (12.Bajo
pprobabilidad 2 ) la hipótesis
psubyacente de nula de
desarrollar la
directamente proporcional p1 a pla2 estimación
 z1 / 2 de su error  estándar. ,
enfermedad 1   entre los sujetos expuestos y no expuestos, n1 se contrasta
n2 la hipótesis nula H0: π1 = π2
~ N  0,  (1   ) 1igualdad
   ,
de proporciones H :  =  =  , se cumple que
 frente
 a la hipótesis alternativa 0 bilateral
1 2 H1: π1 ≠ π2. Bajo la hipótesis nula de igualdad de
  n1 Paran 2 determinar
proporciones  H : π = πsi existen= π, se
diferencias en
cumple que
la probabilidad subyacente de desarrollar la
0 1 2
que es simétrico alrededor de la diferencia de proporciones muestrales con una amplitud
enfermedad entre los sujetos expuestos ~ N y0no expuestos, 1 se1contrasta
 la hipótesis nula H0:
dad de enfermar común para expuestos y no p1  p 2  ,  (1
 de su error   )     ,
directamente proporcional a la estimación  n 2  
 n1estándar.
1 = 2 frente a la hipótesis alternativa bilateral H1: 1  2. Bajo la hipótesis nula de
ad  es desconocida, su
dondePara valor puedea estimarse
π corresponde
determinar lasiprobabilidad de enfermar
existen diferencias en la común para expuestos
probabilidad subyacentey no expuestos. Aunque
de desarrollar la esta
probabilidad
donde  π es desconocida,
corresponde a la su valor
probabilidadpuede
igualdad de proporciones H0: 1 = 2 = , se cumple que estimarse
de enfermar mediante
común la proporción
para combinada
expuestos y no de enfermos
de enfermos enenambas ambas muestras
muestras
enfermedad p =los
entre =(a(asujetos
c)/(1nexpuestos
++c)/(n +1 +n2) = m1/n. y Así, el estadístico
no expuestos, se propuesto
contrasta para este test nula
la hipótesis es H0:
expuestos. Aunque esta probabilidad  es desconocida, p 1  p 2 su valor puede estimarse
z ~   1 ,1 
uesto para este testes 1 = 2 frente a la hipótesis p1alternativa
 p 2  N bilateral
0,  (11 H)1: 11 
 2. Bajo , la hipótesis nula de
mediante la proporción combinada depenfermos (1  p ) enambas n1  n muestras
2  p = (a + c)/(n1 +
 n1 n 2 
igualdad de proporciones H0: 1 = 2 = , se cumple que
) = mH1/0corresponde
quen2bajo
donde n.sigue aproximadamente
Así, el estadístico propuesto
a la probabilidad
una distribución
depara este test
enfermar
normal
es para
común
estandarizada, lo que permitirá
expuestos y no
determinar
que bajo la H0significación estadística deuna
sigue aproximadamente la distribución
diferencia entre normalproporciones.
estandarizada, lo que
p1  p 2  ~ N  0,  (1   ) 1  1   ,
expuestos. Aunque esta probabilidad  es desconocida,    puede estimarse
sun valor
permitirá determinar la significación estadística  delan1diferencia
2  entre proporciones.
100 Pastor-Barriuso R. 7
mediante la proporción combinada de enfermos en ambas muestras p = (a + c)/(n1 +
 corresponde
dondeEjemplo 7.4 EnalalaTabla
probabilidad de enfermar
7.2 se presenta común
el número depara expuestos
muertes y no
por enfermedad
n ) = m /n. Así, el estadístico propuesto para este test es 7
permitirá determinar la significación estadística de la diferencia entre proporciones.
p2 es un estimador puntual insesgado de la
que bajo H0 sigue aproximadamente una distribución normal estandarizada, lo que
Comparación de proporciones en dos muestras independientes
entre expuestos y no Ejemplo 7.4E(p
expuestos, En1 la 2) = 17.2
- pTabla - se presenta el número de muertes por enfermedad
permitirá determinar la significación estadística de la diferencia entre proporciones.
)% para 1 - 2 se obtiene siguiendoobservadas
cardiovascular el mismo durante el seguimiento del estudio NHANES II entre
Tabla 7.2  Muertes por enfermedad cardiovascular
rción como Ejemplo
los sujetos En(ECV)
7.4con niveles durante
la Tablaaltos el seguimiento
7.2 ysemoderados-bajos
presenta el número
de de del estudio
muertes
colesterol por enfermedad
sérico total (Ejemplo
NHANES II según niveles del colesterol sérico total.
cardiovascular observadas
7.2). La proporción durante
de muertes
Colesterol porelenfermedad
seguimiento
Mortalidad del
ECVestudio NHANES
cardiovascular
por II entre
es p1 = 254/2.713
p1 (1  p1 ) p 2 (1  p 2 )
 , total (mmol/l) Sí No Total
n1 n 2 los sujetos
= 0,094 en con niveles altos ycon
los participantes moderados-bajos de colesterol
niveles de colesterol sérico total
total superiores (Ejemplo
a 6,20
≥ 6,20 254 2.459 2.713
< 6,20 309 4.690 4.999
cia de proporciones 7.2).
mmol/lLa yproporción
muestrales pcon
2 = una de muertes
309/4.999 porenenfermedad
= 0,062
amplitud aquellos cardiovascular
con es p1a=6,20
niveles inferiores 254/2.713
mmol/l.
Total 563 7.149 7.712

ón de su error estándar.=Por0,094
tanto,enlalosestimación
participantes con niveles
puntual de colesterol
de la diferencia total superiores
de riesgos subyacentea es6,20
p - p2 =
Ejemplo 7.4  En la Tabla 7.2 se presenta el número de muertes por1 enfermedad
cardiovascular
mmol/l observadas=durante
p2 = =309/4.999 el aquellos
seguimiento con del estudio NHANES II entre los sujetos
0,094 - y0,062
s en la probabilidad subyacente 0,032 y su 0,062 en
la intervalode de confianza niveles
al 95% inferiores a 6,20 mmol/l.
con nivelesde desarrollar
altos y moderados-bajos colesterol sérico total (Ejemplo 7.2). La proporción
de muertes
Por tanto, lapor enfermedad
estimación cardiovascular
puntual de la diferencia es p1 de
= 254/2.713 = 0,094 eneslos
riesgos subyacente p1 participantes
- p2 =
y no expuestos, se contrasta
con nivelesla hipótesis
de colesterol H0:0,superiores
nula total 094(1  0,094 0,062(1yp02 ,=062
) mmol/l
a 6,20 )
309/4.999 = 0,062 en aquellos
0,032  z 0,975 
con niveles
0,094 - 0,062inferiores
= 0,032 ya su 6,20 mmol/l.
2.713
intervalo dePor tanto, laalestimación
confianza 495%
.999 puntual de la diferencia de
bilateral H1: 1  2. Bajo
riesgosla hipótesis
subyacente nulaes de
p1 – p2 = 0,094 – 0,062 = 0,032 y su intervalo de confianza al 95%
cardiovascular en los sujetos con=niveles 0,032 altos de colesterol
1,960,007 = (0,019;total0,045).
excedió en 32
, se cumple que 0,094(1  0,094) 0,062(1  0,062)
0,032  z 0,975 
casos por 1.000 a la de los participantes 2.713 con niveles4más .999bajos (IC al 95% entre 19
Para el contraste bilateral de la hipótesis nula de igualdad de proporciones
1 1  = diferencia
0,032  1,960,007 = (0,019;(0,045).
0,  (1   )  y ,45 casos por 1.000), siendo esta muy significativa P < 0,001).
n
 1 n 2 poblacionales
Para el contraste 1 = 2 de
H0:bilateral se emplea el estadístico
la hipótesis nula de igualdad de proporciones poblacionales
H0: πel
Para π2 se emplea
1 =contraste el estadístico
bilateral de la hipótesis nula de igualdad de proporciones
de enfermar común para expuestos y no 0,032
z = [Tabla 7.2 aproximadamente aquí]= 5,13,
poblacionales H0: 1 = 2 se emplea el estadístico  1 1 
es desconocida, su valor puede estimarse 0,073(1  0,073)  
 2.713 4.999 
Ejemplo
donde p 7.5 La
a +Tabla
cz)/(=n17.3
= (563/7.712 += muestra
0,073 eslos 0la,032
casos de infarto
proporción de miocardio
global y lospor enfermedad
nfermos en ambas muestras = de muertes
5,13,
donde p = 563/7.712
cardiovascular en todos= los 0,073 es la proporción
participantes  del1 NHANES 1 de
global  II.muertes
El valorporP enfermedad
del test se obtiene
controles del EURAMIC 0,073
con (1valores
 0,073de ) colesterol
 HDL superiores o inferiores a
para este test es como 2P(Z ≥ 5,13) = 2{1 – Φ(5,13)} < 0,001.
 2.713 4.999 En resumen, después de 15 años de
seguimiento,
cardiovascularlaen incidencia
todos losacumulada
participantes de del
muertes
NHANESpor enfermedad
II. El valor cardiovascular
P del test se en los
0,90
sujetosmmol/l. A partiraltos
con niveles de esta tabla 22, total
de colesterol se pretende
excediócomparar
en 32 casosla proporción
por 1.000dea la de los
obtienepcomo
donde
participantes = 563/7.712
con
2P(niveles = 0,073
Z  5,13) más es la- (IC
= bajos
2{1 proporción global
al 95%< entre
(5,13)} 0,001. de
19En muertes
y 45 casos por
resumen, por enfermedad
1.000),desiendo
después 15 esta
sujetos
diferencia conmuyniveles bajos de colesterol
significativa (P < 0,001). HDL ( 0,90 mmol/l) entre casos p1 = c/m1
cardiovascular en todos los participantes
años de seguimiento, la incidencia acumulada del NHANES
de muertes II. por
El valor P del test se
enfermedad
= 193/4627.5 
Ejemplo = 0,418 y controles
La Tabla p2 = dlos
7.3 muestra /m2 casos
= 158/539 = 0,293.
de infarto La diferencia
de miocardio y losdecontroles del
obtiene como 2 P ( Z  5,13) 7= 2{1 - (5,13)} < 0,001. En resumen, después de 15
EURAMIC con valores de colesterol HDL superiores o inferiores a 0,90 mmol/l. A8 partir
proporciones
de esta tabla muestrales
2×2, se pretendees p1 - comparar
p2 = 0,418la- 0,293 = 0,125
proporción deysujetos
el IC alcon para bajos
95%niveles 1- de
años de seguimiento, la incidencia acumulada de muertes por
colesterol HDL (≤ 0,90 mmol/l) entre casos p1 = c/m1 = 193/462 = 0,418 y controles p2 = enfermedad
d/m dado por= 0,293. La diferencia de proporciones muestrales es p1 – p2 = 0,418 –
2 = 158/539
2 viene
0,293 = 0,125 y el IC al 95% para π1 – π2 viene dado por 8

p1 (1  p1 ) p 2 (1  p 2 )
p1  p 2  z 0,975 
m1 m2
0,418(1  0,418) 0,293(1  0,293)
= 0,125  1,96 
462 539
= 0,125  1,960,030 = (0,065; 0,184).

Pastor-Barriuso R. 101

El estadístico para el contraste bilateral de la hipótesis nula H0: 1 = 2 se calcula


 viene dado por
p1 (1  p1 ) p 2 (1  p 22 )
 ,
n1 n 2 sobre proporciones
Inferencia
p1 (1  p1 ) p 2 (1  p 2 )
donde p p=1 n2/pn2=351/1.001
z 0,975 = 0,351  es la proporción total de sujetos con niveles
ia de proporciones muestrales con una amplitud m1 m2
Tabla 7.3  Colesterol HDL en los casos de infarto
bajos de colesterol
agudo de HDL. La significación
miocardio y (los estadística del
del(contrate es por tanto P =
n de su error estándar. 0,418 1  0controles
,418) 0,293 1estudio
 0,293)
= 0,125  1,96
EURAMIC. 
2{1 - (4,12)} < 0,001. Así, los casos 462 539 son
de infarto de miocardio
en la probabilidad subyacente de desarrollar
Colesterol la Infarto de miocardio
HDL
significativamente= (mmol/l)
0,125  1,960,030
más propensos Caso = (0,065;
a presentar 0,184).bajosTotal
Control
niveles de colesterol HDL que
y no expuestos, se contrasta la hipótesis nula H0:
> 0,90 269 381 650
los sujetos para
libreselde
≤ 0,90 la enfermedad (Pde< la
193 0,001), con nula
158 una diferencia
: 1 = de
H0351
El estadístico
ilateral H1: 1  2. Bajo la hipótesis nula contraste
de bilateral hipótesis 2 se calcula
Total 462 539 1.001
proporciones del 12,5% (IC al 95% 6,518,4%).
como
, se cumple que
El estadístico para el contraste bilateral de la hipótesis nula H0: π1 = π2 se calcula como
p1  p 2
1 1  z  [Tabla 7.3 aproximadamente aquí]
0,  (1   )    ,  1 1 
 n1 n 2   p (1  p )  
 m1 m 2 

e enfermar común 7.4


paraASOCIACIÓN
expuestos y no ESTADÍSTICA EN 0,125
UNA TABLA DE
  4CONTINGENCIA
,12,
 1 1 
s desconocida, su valor puede estimarse 0,351(1  0,351)  
 462 539 estadística para evaluar de
En este apartado se presenta una prueba de significación
donde p == n(a/n+ =c)/(
fermos en ambas muestras n1 +
351/1.001 = 0,351 es la proporción total de sujetos con niveles bajos de
forma genérica 2la presencia o ausencia de asociación entre las variables dicotómicas
colesterol HDL. La significación estadística del contraste es por tanto P = 2{1 – Φ(4,12)} <
9
0,001. Así, los casos de infarto de miocardio son significativamente más propensos a presentar
para este test es
representadas en una tabla 22. Este procedimiento no facilita estimaciones de efecto,
niveles bajos de colesterol HDL que los sujetos libres de la enfermedad (P < 0,001), con
una diferencia de proporciones del 12,5% (IC al 95% 6,5-18,4%).
sino únicamente valores P, y es aplicable a estudios prospectivos (marginales n1 y n2

7.4 fijos), retrospectivos
ASOCIACIÓN (marginales m1 EN
ESTADÍSTICA y m2UNA
fijos)TABLA
y transversales (tamaño muestral n fijo).
DE CONTINGENCIA

En este Paraapartado se presenta


contrastar una
7 prueba
si las variables de unadetablasignificación estadística para
22 son independientes, se evaluar
comparan de las
forma
genérica la presencia o ausencia de asociación entre las variables dicotómicas representadas en
unafrecuencias
tabla 2×2. observadas
Este procedimiento
Oij en cadano celda
facilita(i,estimaciones
j) de la tabla deconefecto, sino únicamente
sus frecuencias valores
esperadas
P, y es aplicable a estudios prospectivos (marginales n1 y n2 fijos), retrospectivos (marginales
y ijmbajo
m1 E 2 fijos) y transversales
la hipótesis nula de(tamaño muestraldonde
independencia, n fijo).i = 1, 2 denota la fila y j = 1, 2 la
Para contrastar si las variables de una tabla 2×2 son independientes, se comparan las
columna.observadas
frecuencias Estas frecuencias esperadas
Oij en cada Eij j)sede
celda (i, calculan
la tablacomo el producto
con sus de esperadas
frecuencias sus Eij bajo
la hipótesis nula de independencia, donde i = 1, 2 denota la fila y j = 1, 2 la columna. Estas
correspondientes
frecuencias esperadasmarginales ni y mcomo
Eij se calculan j, dividido por el tamaño
el producto muestral total n, marginales n
de sus correspondientes i
y mj, dividido por el tamaño muestral total n,
nm
Eij = i j .
n
Así, por ejemplo, si en un estudio prospectivo no hubiera asociación entre exposición y
Así, por ejemplo,
enfermedad, si en un
la frecuencia estudiode
esperada prospectivo
expuestos no
quehubiera asociación
desarrollan entre exposición
la enfermedad y al
sería igual
producto del número de expuestos n1 por la proporción combinada de enfermos m1/n, E11 =
n1menfermedad, la frecuencia esperada de expuestos que desarrollan la enfermedad sería
1/n. Igualmente, en un estudio retrospectivo la frecuencia esperada de casos que han estado
expuestos al factor de riesgo correspondería al producto del número de casos m1 por la proporción
igual al producto
combinada del número
de expuestos n1/n, E11de=expuestos n1 por la proporción
m1n1/n. Asimismo, combinada
en un estudio de enfermos
transversal la frecuencia
esperada de sujetos a la vez expuestos y enfermos sería igual al producto del número total de
10

102 Pastor-Barriuso R.
Ejemplo 7.6 La Tabla 7.2 muestra los valores observados de la asociación entre la

mortalidad por enfermedad cardiovascular y el colesterol total en el estudio


Asociación estadística en una tabla de contingencia

prospectivo NHANES II. Si ambas variables fueran independientes, la


n por las proporciones
sujetosprobabilidad de morir por de n1/n y de enfermos
expuestoscardiovascular
enfermedad m1/n,enElos
sería igual n(n1/n)(m1/n) =
11 =sujetos
n1m1/n. Notar, por tanto, que los valores esperados bajo la hipótesis nula de independencia
coinciden en los distintos
con niveles tipos de
altos y bajos de colesterol
diseño. total. Esta probabilidad podría entonces

Ejemplo
estimarse7.6  La Tabla
mediante 7.2 muestra
la proporción los valores
combinada observados
de muertes de lamuestras
en ambas asociación entre la
mortalidad por enfermedad cardiovascular y el colesterol total en el estudio prospectivo
NHANES
563/7.712 =II.0,073.
Si ambas variables
Así, entre fueran
los 2.713 independientes,
participantes la probabilidad
con niveles altos de de morir por
enfermedad cardiovascular sería igual en los sujetos con niveles altos y bajos de
colesterol total,
total.cabría
Esta probabilidad podría =entonces
esperar 2.7130,073 estimarse
198,1 muertes mediante la proporción
por enfermedad
combinada de muertes en ambas muestras 563/7.712 = 0,073. Así, entre los 2.713
participantes
cardiovascularcon bajoniveles altos de
la hipótesis nulacolesterol total, cabría
de independencia. esperar este
Aplicando 2.713·0,073
mismo = 198,1
muertes por enfermedad cardiovascular bajo la hipótesis nula de independencia.
Aplicando
razonamiento,estelosmismo
valoresrazonamiento, los valores
esperados en cada esperados
celda vendrían en por
dados cada celda vendrían
dados por

Estos valores esperados se 2.713  563


E11representan
= en la=Tabla
198,1,7.4. Notar que los marginales
7.712
de la tabla de frecuencias observadas
2.713  7(Tabla
.149 7.2) y esperadas (Tabla 7.4)
E12 = = 2.514,9,
7 .712
coinciden. De hecho, una vez calculado el valor esperado en una cualquiera de las
4.999  563
E21esperados
celdas, los restantes valores = = 364,9,
7.712de la tabla 22 quedan determinados por

dichos marginales. 4.999  7.149


E22 = = 4.634,1.
7.712

Estos valores esperados se representan en la Tabla 7.4. Notar que los marginales de la
[Tabla
tabla de frecuencias observadas 7.4 aproximadamente
(Tabla aquí] 7.4) coinciden. De hecho,
7.2) y esperadas (Tabla
una vez calculado el valor esperado en una cualquiera de las celdas, los restantes11
valores
esperados de la tabla 2×2 quedan determinados por dichos marginales.
Para evaluar la independencia de las variables de una tabla 22, se comparan las

Para evaluarobservadas
frecuencias la independencia de las mediante
y esperadas variables el
deestadístico
una tabla 2×2, se comparan las frecuencias
observadas y esperadas mediante el estadístico
2 2
(Oij  E ij ) 2
2 =  Eij .
i 1 j 1

Cuanto mayor seaTabla


la diferencia entre los valores
7.4  Frecuencias observados
esperadas bajo layhipótesis
esperados, mayor será la
de independencia entre la mortalidad por
magnitud del estadístico y, en consecuencia,
enfermedad cardiovascular se tendrá
(ECV)mayor evidencia en contra de la
y el colesterol
total en el estudio NHANES II.
hipótesis nula de independencia. En particular, puede probarse que si las variables de la
Colesterol Mortalidad por ECV
total (mmol/l) Sí No Total una distribución
tabla 22 son independientes, este estadístico sigue aproximadamente
≥ 6,20 198,1 2.514,9 2.713
chi-cuadrado con 1 < 6,20 de
grado libertad 364,9
(sólo una 4.634,1
frecuencia 4.999de
esperada la tabla 22 es
Total 563 7.149 7.712
independiente). El valor P del contraste corresponde entonces a la probabilidad a la

derecha del estadístico  2 bajo la distribución  12 . Esta prueba se conoce conPastor-Barriuso


el nombre R. 103

de test chi-cuadrado de independencia o asociación de Pearson, y puede aplicarse


Inferencia sobre proporciones

Cuanto mayor sea la diferencia entre los valores observados y esperados, mayor será la magnitud
del estadístico y, en consecuencia, se tendrá mayor evidencia en contra de la hipótesis nula de
independencia. En particular, puede probarse que si las variables de la tabla 2×2 son
independientes, este estadístico sigue aproximadamente una distribución chi-cuadrado con 1
grado de libertad (sólo una frecuencia esperada de la tabla 2×2 es independiente). El valor P del
contraste corresponde entonces a la probabilidad a la derecha del estadístico χ 2 bajo la
distribución χ 21. Esta prueba se conoce con el nombre de test chi-cuadrado de independencia
o asociación de Pearson, y puede aplicarse siempre que los marginales de la tabla sean
suficientemente grandes, de tal forma que todas las frecuencias esperadas sean superiores o
iguales a 5.

Ejemplo 7.7  A partir de los valores observados y esperados bajo la hipótesis de


independencia entre la mortalidad por enfermedad cardiovascular y el colesterol sérico
total, se obtiene el test estadístico

2 (254  198,1) 2 (2.459  2.514,9) 2


 = 
198,1 2.514,9
(309  364,9) 2 (4.690  4.634,1) 2
 
364,9 4.634,1

= 15,80 + 1,24 + 8,58 + 0,68 = 26,30.

Como las frecuencias esperadas son claramente superiores a 5, este estadístico se


Como las frecuencias
distribuirá esperadas
aproximadamente son claramente
como superiores
una chi-cuadrado cona15,grado
este estadístico
de libertadse bajo la
hipótesis nula de independencia. Utilizando la Tabla 6 del Apéndice, puede comprobarse
distribuirá
que el valoraproximadamente como una
calculado del estadístico chi-cuadrado
es muy superior con 1 gradoχde
al percentil  2 libertad bajo
1;0,995 = 7,88, de lo cual
se deduce que P = P(χ 1 ≥ 26,30) < 0,005. Así, los niveles altos de colesterol total están
 2

la hipótesis nula deasociados


significativamente independencia.
con laUtilizando
mortalidadlapor
Tabla 6 del Apéndice,
enfermedad puede
cardiovascular.

comprobarse que el valor calculado del estadístico es muy superior al percentil


La hipótesis nula de independencia entre las variables de una tabla 2×2 equivale a la
igualdad
 12;0de dos proporciones poblacionales. De hecho,2 puede probarse que el estadístico χ 2 de
, 995 = 7,88, de lo cual se deduce que P = P(  1  26,30) < 0,005. Así, los
Pearson es igual al cuadrado del estadístico z de la comparación de proporciones en muestras
independientes, de tal forma que los valores P resultantes de ambos procedimientos son
niveles altos de colesterol total están significativamente asociados con la
idénticos (la distribución chi-cuadrado con 1 grado de libertad es, por definición, igual al
cuadrado de una distribución normal estandarizada). Cabría preguntarse entonces cuál es la
mortalidad por enfermedad cardiovascular.
aportación del test de independencia de Pearson. En primer lugar, los cálculos de este test no
dependen del diseño utilizado para generar los datos. En segundo lugar, esta prueba puede
generalizarse de forma sencilla a la comparación de múltiples proporciones en una tabla con r
La hipótesis nula de independencia entre las variables de una tabla 22 equivale a la
filas y c columnas.
igualdad de dos proporciones
Para contrastar poblacionales.
la independencia De hecho,
de dos variables puede probarse
categóricas en una que
tablaelr×c, se calcula el
estadístico
estadístico  2 de Pearson es igual al cuadrado del estadístico z de la comparación de
r c
(Oij  E ij ) 2
 2 =  ,
proporciones en muestras independientes, E ij que los valores P resultantes de
de tal forma
i 1 j 1

ambos procedimientos son idénticos (la distribución chi-cuadrado con 1 grado de


donde las frecuencias esperadas Eij = nimj/n se calculan de la misma forma que en una
libertad es, por definición, igual al cuadrado de una distribución normal estandarizada).
104 tabla 22.R.Bajo la hipótesis nula de independencia, dicho estadístico se distribuye
Pastor-Barriuso
Cabría preguntarse entonces cuál es la aportación del test de independencia de Pearson.
aproximadamente según una chi-cuadrado con (r - 1)(c - 1) grados de libertad. Los
En primer lugar, los cálculos de este test no dependen del diseño utilizado para generar
celdas tengan valores esperados inferiores a 5.
Asociación estadística en una tabla de contingencia

Ejemplo 7.8 La Tabla 7.5 muestra las muertes por enfermedad cardiovascular

donde las frecuencias


entre los esperadas
participantesEij =del
nimestudio
j/n se calculan
NHANES de laIImisma
con unforma que en
colesterol una tabla
sérico total 2×2.
Bajo la hipótesis nula de independencia, dicho estadístico se distribuye aproximadamente según
una chi-cuadrado cona(r5,20
inferior – 1)(c – 1) (nivel
mmol/l gradosdeseable),
de libertad. Los5,20
entre grados de libertad
y 6,19 corresponden
mmol/l (nivel limítrofeal
número de frecuencias esperadas independientes para el cálculo del estadístico, una vez
determinadosalto)
los marginales
y superior de la tabla
o igual r×c.mmol/l
a 6,20 La aproximación chi-cuadradoPara
(hipercolesterolemia). a la determinar
distribuciónsidel
la
estadístico será válida si el tamaño muestral es suficientemente grande. En concreto, el criterio
más aceptadoincidencia
para aplicar
de este test es
muertes porque ningún valor
enfermedad esperado sea
cardiovascular inferior
difiere a 1los
entre y que
tres no más
grupos,
del 20% de las celdas tengan valores esperados inferiores a 5.
se calculan en primer lugar las frecuencias esperadas mediante el producto de sus
Ejemplo 7.8  La Tabla 7.5 muestra las muertes por enfermedad cardiovascular entre los
participantes del estudio NHANES
correspondientes marginalesIIdividido
con un colesterol sérico
por el tamaño total inferior
muestral a 5,20 mmol/l
total. Estas
(nivel deseable), entre 5,20 y 6,19 mmol/l (nivel limítrofe alto) y superior o igual a 6,20
mmol/lfrecuencias
(hipercolesterolemia).
esperadas se Para determinar
presentan entresiparéntesis
la incidencia
en de muertes
la Tabla por
7.5. Aenfermedad
cardiovascular difiere entre los tres grupos, se calculan en primer lugar las frecuencias
esperadas mediante el
continuación, producto de
se comparan los sus correspondientes
valores marginales
observados y esperados divididoel por el
mediante
tamaño muestral total. Estas frecuencias esperadas se presentan entre paréntesis en la
Tabla 7.5. A continuación, se comparan los valores observados y esperados mediante el
estadístico
estadístico
(254  198,1) 2 (2.459  2.514,9) 2
2 = 
198,1 2.514,9
(174  175,8) 2 (2.234  2.232,2) 2
 
175,8 2.232,2
(135  189,1) 2 (2.456  2.401,9) 2
 
189,1 2.401,9 14
= 15,80 + 1,24 + 0,02 + 0,00 + 15,50 + 1,22 = 33,79.

Dado que las frecuencias esperadas son superiores a 5, puede utilizarse la distribución
chi-cuadrado
Dado queconlas
(3frecuencias
– 1)(2 – 1)esperadas
= 2 grados
son de libertad a(Tabla
superiores 6 del
5, puede Apéndice)
utilizarse la para
obtener un valor P = P(χ 2 ≥ 33,79) < 0,005. Esto es, la incidencia de muertes por
 2

enfermedad cardiovascular
distribución difierecon
chi-cuadrado significativamente
(3 - 1)(2 - 1) = 2entre
gradoslosde
tres grupos,
libertad obteniéndose
(Tabla 6 del
una incidencia acumulada en los 15 años de seguimiento de 52, 72 y 94 muertes por
cada 1.000 participantes
Apéndice) con niveles
para obtener un valordeseables,
P = P(  22 limítrofes
 33,79) <altos
0,005.y Esto
altoses,
delacolesterol
total, respectivamente.
incidencia de muertes por enfermedad cardiovascular difiere significativamente
Tabla 7.5 Frecuencias observadas (esperadas) de
entre los tres por
muertes grupos, obteniéndose
enfermedad una incidencia
cardiovascular acumulada
(ECV) entre en
loslos 15 años de
participantes del NHANES II con niveles de colesterol
seguimiento de 52,
total < 5,20, 72 y 94ymuertes
5,20-6,19 por cada 1.000 participantes con niveles
≥ 6,20 mmol/l.
Colesterol Mortalidad por ECV
deseables, limítrofes altos y altos de colesterol total, respectivamente.
total (mmol/l) Sí No Total
≥ 6,20 254 (198,1) 2.459 (2.514,9) 2.713
5,20-6,19 174 (175,8) 2.234 (2.232,2) 2.408
< 5,20 [Tabla 7.5
135 (189,1) aproximadamente
2.456 (2.401,9) aquí]
2.591
Total 563 7.149 7.712

7.5 TEST DE TENDENCIA EN UNA TABLA r2


Pastor-Barriuso R. 105

A partir de una tabla r2, el test chi-cuadrado de Pearson permite contrastar la hipótesis
De este Deresultado
este resultado p1se  p1 )que pp21que
(1 desprende
se desprende (-1 p2ppes
1 2-)un
p2 estimador
es un estimador
puntual
puntual
insesgado
insesgado
de la de la
p1  p 2  z1 / 2  ,
Inferencia sobre proporciones n1 n 2
diferencia
diferencia
de riesgos
de riesgos
subyacente 1 - 2entre
subyacente 1 - 2 expuestos
entre expuestos
y no expuestos,
y no expuestos, p2)1=- p12)- = 1 -
E(p1 -E(p
e es simétrico alrededor de la diferencia de proporciones muestrales con una amplitud
 . El intervalo
2. El intervalo
de confianza
de confianza
al 100(1 - )%-para
al 100(1 )%para 1 - 2se 2 se obtiene
1 - obtiene siguiendo
siguiendo
el mismo
el mismo
7.5 2 TEST DE TENDENCIA EN UNA TABLA r×2
ectamente proporcional a la estimación de su error estándar.
Aprocedimiento
partirprocedimiento
utilizado
de una tabla utilizado
r×2, para
el testuna
paraproporción
una proporción
chi-cuadrado como
de comopermite contrastar la hipótesis nula de
Pearson
Para determinarigualdad
si existende diferencias
proporciones en H π1 = π2 = ... =subyacente
la0:probabilidad πr frente a de la hipótesis
desarrollar alternativa
la H1: πi ≠ πj, donde
i y j son 2 muestras cualesquiera. Un resultado p1 (1 ppsignificativo
)  pp12)(1 ppde ) esta
 p 2 prueba indicaría que al
1 1(1 2 2(1 )
menos 2 de las r p1  pp2poblacionales
proporciones 1 zp
fermedad entre los sujetos expuestos y no expuestos, se contrasta / 2 z1 / 2son heterogéneas.
12  
lanhipótesis  En
nula ,el
H0:caso, de que los grupos o
simplemente tomar los valores 1, 2, ..., r indicando el orden de n1los grupos.
1 An
muestras estén intrínsecamente ordenados, cabría preguntarse además si estas proporciones
2 n 2

= 2 frente a la siguen
hipótesisalguna tendencia
alternativa determinada
bilateral H1: 1 alo largo la dehipótesis
los grupos. nulaEndeeste apartado se presenta un
continuación, setest
relacionan las proporciones observadas 2.pBajo con sus correspondientes
que específico
esquesimétrico
simplemente para
es simétrico
tomar detectar
alrededorlos delalaexistencia
alrededor
valores diferencia
de2,la...,
1, r de
i
diferencia deun gradiente
proporciones
indicando de omuestrales
proporciones
el orden componente conlineal
muestrales
de los grupos. una (creciente
Aconamplitud o
una amplitud
decreciente) entre las proporciones de los sucesivos grupos.
ualdad de proporciones
puntuaciones si mediante H0el: estadístico
1 = 2 = , se cumple que
directamente
directamente
continuación,
En primer proporcional
proporcional
se relacionan
lugar, se asigna a lalasestimación
una a puntuación
la estimación
proporciones de su error
de su estándar.
sobservadas errorpiestándar.
con sus correspondientes
i a cada una de las muestras ordenadas. Esta
puntuación puede representar un atributo numérico del grupo (ver Ejemplo 7.9), o simplemente
Para
lospdeterminar
Para determinar
puntuaciones r ...,
si
s~i1,medianteexisten si el  1 diferencias
existen
diferencias
estadístico 1 en2
la probabilidad
en la probabilidad subyacente
subyacente
de desarrollar
de desarrollar
la la
tomar valores
1  p 2  N 
2, 0n, (r(p1indicando
p))( s  els )orden
  , de los grupos. A continuación, se relacionan las
proporciones observadas 

 
 i pi i con sus

n1i correspondientes
n2  

puntuaciones si mediante el estadístico
enfermedad
enfermedad entre
2
 = los
entre
i 1
sujetos
los sujetos
expuestosexpuestosy no , expuestos,
y no expuestos,
se contrasta
2 se contrasta
la hipótesis nula Hnula
la hipótesis 0: H0:
r
 r 2 
p (1  p ) ni ( s i   s ) ni ( p i  p )( s i  s ) 
nde  corresponde 1 a=la2probabilidad
= 2 frente
1frente
de
a laenfermar
a la hipótesis hipótesis común
ialternativa
1 2 alternativa
 para expuestos
i 1bilateral H1: 1Hy1:no
bilateral 2.1 Bajo
 2. la
Bajo
hipótesis
la hipótesis
nula de
nula de
 = r
,
puestos. Aunque igualdad
esta probabilidad
igualdad
de proporciones  es desconocida,
de proporciones H0: 1H=0:2su p (1valor
1==

,2sep=)cumple
puede
 , ni (cumple
se sestimarse
i  s)
que
2
que
donde ni es el tamaño de cada muestra, n = ni, p = nipi/n esi la 1 proporción

diante la proporción ni es el tamaño


dondecombinada de cadaenmuestra,
de enfermos n = ∑ni, p == ∑n
ambas muestras (a + ipic/n)/(es n1 la+ proporción combinada en

~puntuación   1  1 1   1 si las
combinada en todas
todas las
lasmuestras
donde muestras yy s ==∑n
ni es el tamaño deispiiscada
n i/nes
/n esla
1  pp
lapuntuación
muestra,
21  pN20~n, =N(1n 0,media.
media.
i
Notar
Notar
, )(p1 = ) ipque
n /nque
i

si las
,es la ,proporciones observadas
 proporción
tienden a aumentar o disminuir
= m1/n. Así, el estadístico propuesto para este test es  con las puntuaciones,   1  21   2   estadístico será grande.
el
n numerador
nn n del
Si, por el tienden
proporciones observadas contrario, las proporciones
a aumentar o disminuir no varían en función de laelpuntuación de cada grupo, el
combinada en todas las muestras y s =con nilas si/npuntuaciones,
es la puntuación media. Notar que si las
numerador estará próximo a 0. Bajo la hipótesis nula de ausencia de una componente lineal en
ladonde  corresponde
donde
tendencia,
numerador del estadístico grande.
seráel correspondeaSi,
estadístico la por
probabilidad
a la
el probabilidad
anterior de enfermar
seguirá
contrario, las de enfermar
aproximadamente
proporcionescomúncomún para
no varían expuestos
unapara expuestos
y no chi-cuadrado
distribución
en y no
proporciones observadas tienden a aumentar
con 1 grado de libertad. Esta prueba se conoce genéricamente como test chi-cuadradoo disminuir con las puntuaciones, el de
expuestos.
tendenciaexpuestos.
Aunque
y, a Aunque
esta
diferencia probabilidad
esta
del test de
unción de la puntuación de cada grupo, el numerador estará próximo a 0. Bajo la 
probabilidad es 
desconocida,
independencia es desconocida,
o su valor
asociación, su puede
valor puede
estimarse
puede estimarse
aplicarse incluso
numerador
cuando algunas
135/2.591 del=muestras
estadístico
0,052, p2tengan =será grande.
un tamaño
174/2.408 =Si,0,072porreducido,
el
y pcontrario, bastalascon proporciones
que lademuestrano varían totalensea
3 = 254/2.713 = 0,094 las
hipótesis nula desuficientemente
mediante
mediante
ausencia la unagrande
deproporción
lacomponenteycombinada
proporción la proporción
combinada
linealde encombinada
enfermos
la de enfermos
tendencia, ennoambasmuy
el en extrema,
ambas
muestras
estadístico n7p(1=–(ap)+=
muestras ≥c)/(
(a nFinalmente,
5. +1 c+)/(n1 +
función
cabe reseñar
sucesivasde la puntuación
quecategorías
el test de(Figura de cada
tendencia grupo,
7.1).noPara el
permite numerador
contrastar
contrastar estará
si esta próximo
la tendencia
idoneidadcrecientea 0. Bajo la
de la relación
es lineal;
este test
n2) = m únicamente
n21)/n=. Así,
anterior seguirá aproximadamente m1/n.elAsí,una determina
distribución
estadístico
el estadístico la existencia
chi-cuadrado
propuestopropuesto
para este para de
con
test una
1es
este grado componente
test esde lineal significativa,
hipótesis
independientementenula
significativa, deseausencia
deasignan
cuál sea delasuna componente
lapuntuaciones
relación s1lineal
subyacente. = 4,65, ensla=tendencia,
5,72 y s3 =el6,90 estadístico
2
ibertad. Esta prueba se conoce genéricamente como test chi-cuadrado de tendencia y,
anterior seguirá aproximadamente
correspondientes unacolesterol
distribución totalchi-cuadrado con 1 grado de
Ejemplo 7.9  Enaellaejemplo medianaanterior del se detectaron dediferencias
cada categoría. Aunque
significativas en el riesgo
a diferencia del test dedeindependencia
muerte por enfermedad o asociación, cardiovascular
puede aplicarse entre los participantes
incluso cuando del NHANES II con
libertad.
podrían
niveles Esta
de prueba
asignarse
colesterol se conoce
las total < genéricamente
puntuaciones 1, 2 y 3, como
5,20, 5,20-6,19 test chi-cuadrado
esy preferible
≥ 6,20 mmol/l.utilizarDe una de tendencia
medida
hecho, se deobserva y, un
algunas muestras tengan claro unincremento
tamaño reducido, en las incidencias
basta con que acumuladas
la muestra p1total
= 135/2.591
sea = 0,052, p2 = 174/2.408 =
a diferencia
tendencia del
0,072 y p3 central test de
= 254/2.713 independencia
de cada categoría
= 0,094 de laso asociación,
(media
sucesivas o mediana) puede
categorías aplicarse
para(Figura
preservar incluso cuando
7.1).laPara
distancia
contrastar7 si7
suficientemente grande esta
y la tendencia
proporción creciente
combinada es significativa,
no muy se asignan
extrema, p (1las
n con - puntuaciones
p la) muestra
5. s1 = 4,65, s2 = 5,72
algunas
y s3 =las
entre muestras
6,90mismas. tengan
correspondientes un tamaño
Así, el numerador reducido,
a la mediana basta
del colesterol
del estadístico que
del test total
de de total sea
cada categoría.
tendencia vendría Aunque
podrían asignarse las puntuaciones 1, 2 y 3, es preferible utilizar una medida de tendencia
Finalmente, cabe reseñar que el testgrande
suficientemente de tendencia
y la proporciónno permite contrastarnolamuy
combinada idoneidadextrema, de n p (1 - p )  5.
central
dado por de cada categoría (media o mediana) para preservar la distancia entre las mismas.
Así, el numerador del estadístico del test de tendencia vendría dado por
a relación lineal; este test únicamente determina la existencia de una componente lineal
Finalmente, cabe reseñar que el test de tendencia no permite contrastar la idoneidad de
N = {2.591(0,052  0,073)(4,65  5,78)
significativa, independientemente de cuál sea la relación subyacente. 5,78)
 0,073)(5,72
la relación lineal; este+test 2.408(0,072
únicamente determina la existencia de una componente lineal
+ 2.713(0,094  0,073)(6,90  5,78)}2 = 15.364,56
significativa, independientemente
Ejemplo 7.9 En el ejemplo anterior se detectaron de diferencias
cuál sea la relación significativas subyacente. en el

riesgo de muerte por enfermedad cardiovascular entre los participantes del


y elEjemplo 7.9 Enpor
denominador
106 Pastor-Barriuso R.
el ejemplo anterior se detectaron diferencias significativas en el
NHANES II con niveles
riesgo de
de colesterol
muerte portotal < 5,20, 5,206,19
enfermedad y  6,20
cardiovascular mmol/l.
entre De
los participantes del
D = 0,073(1 - 0,073){2.591(4,65 - 5,78)2
n1 n2 

p2 es un estimador puntual insesgado de la Medidas de efecto en una tabla de contingencia

entre expuestos y no expuestos, E(p1 - p2) = 1 -


0,1 = 0,052, p = 174/2.408 = 0,072 y p3 = 254/2.713 = 0,094 de las
135/2.591 2
)% para 1 - 2 se obtiene siguiendo el mismo
sucesivas categorías (Figura 7.1). Para contrastar si esta tendencia creciente es
Incidencia acumulada de muertes por ECV
rción como
0,08
significativa, se asignan las puntuaciones s1 = 4,65, s2 = 5,72 y s3 = 6,90
p1 (1  p1 ) p 2 (1  p 2 )
 , 0,06
n1 n 2 correspondientes a la mediana del colesterol total de cada categoría. Aunque

podrían asignarse las puntuaciones 1, 2 y 3, es preferible utilizar una medida de


cia de proporciones muestrales 0,04con una amplitud
tendencia central de cada categoría (media o mediana) para preservar la distancia
ón de su error estándar.
entre las
0,02mismas. Así, el numerador del estadístico del test de tendencia vendría
s en la probabilidad subyacente de desarrollar la
dado por
y no expuestos, se contrasta la 0hipótesis nula H0:
simplemente tomar los valores 1, 2, ..., r indicando el orden de los grupos. A
N = {2.591(0,052 - 0,073)(4,65 - 5,78)
bilateral H1: 1  2. Bajo la hipótesis4,5
nula de continuación,
5 se5,5
relacionan las 6 proporciones 7 pi con sus correspondie
6,5 observadas
+ 2.408(0,072 - 0,073)(5,72 - 5,78)
, se cumple que puntuaciones sColesterol total (mmol/l)
i mediante el estadístico
2 Figura 7.1
+ 2.713(0,094
Figura 7.1  Incidencia acumulada - 0,073)(6,90
de muertes = 15.364,56(ECV) en 15 años de
- 5,78)}cardiovascular
por enfermedad
seguimiento del estudio NHANES II según niveles de colesterol total < 5,20, 5,20-6,19 y ≥ 6,20 mmol/l.
1 1   r 
2
0,  (1   )    ,   ni ( p i  p )( s i  s ) 
 n1 n 2  y el denominador por
y el denominador por  2 =  i 1 r
 ,
2 p (1  p ) ni ( s i  s ) 2
de enfermar común para expuestos y D no= 0,073(1  0,073){2.591(4,65  5,78) i 1
+ 2.408(5,72  5,78)2
es desconocida, su valor puede estimarse + 2.713(6,90  5,78)2} = 454,78,
donde ni es el tamaño de cada muestra, n = ni, p = nipi/n es la proporción
donde p = (563/7.712
nfermos en ambas muestras a + c)/(n1 += 0,073 es la proporción global de muertes por enfermedad
cardiovascular en todos combinada en todas
los participantes del las muestras
NHANES nisi/n es la+puntuación
II yy s == (2.591∙4,65 2.408∙5,72 media. Notar q
para este test es donde p = 563/7.712 = 0,073 es la proporción global de muertes por enfermedad
+ 2.713∙6,90)/7.712 = 5,78 es la puntuación media. El estadístico resulta entonces χ 2 =
N/D = 33,78, que corresponde
proporciones
a un valor P = P(χ 21 tienden
observadas ≥ 33,78)a<aumentar
0,005 en oladisminuir conchi-
distribución las puntuaciones,
cuadrado con 1 en
cardiovascular grado delos
todos libertad (Tabla 6del
participantes delNHANES
Apéndice).II Estey s resultado
= (2.5914,65 confirma
+ que el
riesgo de mortalidad por numerador del estadístico
enfermedad será grande.
cardiovascular aumenta Si, por el contrario, las al
significativamente proporciones no
aumentar
2.4085,72el+nivel de colesterol total.
2.7136,90)/7.712 = 5,78 es la puntuación media. El estadístico
función de la puntuación de cada grupo, el numerador estará próximo a 0. Bajo
resulta entonces  2 = N/D7= 33,78, que corresponde a un valor P = P(  12  33,78)
7.6  MEDIDAS DE EFECTO hipótesis
EN UNA nulaTABLA
de ausencia de una componente lineal en la tendencia, el estadíst
DE CONTINGENCIA
< 0,005 en la
En epidemiología distribución
y en chi-cuadrado
otras aplicaciones
anterior con
del análisis
seguirá 1 grado de en
de datos
aproximadamente libertad
salud (Tabla
pública,6 no
una distribucióndelchi-cuadrado
sólo interesa con 1 grado d
determinar el grado de significación estadística sino también obtener estimadores de efecto o
medidasApéndice). Este resultado
de la magnitud confirma
de la libertad.
asociación. que
A
Esta el riesgo
partir
prueba de
seunadetabla
conocemortalidad por enfermedad
2×2 pueden
genéricamente obtenerse
como testdistintas
chi-cuadrado de tend
medidas de efecto, tales como la diferencia de riesgos, el riesgo relativo y el odds ratio. La
cardiovascular
diferencia de riesgosaumenta asignificativamente
o proporciones, que ya
diferencia delsetest al
deaumentar
discutió el nivel
en el Apartado
independencia de colesterol
7.3, total.
permitepuede
o asociación, determinar
aplicarse incluso cua
la diferencia en la tasa de incidencia o prevalencia de la enfermedad entre los sujetos expuestos
y no expuestos en un estudio algunas
prospectivo o transversal,
muestras tengan unrespectivamente.
tamaño reducido,Enbastaestecon
apartado
que lasemuestra total sea
revisan los métodos de inferencia sobre el riesgo relativo y el odds ratio, así como sus respectivos
[Figura 7.1 aproximadamente aquí]
ámbitos de aplicación. suficientemente grande y la proporción combinada no muy extrema, n p (1 - p
17 R. 107
Pastor-Barriuso
Finalmente, cabe reseñar que el test de tendencia no permite contrastar la idone

la relación lineal; este test únicamente determina la existencia de una componen


7.6.1  > 1 indica
 Riesgo una mayor probabilidad de desarrollar la enfermedad en expuestos
relativo
Inferencia sobre proporciones
El riesgo
querelativo o razón dePor
en no expuestos. riesgos es lasimedida
ejemplo, de efecto
 = 1,25, más utilizada
los sujetos expuestosentienen
estudios
1,25

prospectivos
7.6.1  parariesgo
veces más
Riesgo comparar
relativo o sonlaun
incidencia
25% másdepropensos
la enfermedad entre expuestos
a desarrollar y no que los
la enfermedad

expuestos,
El riesgo no y seodefine
relativo razón
expuestos como
de
(100( riesgos
 - 1) =es100(1,25
la medida- 1)de =
efecto
25%).más utilizada en estudios prospectivos
para comparar la incidencia de la enfermedad entre expuestos y no expuestos, y se define como
  < 1 indica una menor probabilidad  1 deP(contraer
D | E ) la enfermedad en expuestos que
=  ,
 2 P( D | E c )
en no expuestos. Por ejemplo, si  = 0,80, los sujetos expuestos son un 20%
donde π1 = P(D|E) y π2 = P(D|Ec) representan la probabilidad de desarrollar la enfermedad D
entre los sujetos
donde 1 = P(D|E)
menos y 2 E=a ydesarrollar
expuestos
propensos no expuestos
P(D|E c Ec, respectivamente.
) representan la probabilidad
la enfermedad Así,
que los no de el riesgo (100(0,80
relativo
desarrollar
expuestos la determina
- 1)
cuántas veces es más frecuente la enfermedad en expuestos que en no expuestos. Se trata, por
tanto, de =una
enfermedad medida
D entredelos
-20%). efecto
sujetosmultiplicativa
expuestos Eque y nopuede tomarEcualquier
expuestos c valor no negativo,
, respectivamente. Así, el de
tal forma que:
riesgo relativo
yy ψ =Un
1 indica la 
valordetermina
de y su cuántas
misma inverso 1/  representan
veces
probabilidad es más
de frecuente
enfermar la enfermedad
el mismo nivel de
en expuestos en expuestos
asociación,
y no expuestospero en =
P(D|E)
P(D|Ec); es decir, la exposición y la enfermedad son independientes. Cuanto más alejado
queesté
ensentido
nodeexpuestos.
ψ opuesto.
1 en SePor
cualquiertrata, por tanto,
ejemplo,
sentido, si de
mayor una
=será
4, lamedida
los sujetosdeexpuestos
magnitud efecto multiplicativa
son 4 veces
de la asociación que
entremás
exposición
y enfermedad.
puede propensos
tomar cualquier valor nolanegativo,
a desarrollar enfermedad de tal
queforma
los noque:
expuestos, o equivalentemente
yy ψ > 1 indica una mayor probabilidad de desarrollar la enfermedad en expuestos que en no
expuestos.
 
Por ejemplo, ψ = 1,25, losdesujetos
siprobabilidad expuestos tienen 1,25
y no veces más riesgo o
los= no
1 indica la misma
expuestos son un 75% menos propensosenfermar aen expuestos
contraer expuestos
la enfermedad que los
son un 25% más propensos a desarrollar la enfermedad que los no expuestos (100(ψ – 1)
= 100(1,25
P(D|E) =– P(D|E
1) = 25%).
c
);es- decir, la exposición
expuestos (100(1/ 1) = 100(0,25 - 1) =y-75%).
la enfermedad son independientes.
yy ψ < 1 indica una menor probabilidad de contraer la enfermedad en expuestos que en no
expuestos.
Esta medida Pordeejemplo, si ψ = 0,80,
efecto también puedelosaplicarse
sujetos expuestos
a estudiosson un 20% menos
transversales propensos a
en términos
desarrollar la enfermedad que los no expuestos (100(0,80 – 1) = –20%). 18
yde la razón
y Un valor dede prevalencias.
ψ y su inversoSin 1/ψembargo,
representany aleligual quenivel
mismo ocurríade con la diferencia
asociación, de sentido
pero en
opuesto. Por ejemplo, si ψ = 4, los sujetos expuestos son 4 veces más propensos a
riesgos, el riesgo
desarrollar relativo no que
la enfermedad es directamente
los no expuestos,estimable a partir de estudios
o equivalentemente los no expuestos son
un 75% menos propensos a contraer la enfermedad que los expuestos (100(1/ψ – 1) =
retrospectivos
100(0,25 – 1)ya=que la proporción de casos está predeterminada por el propio diseño
–75%).
Esta medida de efecto también puede aplicarse a estudios transversales en términos de la
del estudio.
razón de prevalencias. Sin embargo, y al igual que ocurría con la diferencia de riesgos, el riesgo
relativo
A no es directamente
partir estimable a en
de los datos observados partir
unade estudios
tabla retrospectivos
22 (Tabla 7.1), un ya que la proporción
estimador puntual de
casos está predeterminada por el propio diseño del estudio.
delpartir
A riesgoderelativo viene
los datos determinado
observados por tabla 2×2 (Tabla 7.1), un estimador puntual del
en una
riesgo relativo viene determinado por
p1 a / n1
RR =  ,
p 2 c / n2
que corresponde al cociente entre la proporción de enfermos en la muestra de sujetos expuestos
p1 = a/n1 y no expuestos p2 = c/n2.
19
Ejemplo 7.10  De la Tabla 7.2 se desprende que la proporción de muertes por enfermedad
cardiovascular es p1 = 254/2.713 = 0,094 en los participantes del estudio NHANES II con
niveles de colesterol total superiores a 6,20 mmol/l y p2 = 309/4.999 = 0,062 en aquellos
con niveles inferiores a 6,20 mmol/l. Así, la estimación puntual del riesgo relativo es
RR = 0,094/0,062 = 1,51;

108 Pastor-Barriuso R.
El cálculo de un intervalo de confianza y un test de hipótesis para  no resulta
Medidas de efecto en una tabla de contingencia
sencillo ya que la distribución muestral de su estimador RR es muy asimétrica,

particularmente cuando el riesgo relativo subyacente dista mucho del valor nulo 1. Para
es decir, la incidencia acumulada de muertes por enfermedad cardiovascular en 15 años
de seguimiento
solventar es un de
este problema 51% superior en
inferencia, los sujetostrabajar
es preferible con niveles altos
con el de colesterol
logaritmo naturaltotal
del que
en quienes tienen niveles más bajos.
riesgo relativo, cuya distribución presenta una mayor simetría. De hecho, puede
El cálculo de un intervalo de confianza y un test de hipótesis para ψ no resulta sencillo ya
queprobarse
la distribución muestral
que si los tamaños dedesu ambas
estimador RR esson
muestras muy asimétrica, particularmente
suficientemente grandes n11(1cuando
- 1) el
riesgo relativo subyacente dista mucho del valor nulo 1. Para solventar este problema de
inferencia,
 5 y n2es preferible
2(1 - 2)  5,trabajar
el log(RR)contiende
el logaritmo naturalde
a distribuirse delforma
riesgo relativo,
normal concuya distribución
media log()
presenta una mayor simetría. De hecho, puede probarse que si los tamaños de ambas muestras
sonysuficientemente 1/an-1π1/n
grandes
varianza aproximada + π1/c
1(11 – 1) ≥- 5 y 2n, 2π2(1 – π2) ≥ 5, el log(RR) tiende a distribuirse
1/n
de forma normal con media log(ψ) y varianza aproximada 1/a – 1/n1 + 1/c – 1/n2,

~ N  log( ), 1  1  1  1  .
log( RR)   
 a n1 c n 2 

Ejemplo 7.11  En las Figuras 7.2(a) y (b) se presentan las distribuciones muestrales
RR y del7.11
delEjemplo log(RR) deFiguras
En las mortalidad poryenfermedad
7.2(a) cardiovascular
(b) se presentan entre los sujetos con
las distribuciones
un colesterol total ≥ 6,20 y < 6,20 mmol/l obtenidos a partir de 1000 muestras aleatorias
simples de tamaño
muestrales del RR 500
y deldel estudio
log(RR) NHANES por
de mortalidad II. enfermedad
Como puede observarse, ambas
cardiovascular
distribuciones están centradas alrededor de los parámetros subyacentes 1,51 y log(1,51)
= 0,42 en todos los participantes del estudio. Sin embargo, la distribución muestral del
20
RR presenta una clara asimetría, mientras que el log(RR) se distribuye de forma
aproximadamente normal.

25 25

20 20

15 15
Frecuencia relativa (%) en muestras de tamaño 500

10 10

5 5

0 0

0 1 2 3 4 -1 0 1 2

(a) RR (b) log(RR)

25 25

20 20

15 15

10 10

5 5

0 0

0 1 2 3 4 -1 0 1 2

(c) OR (d) log(OR)


Figura 7.2
Figura 7.2  Distribución muestral del RR (a), log(RR) (b), OR (c) y log(OR) (d) de mortalidad por enfermedad
cardiovascular entre los sujetos con un colesterol total ≥ 6,20 y < 6,20 mmol/l en 1000 muestras aleatorias
simples de tamaño n = 500 obtenidas a partir del estudio NHANES II. Las líneas verticales en trazo discontinuo
corresponden a los parámetros subyacentes ψ = 1,51, log(ψ) = 0,42, ω = 1,57 y log(ω) = 0,45.

Pastor-Barriuso R. 109
1 / 2
En base a la distribución aproximadamente a normal
n1 cdel log(RR),
n2
[Figura 7.2 aproximadamente aquí] puede obtenerse un

intervalo
Inferencia de confianza
sobre proporciones - )% para el
al 100(1 logarítmica
Deshaciendo la transformación enlog( ) como
ambos límites de este intervalo, el IC al
En base a la distribución aproximadamente normal del log(RR), puede obtenerse un
bajo -H0 )%
que100(1 siguepara el riesgo relativouna
aproximadamente subyacente 1  queda
distribución 1 entonces
1normal determinado
estandarizada.
1 por
Conviene
intervalo
En base ade - ) )%
confianza alaproximadamente
la distribución 100(1
log( RR  zpara  del
el log(
1 / 2 normal )como
log(RR),
 . puede obtenerse un intervalo
de confianza
destacar que estaal 100(1 – α)%nula
hipótesis paraHel: 
log(ψ)
= 1 comoa con
coincide
n1 c n 2
la hipótesis H :  = 2 de la
 0
1 1 1 1  0 1
explog( RR)  z1 / 2 1 1 1 1  .
Deshaciendo
comparación de la log(
transformación
proporciones RR  z1 / 2 en
)muestras
logarítmica
en dos aambos
 n1 límites
c nde
independientes, 2.  este intervalo, el IC al
a n1 c n 2así como con la hipótesis
100(1
Deshaciendo- )% la para el del
riesgo
transformación relativo subyacente  queda entonces determinado por
unalogarítmica enenambos límites deEste
este intervalo, el IC unal 100(1
2
nula de independencia
Notar que por tratarse detest de Pearson
medida de efecto una tabla 22.
multiplicativa, test es, por
el intervalo detanto,
confianza
– α)%
Deshaciendo
para el la
riesgo transformación
relativo subyacente ψ
que bajo H0 sigue aproximadamente una distribución normal estandarizada. Conviene al
logarítmicaqueda en ambos
entonces límites de
determinadoeste intervalo,
por el IC
procedimiento
no es simétrico alternativo
alrededor para
de contrastar
la estimaciónla misma
puntual hipótesis
RR. nula,quelaarroja resultados
100(1 -  )% para el riesgo relativo subyacente 1 Asimismo,
1 queda 1entonces hipótesis
1 determinado nula de
destacar que esta hipótesisexp nula H0: RR
log(  =) 1 zcoincide
1 / 2  lahipótesis
con  H . 0: 1 = 2 depor la
muy similares cuando el tamaño muestral es grande.a No n1 obstante,
c n 2 si la muestra es
no efecto H0:  = 1 puede contrastarse frente a la hipótesis alternativa bilateral H1:  
comparación
Notar que pordetratarseproporciones
de una en dos muestras
medida de efectoindependientes,
1 1 1 así
multiplicativa, el como condela confianza
1 intervalo hipótesis no es
moderada
1Notar o
mediante
simétrico que pequeña, el
el estadístico
alrededor
por valor
de la de
tratarse exp P de
log(
estimación
una este
medida test
RRpuntual puede
) dez1efecto
RR.
/2 resultar algo impreciso,
  la hipótesis
Asimismo,
multiplicativa,  .intervalo
el en cuyo
nulade nocaso
efecto H0:
deconfianza
 2 a n c n 
nula
ψ = 1de independencia
puede contrastarsedel test ala de
frente Pearson
hipótesis en una tabla
alternativa
1
22. H
bilateral
2
Este test es, por tanto, 2un
1: ψ ≠ 1 mediante el estadístico
es preferible utilizar los contrates basados en la diferencia de proporciones o el test 
no es simétrico alrededor de la estimaciónlog( RR) RR. Asimismo, la hipótesis nula de
puntual
procedimiento
Notar que por alternativo
tratarse de para z  delaefecto
unacontrastar
medida mismamultiplicativa,
hipótesis, nula,elque arroja resultados
intervalo de confianza
de no
Pearson.
efecto H0:  = 1 puede contrastarse frente 1 1 1 1
a la hipótesis alternativa bilateral H1:  
 
muy nosimilares
es simétrico cuando el tamaño
alrededor de lamuestral aes grande.
estimación npuntual
1 c No n 2obstante,
RR. Asimismo, si lalamuestra esnula de
hipótesis
que1 bajo
mediante
H0 sigue
Ejemplo
el estadístico
7.12 aproximadamente
Retomando una distribución
de este
nuevo delnormal estandarizada. Conviene la destacar
moderada
no efectoo pequeña,
H :  = 1elpuede P de
valor contrastarse testlos
frente
datosresultar
puede a la
NHANES
hipótesis
II presentados
algoalternativa
impreciso, en cuyo
bilateral
encaso
H 1:   de
que esta hipótesis nula H : ψ = 1 coincide con la hipótesis H : π = π de la comparación
0
0 0 1 2
proporciones en dos
Tabla 7.2, muestras
el IClos independientes,
al contrates
95% para el log(en asíRR
log(
) resultacomo
) con la hipótesis nula de independencia
ser 2
es preferible
1 mediante utilizar
el estadístico basados
z la diferencia ,de proporciones o el test 
del test χ de Pearson en una tabla 2×2. Este
 2
test
1 1 1 1 es, por tanto, un procedimiento alternativo para
contrastar la misma hipótesis nula, que arroja  resultados
 muy similares cuando el tamaño 21
de Pearson. a 1n1 c 1 n 2 1
1 muestra
muestral es grande. No obstante, si la
log(1,51)  z 0,975 z   log(es moderada
RR
 )  o pequeña, el valor P de este test
puede resultar algo impreciso, en cuyo 254 caso 2.713
es 309 4,utilizar
preferible .999 los contrastes basados en la
1 1 1 1
diferencia de proporciones o el test   
χ 2 de Pearson.
Ejemplo 7.12 Retomando de nuevo alos datos
n cdel nNHANES II presentados en la
= 0,415 1 1,960,081 2
= (0,256; 0,574).
Ejemplo
Tabla 7.2,7.12  Retomando
el IC al 95% para eldelog( nuevo los datos
) resulta ser del NHANES II presentados en la
Tabla 7.2, el IC al 95% para el log(ψ) resulta
Aplicando la exponencial a ambos límites del intervalo, ser el IC al 95% para  21

1 1 1 1
por1,51)  z 0,975
vendría dadolog(   
254 2.713 309 4.999 21
= 0,415
(exp{0,256},  1,960,081
exp{0,574}) = (0,256;
= (1,29; 1,78), 0,574).
Aplicando la exponencial a ambos límites del intervalo, el IC al 95% para ψ vendría dado por
que es ligeramente
Aplicando asimétrico
la exponencial respecto
a ambos
(exp{0,256},
a ladel
límites estimación
exp{0,574}) intervalo, el IC alRR
puntual
= (1,29; 1,78),
= 1,51.
95% para El

que es ligeramente asimétrico respecto a la estimación puntual RR = 1,51. El estadístico


estadístico
vendría porel contraste de la hipótesis de no efecto H0:  = 1 es
para
dado
para el contraste de la hipótesis de no efecto H0: ψ = 1 es
log(1,51)
z(exp{0,256},
= exp{0,574}) = (1,29; =1,78),
5,11,
1 1 1 1
  
que es ligeramente asimétrico 254 respecto
2.713 a la309 4.999 puntual RR = 1,51. El
estimación
que corresponde a un valor P bilateral 2P(Z ≥ 5,11) = 2{1 – Φ(5,11)} < 0,001. Como cabía
estadístico
esperar, estepara
test el
que corresponde a contraste
arroja Pdebilateral
la hipótesis
un resultado
un valor 2P(Zde no
significativo efecto
dado
5,11) que
= H :- 
el0valor
2{1 = nulo
1 es ψ<=0,001.
(5,11)} 1 queda fuera de
los límites del intervalo de confianza. Así, se concluye que los sujetos con niveles de colesterol
total
Como superiores a 6,20este
cabía esperar, mmol/l
test presentanun1un
arrojalog( ,5151%
resultado
) (IC al 95% 29-78%;
significativo dadoPque< 0,001) más riesgo
el valor
z = = 5,11,
de morir por enfermedad cardiovascular que quienes tienen niveles inferiores a este umbral.
1 1 1 1
   22
254 2.713 309 4.999
110 Pastor-Barriuso R.

que corresponde a un valor P bilateral 2P(Z  5,11) = 2{1 - (5,11)} < 0,001.
,
medirse
7.6.2 Odds ratio la probabilidad P(D|E)
mediante P( D c de
| Eque
) un sujeto de la población expuesta
vendría dada por
presente o desarrolle
La frecuencia de una dicha enfermedad.
enfermedad D en una Otrapoblación
medida de frecuencia
expuesta
Medidas adeun de la
factor
efecto en enfermedad
unaEtabla
suele
de contingencia
que se conoce como el odds de estar enfermo P( D | E ) entre los expuestos y puede estimarse
vendría ,
medirse dada
mediantepor la probabilidad P(D|E) P( D c de | Eque ) un sujeto de la población expuesta
mediante
7.6.2  Odds ratio
presente o desarrolle dicha enfermedad.POtra ( D | medida
E) de frecuencia de la enfermedad
que se conoce como el odds
La frecuencia de una enfermedad D ena /unade estar enfermo entre
n1( Dpoblación
ca
,
los expuestos
expuesta ya puede un factor estimarse
E suele medirse
P  | .E )
vendría dada por
mediante la probabilidad P(D|E) de quebun / nsujeto
1 b de la población expuesta presente o desarrolle
mediante
dicha enfermedad. Otra medida de frecuencia de la enfermedad vendría dada por
que se conoce como el odds de estar enfermo P( D | Eentre ) los expuestos y puede estimarse
a / n1 por ca
,
Ejemplo 7.13 La proporción de muertes P ( D | .E enfermedad
) cardiovascular entre los
mediante b / n1 b
que se conoce como el odds de estar enfermo entre los expuestos y puede estimarse mediante
participantes del NHANES II con niveles de colesterol total  6,20 mmol/l es
que se conoce como el odds de estar enfermo a / n1 entre a los expuestos y puede estimarse
 .
Ejemplo 7.13porLa proporción deconmuertesb / n1poraltos b de colesterol
medianteesto es, cada 10 sujetos a niveles 254 enfermedad cardiovascular
que no fallezcan entre los
por
  0,094 ;
Ejemplo n1de muertes
2.713 por enfermedad cardiovascular entre los
esto es,7.13 
participantes
enfermedad pordel La
NHANESproporción
cardiovascular,
cada 10 sujetosII con habrá
con niveles de
aproximadamente
niveles altos colesterol
de colesterol total
1 muerteque 6,20no
por mmol/l
dicha es
fallezcan causa
por a
participantes del NHANES II con a
niveles/ n 1 deacolesterol total ≥ 6,20 mmol/l es
Ejemplo 7.13 La proporción de muertespor. enfermedad cardiovascular entre los
es decir,
los 15aproximadamente 1 dehabrá
cada 11 1sujetos b con niveles altosambas de colesterol
enfermedadaños de seguimiento.
cardiovascular, a baproximadamente
Aunque / nla
254 interpretación 1difiere,
muerte por medidas
dicha causade a
participantes del NHANES IIn con  niveles  0de ,094 ;
colesterol total  6,20 mmol/l es
fallecerá 2.713
es,por
porenfermedad cardiovascular laa interpretación
los 15deaños dedifiere,
seguimiento. Por otraporde
1
frecuencia
esto
los 15 años facilitan
cada
de 10 la
seguimiento. misma
sujetos con información.
Aunqueniveles altos colesterol queambasno fallezcan
medidas
es decir,
Ejemplo aproximadamente
7.13 La proporción 1 dede cada 11 sujetos
muertes con nivelescardiovascular
por enfermedad altos de colesterol entrefallecerá
los
parte,
por el odds
enfermedad de morir por
cardiovascular enfermedad
a a
los 15 254
cardiovascular
años de entre
seguimiento. estos Por sujetos
otra es
parte, el odds
es decir, aproximadamente
enfermedad
frecuencia cardiovascular,
facilitan la misma1 dehabrá
cada 11
 sujetos
aproximadamente
información.  0con ,094niveles
; 1 muerte altos por de colesterol
dicha causa a de
Departicipantes
morirforma equivalente,
por enfermedad el odds II
cardiovasculardecon n
estar
1 entre 2 . 713
enfermo estos entre
sujetos loses no expuestos se define
del NHANES niveles de colesterol total  6,20 mmol/l es
fallecerá
los 15 por
añosenfermedad
de seguimiento. cardiovascular
Aunque
a 254 laa los 15
interpretación años de seguimiento.
difiere, ambas Por otra
medidas de
como
Dees forma equivalente, el odds de  enfermo
estar  0,103 ; los no expuestos se define
entre
decir, aproximadamente 1 bde cada 11 sujetos con niveles altos de colesterol
parte, el odds facilitan
de morir la por enfermedad a2.459 254
cardiovascular
frecuencia misma información.
  0,094 ; entre estos sujetos es
comoestofallecerá
es, por cada 10 sujetos con
por enfermedad cardiovascular niveles
n altos
2 . 713 de colesterol que no fallezcan por enfermedad
1
P( D | Ea )los 15 años de seguimiento. Por otra
c 23
cardiovascular, habrá aproximadamente 1 muerte , por dicha causa a los 15 años de
a P254 c
| E 0c ,)103
seguimiento.
De parte, Aunque
formaelequivalente,
odds de lael interpretación
morir odds
por  ( Denfermo
de estar
enfermedad difiere, ambas ; los
entre medidas
no de frecuencia
expuestos esfacilitan la
se define
es decir, aproximadamente 1 bde cada
misma información. P
2.(459D11 | Ecardiovascular
sujetos
c
) con nivelesentre estos
altos sujetos
de colesterol
,
como P( D c | E c )
y el odds ratio opor
fallecerá razón de odds entre
enfermedad expuestos
cardiovascular 254ayentre no15
los expuestos
años de queda seguimiento. entonces Por otra 23
De forma equivalente, el odds de estaraenfermo   0,103 ; los no expuestos se define como
b 2.459c
ydeterminado
el odds
parte, elpor
ratio o razón
odds de demorirodds porentre expuestos
enfermedad y) no expuestos
P( D | Ecardiovascular queda
entre estosentonces
sujetos es
,
P( D | E )c c
23
determinado por c c c
P( D | E ) / P( D
y el odds ratio o razónde= odds entre expuestos a | E254 ) P( D | E ) Pqueda (D | E )
 yc no  expuestos
0,103 ; entonces
, determinado por
P ( D | E
y el odds ratio o razón de odds entre expuestos
c
) / P ( b
D c
| 2
E . 459
) P ( D c
| E
y no expuestos cqueda ) P ( D | E c
) entonces
P( D | E ) / P( D c | E ) P( D | E ) P( D | E c )
= c c c
 c c
, 23
determinado
cuya estimación por puntualP( D | E ) / P ( D | E ) P( D | E ) P( D | E )
cuya estimación puntual
cuya estimación puntual P( D | E ) / P ( D c
(a / |nE1 )( ) d / nP2()D | ad E ) P( D c | E c )
= OR = c c  c ,
P( D | E c ) / P( D | E )
(b / n1 )(c / n 2 ) bc P ( D | E ) P ( D | E c
)
(a / n1 )(d / n 2 ) ad
coincide con la razón del productoOR =
cruzado de las celdas de una tabla 2×2.
cuya estimación puntual (b / n1 )(c / n 2 ) bc
coincide
Al conellariesgo
igual que razón relativo,
del producto el odds cruzado
ratio es deuna las celdas
medidadedeuna efecto tabla 22.
multiplicativa que toma
valores no negativos. Si ω = 1, las probabilidades de enfermar en expuestos y no expuestos
Al igual
coincide
coinciden conque
P(D|E) elP(D|E
la=razón riesgo c relativo,
del), producto
indicando elcruzado
odds
(a / nratio
1 )(ded las/esn 2una) medida
celdas ad de una detablaefecto 22. multiplicativa
OR = independencia entre  exposición y enfermedad. Si por el
contrario ω > 1, la probabilidad de contraer (b / nla1 )(enfermedad
c / n 2 ) bcserá mayor en expuestos que en no
queAltoma
expuestos; igual valores
que elque
mientras no negativos.
riesgo < 1, Si
si ωrelativo, la el  odds
= 1, las
probabilidad ratio probabilidades
esdeuna medidadede
desarrollar laenfermar en expuestos
efecto multiplicativa
enfermedad será menor y en
expuestos que en no expuestos. Resulta sencillo probar que el odds ratio estará siempre más
c
coincide
tomacon
no expuestos
que lacoinciden
valores razón delP(D|E)
producto
no negativos. cruzado
= P(D|E
Si de
= 1, ),lasindicando las celdas
probabilidades de de
unaenfermar
independencia tablaentre22. enexposición
expuestos yy

no Al igual que
enfermedad.
expuestos Si el
porriesgo relativo,
el contrario
coinciden P(D|E) el odds
=P(D|E
> 1, lac),probabilidad
ratio es unaindependencia
indicando medida de efecto
de contraer multiplicativa
laentre
enfermedad seráy R.
exposición
Pastor-Barriuso 111

que toma
en valores
enfermedad.
mayor noelque
Si por
expuestos negativos.
contrario  > 1,
Si = la
1, probabilidad
en no expuestos; las probabilidades
mientras  de enfermar
quedesicontraer
< 1, en expuestos
lalaprobabilidad
enfermedad será y
de
254  4.690
OR = = 1,57.
Inferencia sobre proporciones 2.459  309
y no expuestos, de tal forma que P(Dc|E) y P(Dc|Ec) estén próximas a 1, el odds ratio
Por tanto, el odds de mortalidad por enfermedad cardiovascular es un 57%
será entonces
alejado del valor aproximadamente igualrelativo.
nulo 1 que el riesgo al riesgo relativo.si la probabilidad de enfermar es baja en
Además,
los sujetos superior
expuestosen los sujetos
y no con niveles
expuestos, de colesterol
de tal forma que P(Dtotal
c
|E) ysuperiores a 6,20próximas
P(Dc|Ec) estén mmol/l que
a 1, el
odds ratio será entonces
Ejemplo 7.14 Acon aproximadamente
partir de datos igual alenriesgo
observados relativo.
el estudio
en aquellos niveles inferiores a 6,20 mmol/l. Este NHANES
odds ratio II
es(Tabla 7.2),
ligeramente
Ejemplo 7.14  A partir
la estimación deodds
los datos observados en el estudio NHANES II (Tabla 7.2), la
mayor que puntual
el riesgodel
relativo ratio
RR =es1,51 estimado en el Ejemplo 7.10, aunque la
estimación puntual del odds ratio es
diferencia no es muy grande porque 254 la4.incidencia
690 acumulada es relativamente baja
OR = = 1,57.
2.459  309
tanto en expuestos 254/2.713 = 0,094 como en no expuestos 309/4.999 = 0,062.
Por tanto, el odds de mortalidad por enfermedad cardiovascular es un 57% superior en los
sujetos conelniveles
Por tanto, odds dedemortalidad
colesterol total superiores a cardiovascular
por enfermedad 6,20 mmol/l queesen unaquellos
57% con niveles
inferiores
De la propia a 6,20 mmol/l.
definición de Este odds obvio
, resulta ratio esqueligeramente
el odds ratiomayor
puedeque el riesgo
estimarse relativo
a partir
RR
superior
= 1,51enestimado
los sujetos
en con niveles 7.10,
el Ejemplo de colesterol
aunque la total superiores
diferencia a 6,20
no es muymmol/l
grande que
porque la
de estudios prospectivos y transversales, ya que ambos diseños facilitan estimaciones como
incidencia acumulada es relativamente baja tanto en expuestos 254/2.713 = 0,094 de
aquellos
en no con niveles
expuestos 309/4.999inferiores
= 0,062.a 6,20 mmol/l. Este odds ratio es ligeramente
las probabilidades de enfermar P(D|E) y P(D|Ec). Aplicando la definición de
Demayor que definición
la propia el riesgo relativo RR = 1,51
de ω, resulta obvioestimado
que el en el Ejemplo
odds 7.10,estimarse
ratio puede aunque laa partir de
estudios prospectivos
probabilidad y transversales,
condicional (ver Tema 2), ya elque
odds ambos diseñosexpresarse
ratio puede facilitan aestimaciones
su vez en de las
diferencia de
probabilidades no es muy grande
enfermar porque
P(D|E) la incidencia
y P(D|E c acumulada
). Aplicando es relativamente
la definición baja
de probabilidad
condicional
términos (ver
de laTema 2), el odds
probabilidad de ratio
estarpuede expresarse
expuesto a su vez
en enfermos enenfermos
y no términos de la probabilidad
como
tanto
de estar en expuestos
expuesto 254/2.713
en enfermos y no = 0,094 como
enfermos comoen no expuestos 309/4.999 = 0,062.
P( D | E ) P( D c | E c ) P( D  E ) P( D c  E c )
 
De la propia definición Pde( Dc, |resulta
E ) P ( Dobvio
| E c )quePel
( Dodds
c
 Eratio
) P(puede
D  Eestimarse
c
) a partir

( E | D) P( E c ya
de estudios prospectivos yPtransversales,
c
| D que) ambos diseños facilitan estimaciones de
 ,
P( E | D c ) P( E c | D)
las probabilidades de enfermar P(D|E) y P(D|Ec). Aplicando la definición de
de donde se desprende
estimación queodds
puntual del el odds ratio
ratio en es también
estudios estimable a partir
retrospectivos de estudios
coincide retrospectivos,
con la razón del
aundecuando
dondeestos
probabilidad se diseños (ver
desprende
condicional no
quefacilitan
el odds2),
Tema información
ratio es también
el odds alguna
ratio sobre
estimable
puede las probabilidades
a partir
expresarse devez
a su en absolutas de
estudios
enfermar en cruzado
producto expuestos y no expuestos. Por supuesto, la estimación puntual del odds ratio en
estudios
términos retrospectivos
retrospectivos, coincide
aun cuando
de la probabilidad condiseños
deestos
estar la razónnodel
expuesto producto
enfacilitan
enfermos cruzado
información alguna
y no enfermos sobre las
como

probabilidades absolutas de enfermar (a / mexpuestos


1 )( d / m 2 )y no ad
OR =c en c  expuestos.
. Por supuesto, la
P( D | E ) P( D | E ( b )m 2 P
/ )( (cD/ m (D c  E c )
1 )E ) Pbc
 
P( D c | E ) P( D | E c ) P( D c  E ) P( D  E c )
Los estudios retrospectivos suelen conducirse en enfermedades de baja incidencia, para las
cualesLos
la obtención de un
P( Enúmero
estudios retrospectivos suficiente
| D) Psuelen
(E c
) de casos
| Dconducirse
c en requeriría
enfermedadesde estudios incidencia, 25con
de baja prospectivos
gran tamaño muestral  y amplio c seguimiento.
c
, En tales circunstancias, si la incidencia de la
enfermedad P ( E
es bajalayobtención| D
el diseño de ) P
delun( E
estudio| D ) retrospectivo
para las cuales número suficientes es de adecuado (esto es,
casos requeriría decasos incidentes
estudios
y controles representativos del nivel de exposición en la población libre de enfermedad), el
odds ratioseconstituye
de prospectivos
donde con gran
desprende una
que buena
tamaño aproximación
el oddsmuestral
ratio es ytambién
amplioal riesgo relativo
seguimiento.
estimable subyacente.
En
a partirtales En adelante,
circunstancias,
de estudios si el
odds ratio se utilizará e interpretará como estimación del riesgo relativo, asumiendo que se
cumplen las condiciones
la incidencia
retrospectivos, de la
aun cuandocitadas
estos anteriormente.
enfermedad es baja no
diseños y elfacilitan
diseño información
del estudio retrospectivo
alguna sobrees lasadecuado

(esto es, casos


probabilidades
Ejemplo incidentes
absolutas
7.15  En de y controles
enfermar
el estudio enrepresentativos
expuestos
EURAMIC y no del
se obtuvo nivel
expuestos.
una dePor
exposición
muestra de casosenincidentes
supuesto, lala de
infarto de miocardio procedentes de las unidades de cuidados intensivos y una muestra
población
aleatorialibre de enfermedad),
de controles el oddsaratio
seleccionados constituye
partir una buena
de la población aproximación
de referencia. al
El número de
casos y controles con valores de colesterol HDL superiores o inferiores a 0,90 mmol/l 25 se
riesgo relativo
presenta subyacente.
en la En adelante,
Tabla 7.3. Aunque el odds
el diseño ratio se utilizará
retrospectivo e interpretará
del estudio no permitecomoconocer la

112 estimación
Pastor-Barriuso R. del riesgo relativo, asumiendo que se cumplen las condiciones citadas

anteriormente.
retrospectivo
población dedelhombres
estudio no permite
adultos, esteconocer la incidencia
odds ratio de infartoscomo
puede interpretarse entreunlosriesgo
con un colesterol HDL inferior a 0,90 mmol/l (100(0,58 - 1) = -42%).
sujetos
Como con
layvalores
relativo altos
concluir
incidencia deylos
que bajos
infarto de
sujetoscolesterol
agudo HDL, síes
condeunmiocardio
colesterol es
HDLposible
Medidas obtener
superior
de efecto
relativamente enauna
0,90
bajaunammol/l
tabla
en de contingencia
la
El odds
medida
presentanratio un
población es
relativade una
de
42% lamedida
hombresasociación
menos de efecto
riesgo
adultos, de multiplicativa
entre
este el colesterol
padecer
odds un puede
ratio cuya
HDL
infarto ydedistribución
elmiocardio
riesgo de
interpretarse muestral
infarto
que
como dees
aquellos
un riesgo
incidencia de infartos entre los sujetos con valores altos y bajos de colesterol HDL, sí es
notablemente
miocardio
con
posible un
relativo asimétrica
mediante
colesterol
obtener el(Figura
HDLodds
una medida
y concluir que los 7.2(c)),
ratio
inferior a 0,90
relativa
sujetos demientras
con lammol/l que
asociación
un suentre
colesterol transformación
(100(0,58HDLel - superior
1)colesterol
= -42%).alogarítmica
HDLmmol/l
0,90 y el riesgo
de infarto de miocardio mediante el odds ratio
log(OR) tiende aun
presentan distribuirse
42% menos normalmente
riesgo de (Figuraun
padecer 7.2(d))
infartocon deuna varianza
miocardio que aquellos
269  158
El odds ratio es una medida deOR efecto
= multiplicativa = 0,58.cuya distribución muestral es
aproximadamente igual HDL
a la suma de los 381  193 de las frecuencias de una tabla 22
inversos
con un colesterol inferior a 0,90 mmol/l (100(0,58 - 1) = -42%).
notablemente asimétricade(Figura
Como la incidencia infarto7.2(c)),
agudo de mientras
miocardio que essu relativamente
transformaciónbaja logarítmica
en la población
de hombres adultos, este odds ratio puede interpretarse 1 1 1 1 como un riesgo relativo y concluir
log(OR)
que tiende
los
El odds ratioaes
sujetos distribuirse
con
una un normalmente
var{log(OR)}
colesterol
medida (Figura
HDLmultiplicativa
de efecto superior 7.2(d))

a 0,90cuyacon
mmol/l unapresentan
varianza
. distribución un 42%
muestral esmenos
riesgo de padecer un infarto de miocardioa queb aquellos c d con un colesterol HDL26 inferior
aproximadamente
a 0,90 mmol/l
notablemente igual a(Figura
(100(0,58
asimétrica la –suma de los inversos
1) =7.2(c)),
–42%). mientrasde quelassufrecuencias
transformación de una tabla 22
logarítmica
Utilizando esta aproximación normal a la distribución muestral del log(OR) y
log(OR)
El odds tiende
ratio aesdistribuirse
una medida normalmente
de efecto(Figura 1 1 7.2(d)) 1 1con
multiplicativa cuya unadistribución
varianza muestral es
deshaciendoasimétrica
notablemente a continuación
(Figura var{log(OR)}
la 7.2(c)),
transformación  
mientraslogarítmica,  .
se obtiene ellogarítmica
que su transformación intervalo delog(OR)
a b c d
aproximadamente igual a la suma de los inversos de las
tiende a distribuirse normalmente (Figura 7.2(d)) con una varianza aproximadamente frecuencias de una tabla 22igual a la
confianza
suma al 100(1de
de los inversos - las
)%frecuencias
para el oddsderatio tabla 2×2 
una subyacente
Utilizando esta aproximación normal a la distribución muestral del log(OR) y
1 1 1 1
var{log(OR)}     .
deshaciendo a continuación  transformaciónalogarítmica, 1 b 1 c 1 dse1 obtiene
explalog( OR)  z1 / 2    , el intervalo de
Utilizando esta aproximación normal  a la distribución a bmuestral c d del log(OR) y deshaciendo a
confianza
Utilizandoal
continuación 100(1
laesta - )% para
transformación
aproximación el odds aratio
logarítmica,
normal subyacente
lasedistribución 
obtiene el intervalo
muestral de log(OR) yal 100(1 – α)%
delconfianza
para el odds ratio subyacente ω
que no es simétrico alrededor de la estimación puntual OR. De forma análoga, la
deshaciendo a continuación la transformación logarítmica, se obtiene el intervalo de
Ejemplo 7.16 Continuando  con el ejemplo anterior, 1 1 el1 IC 1al95% para el odds
significación estadística exp log(OR) bilateral
del contraste  z1 / 2 de la    nula  , H0:  = 1 se obtiene
confianza al 100(1 - )% para  el odds ratio subyacente a bhipótesisc d 
ratio de infarto agudo de miocardio entre los sujetos con niveles altos y bajos de
quea no es simétrico
partir alrededor de la estimación puntual OR. De forma análoga, la significación
del estadístico
quecolesterol
no es
estadística delsimétrico
contraste
HDL es alrededor estimación
bilateral de la hipótesis nula1 H0:1ωOR.
puntual =11 seDe forma análoga,
1 obtiene a partir del la estadístico
explog(OR)  z1 / 2    ,
log(ORa) b c d 
significación estadística del contraste z  bilateral de la hipótesis , nula H0:  = 1 se obtiene
 11  1 1 1  11 1 
exp log(0,58)  z 0,975   
aqueEjemplo
partir
no es 7.16 Continuando
delsimétrico
estadístico con el 269 a b381
ejemplo c 193 d OR.
anterior, el158
ICDe al 95% para el odds
 alrededor de la estimación puntual  forma análoga, la
que bajo H0 sigue aproximadamente una distribución normal estandarizada.
ratio de infarto
significación agudodel
estadística de miocardio
contraste entre losdesujetos
bilateral con niveles Haltos
:  =y 1bajos de
se obtiene
que bajo H0 sigue aproximadamente una distribución
= exp(-0,55log(OR ) la hipótesis nula
normal=estandarizada.
 1,960,134) (0,44; 00,75).
z ,
Ejemplo
colesterol 7.16 
HDL Continuando
es con el 1ejemplo 1 1anterior,1 el IC al 95% para el odds ratio de
a partir
infartodel estadístico
agudo de miocardio entreuna 
losconfianza
sujetos  
Por tanto, puede afirmarse con a b con cdelniveles
d95% que altoslos y bajos decon
sujetos colesterol
nivelesHDL es
 1 log( 1OR) 56% 1  riesgo de padecer un
1 menos
altos de colesterol
log(HDL
0,58)tienen
 z 0,975zentre
expaproximadamente unaun 25 y un
 
, estandarizada.
que bajo H0 sigue 269 distribución normal 27
 1 1381 1 193 1 158 
  
infarto de miocardio que quienes tienen
= exp( niveles
a0,55 más
d bajos=(100(0,75
b  c1,960,134) - 1) = -25% y
(0,44; 0,75).

100(0,44
Por tanto, -puede
1) = -56%). Asimismo,
afirmarse con una el contrastedelbilateral
confianza 95% que delos
la hipótesis de niveles
sujetos con no altos de
que bajo H0 sigue aproximadamente una distribución normal estandarizada.
colesterol HDL tienen entre un 25 y un 56% menos riesgo de padecer un infarto de miocardio
Por tanto,
efecto H0: puede afirmarse el
 tienen
= 1 mediante con una confianza del 95% que los sujetos con niveles 27
estadístico
que quienes niveles más bajos (100(0,75 – 1) = –25% y 100(0,44 – 1) = –56%).
Asimismo, el contraste bilateral de la hipótesis de no efecto H0: ω = 1 mediante el estadístico
altos de colesterol HDL tienen entre un 25 y un 56% menos riesgo de padecer un
log(0,58)
z= = − 4,10
infarto de miocardio que quienes1 tienen1 niveles
1 más
1 bajos (100(0,75 - 1) = -25% y 27
  
269 381 193 158
100(0,44 - 1) = -56%). Asimismo, el contraste bilateral de la hipótesis de no

arroja
efecto un
H0:resultado muy significativo
 = 1 mediante P = 2P(Z  -4,10) = 2{1 - (4,10)} <Pastor-Barriuso
el estadístico 0,001. R. 113

Notar que este test es equivalente al contraste de hipótesis realizado en el Ejemplo


log(0,58)
Inferencia sobre proporciones

arroja un resultado muy significativo P = 2P(Z ≤ –4,10) = 2{1 – Φ(4,10)} < 0,001. Notar
que este test es equivalente al contraste de hipótesis realizado en el Ejemplo 7.5 sobre la
igualdad en la proporción de sujetos con niveles bajos de colesterol HDL entre los casos
de infarto y los sujetos libres de la enfermedad, de tal forma que los valores P resultantes
de ambos procedimientos son virtualmente idénticos.

7.7  COMPARACIÓN DE PROPORCIONES EN DOS MUESTRAS DEPENDIENTES

Hasta este punto se han presentado distintos métodos para la comparación de proporciones a
partir de muestras independientes. Con cierta frecuencia, sin embargo, suelen emplearse
muestras dependientes, que surgen tanto de observaciones tomadas en los mismos sujetos como
en distintos sujetos emparejados de acuerdo a determinados factores pronósticos. En el Apartado
6.4 del tema anterior, se presentaron diversos diseños o mecanismos de generación de datos
dependientes. En general, el propósito de los diseños emparejados es aumentar la precisión de
las comparaciones y, en mayor medida, mejorar la validez de las inferencias al controlar por
posibles factores de confusión. En este apartado se aborda el tratamiento estadístico de datos
binarios o dicotómicos procedentes de parejas dependientes.
La muestra consiste en n parejas dependientes o correlacionadas, donde cada pareja está
compuesta por dos observaciones de una variable dicotómica procedentes de distintas poblaciones.
Así, por ejemplo, en comparaciones antes y después de un tratamiento, cada pareja de datos está
constituida por la respuesta en un mismo sujeto antes y después de dicho tratamiento. Igualmente,
en un estudio de casos y controles emparejados, cada pareja de observaciones está formada por
la presencia o ausencia de exposición en cada caso y su correspondiente control. Para simplificar
la presentación, nos centraremos en adelante en un estudio de casos y controles emparejados.
Para preservar el emparejamiento muestral, la unidad de análisis será cada pareja y no cada
individuo. Así, la organización de los datos por individuo mediante la Tabla 7.1 no resulta adecuada
ya que se pierde la información relativa al emparejamiento. La forma apropiada de presentar los
datos se muestra en la Tabla 7.6. Cada unidad de esta tabla representa una pareja, de tal forma que
hay a parejas donde ambos caso y control están expuestos al factor de riesgo, b parejas donde el
caso está expuesto y el control no, c parejas donde el control está expuesto y el caso no, y d parejas
donde ninguno está expuesto. Las a + d parejas donde ambos o ninguno de los miembros están
expuestos se denominan parejas concordantes, mientras las restantes b + c parejas son discordantes.

Ejemplo 7.17  En el Ejemplo 6.12 se seleccionaron 50 casos de infarto de miocardio y 50


controles del estudio EURAMIC emparejados por grupos quinquenales de edad. A partir de sus
valores del colesterol HDL (Tabla 6.1), se desprende que hay 23 parejas donde el caso de infarto
y su correspondiente control presentan niveles altos de colesterol HDL (superior a 0,90 mmol/l),
6 parejas donde el caso tiene un nivel alto y el control bajo, 17 parejas donde el caso tiene un
nivel bajo y el control alto, y 4 parejas donde ambos presentan niveles bajos de colesterol HDL.
Los datos de este estudio de casos y controles emparejados se resumen en la Tabla 7.7.

Tabla 7.6  Tabla de contingencia en un estudio de casos


y controles emparejados.
Controles
Casos Expuestos No expuestos Total
Expuestos a b a+b
No expuestos c d c+d
Total a+c b+d n

114 Pastor-Barriuso R.
[Tabla 7.7 aproximadamente
Comparación deaquí]
proporciones en dos muestras dependientes

Con objeto de evaluar la asociación entre exposición y enfermedad controlando por


Tabla 7.7   Colesterol HDL en 50 casos de infarto de miocardio y 50
controles del estudio EURAMIC emparejados por grupos quinquenales
aquellos factores de confusión utilizados en el emparejamiento, cada caso ha de ser
de edad.
comparado con su correspondiente control; esControles
decir, las comparaciones deben estar
donde la última igualdad refleja su relación con el odds ratio subyacente . Despejando
Casos HDL > 0,90 mmol/l HDL ≤ 0,90 mmol/l Total
condicionadas
HDL
a cada pareja. Por ello,23los pares concordantes,6donde ambos miembros
> 0,90 mmol/l 29
 de esta expresión, se tiene que
HDL ≤ 0,90 mmol/l 17 4 21
están o Total
no expuestos, no aportan información
40 sobre la asociación
10 a estudio y,50
en

consecuencia, el análisis estadístico se limita   a las. parejas discordantes. La probabilidad
1
Con objeto de evaluar la asociación entre exposición y enfermedad controlando por aquellos
factores de confusión
de observar utilizados
una pareja en elexpuesto
con el caso emparejamiento,
y el control cadanocaso ha de viene
expuesto ser comparado
dada por con su
Como la probabilidad
correspondiente control; es puede
decir, estimarse mediante deben
las comparaciones la proporción observada b/(b
estar condicionadas + c) pareja.
a cada de
c c
PorP(E|D)P(E
ello, los pares concordantes,
|D ), mientras que ladonde ambos de
probabilidad miembros
obtener una están o nocon
pareja expuestos,
el controlno aportan
parejas discordantes
información donde el acaso
sobre la asociación está y,
estudio expuesto, la estimación
en consecuencia, puntualestadístico
el análisis del odds ratio de a
se limita
c c
lasexpuesto
parejas discordantes. La probabilidad
y el caso no expuesto es P(E|Dde )P(Eobservar
|D). Así, unadado
pareja
que con
una el casoesexpuesto y el
pareja
dondenolaexpuesto
enfermar
control última igualdad
entre expuestos
viene dadarefleja
y nopor suP(E|D)P(E
relación
expuestos es con
c
|Dcel
), odds ratioque
mientras subyacente . Despejando
la probabilidad de obtener
unadiscordante,
pareja con la el probabilidad
control expuestode quey el el caso
casoesté expuesto es P(E|D )P(E |D). Así, dado que
no expuesto c c

 de esta expresión, se tiene que


una pareja es discordante, la probabilidad b /(b  de c) quebel/(bcaso  c)estéb expuesto es
OR =   ,
donde la última  igualdad refleja Psu
1(Erelación
b| D
/(b) P )c | D
(cEcon cel/(codds
)b  cratio
) c subyacente  . Despejando
   ,
P( E | D) P( E | D )  P ( E | D
c c
. ) P( E | D)   1
c c

1

que
donde delaesta
coincideexpresión,
última con
igualdad se refleja
la razóntiene que
entre
suambos
relación tipos
condeelpares
oddsdiscordantes.
ratio subyacente Si elω.
número de
Despejando ω de
esta expresión, se tiene que
parejas probabilidadb con
Como ladiscordantes puede estimarse
el caso expuestomediante la proporción
es superior de parejasb/(b + c) de
al númeroobservada
 .
parejas discordantes 1  
discordantes c con eldonde
controlelexpuesto,
caso está el
expuesto,
odds ratio la estimación
será mayor puntual
de 1 y ladel odds ratio de
exposición
Como la probabilidad π puede estimarse mediante la proporción observada b/(b + c) de parejas 30
enfermar
discordantes
Como
estará entre
dondeexpuestos
el caso
la probabilidad
directamente y no
 está
puede
asociada conexpuestos
expuesto,
estimarse es
la estimación
mediante
la enfermedad; lapuntual delsiodds
proporción
mientras que es ratio
bobservada deb/(b
inferior enfermar
a c,+elc) deentre
expuestos y no expuestos es
odds ratio
parejas será menordonde
discordantes de 1 yellacaso
exposición
bestá c)estaráb inversamente
expuesto,
/(b   c) b asociada
labestimación
/( conodds
puntual del la ratio de
OR =   ,
1  b /(b  c) c /(b  c) c
enfermedad.
enfermar entre expuestos y no expuestos es
que coincide con la razón entre ambos tipos de pares discordantes. Si el número de parejas
queAlcoincide
igualbque
discordantes conenel
con lamuestras
caso independientes,
razónexpuesto
entre ambos tipos el log(OR)
 c) de al
bes/(bsuperior pares también se Si
b discordantes.
b /(númeroc) deb parejas
distribuye
el númerode de
discordantes forma
c con el
control expuesto, el odds ratioOR será= mayor de 1 y la  exposiciónestará
1  b /(dependientes,
b  c) c /(b con c) media
c
, directamente asociada con
aproximadamente
parejas discordantes
la enfermedad; mientrasnormal conen
bque sielbmuestras
caso expuesto
es inferior eselsuperior
a c, odds ratioal número deparejas
será log(
menor ) ydevarianza
1 y la exposición
estará inversamente asociada con la enfermedad.
discordantes
aproximada
que ccon
coincide1/b con elrazón
+la1/c. control expuesto,
El intervalo
entre ambos el odds
de confianza
tipos de ratio será
al 100(1
pares mayor
discordantes.de Si
- )% para 1 el
yella exposición
odds ratiode
número
Al igual que en muestras independientes, el log(OR) también se distribuye de forma
estará directamente
aproximadamente
subyacente
parejas normal
 resulta
discordantes asociada
en el con
casolaexpuesto
conmuestras
bentonces enfermedad;
dependientes, mientras
con
es superiormedia que si byde
log(ω)
al número esvarianza
parejas a c, el
inferioraproximada 1/b
+ 1/c. El intervalo de confianza al 100(1 – α)% para el odds ratio subyacente ω resulta entonces
odds ratio será
discordantes menor
c con de 1 y la
el control exposición
expuesto, estará
el odds inversamente
ratio será mayorasociada
de 1 y la con la
exposición
 1 1 
explog(OR)  z1 / 2  .
enfermedad.
estará directamente asociada conla enfermedad; mientras b c que si b es inferior a c, el

Alratio
odds igual quemenor
en muestrasy independientes, el log(OR) tambiénasociada
se distribuye lade forma
Ejemploserá
7.18  Endela 1Tabla
la exposición estará
7.7 se tienen inversamente
6 parejas discordantes con sólo
donde el caso de
infarto tiene7.18
Ejemplo un nivel
En la alto
Tabla de7.7
colesterol
se tienenHDL y 17discordantes
6 parejas parejas discordantes
donde sólodonde sólo el
el caso
aproximadamente
enfermedad. normal en muestras dependientes, con media log( ) y varianza
de infarto tiene un nivel alto de colesterol HDL y 17 parejas discordantes donde
aproximada 1/b en
Al igual que + 1/c. El intervalo
muestras de confianza
independientes, el log(OR) - )% para
al 100(1también el odds ratio
se distribuye de forma R.
Pastor-Barriuso 115

subyacente  resulta
aproximadamente normal en muestras dependientes, con media log() y varianza
entonces
sólo el control presenta un nivel alto, de lo cual se deduce que la estimación
Inferencia sobre proporciones
sólo el control
puntual del oddspresenta
ratio es un nivel alto, de lo cual se deduce que la estimación

puntual del odds un


control presenta ratio es alto, de lo cual se deduce que la estimación puntual del odds
nivel 6
ratio es OR = = 0,35,
17
6
OR = = 0,35,
17
y su IC al 95%
y su IC al 95%
y su IC al 95%
 1 1
explog(0,35)  z 0,975  
 6 17 
1 1
 z 0,975
explog(0,35=)exp( 1,04 1,960,475)
 = (0,14; 0,90).
 6 17 
Por tanto, el riesgo de infarto agudo de miocardio es inferior en un 65% (IC al 95%
10-86%) = exp(-1,04  1,960,475) = > (0,14; 0,90). respecto a aquellos
Por tanto, en los sujetos
el riesgo con niveles
de infarto agudo de de colesterol
miocardioHDL 0,90enmmol/l
es inferior un 65% (IC al
con niveles ≤ 0,90 mmol/l. La conclusión de este estudio emparejado es consistente con
la obtenida
Por tanto, elenriesgo
los Ejemplos
infarto7.15 y 7.16 en la muestra completa eunindependiente
65% (IC al de casos
95% 1086%) en losdesujetos agudo
con de miocardio
niveles es inferior
de colesterol HDL >en 0,90 mmol/l
y controles del estudio EURAMIC. Aunque esta estimación de efecto es más imprecisa
por disponer
95% 1086%) únicamente
en los de 50 parejas, será menos propensa a0,90
posibles sesgos derivados
respecto a aquellos consujetos
nivelescon niveles
 0,90 de colesterol
mmol/l. HDL >de
La conclusión estemmol/l
estudio
de la diferencia de edad entre casos y controles.
2
respecto a aquellos con niveles  0,90 b  c La conclusión de este estudio
mmol/l.
emparejado es consistente con la 2obtenida  b  en los Ejemplos 7.15 y 7.16 en la
El método más extendido 2 {bpara
 Econtrastar
(b)}  la hipótesis
2  nula (b de
 cindependencia
)2 entre exposición
y enfermedad en un
 =
estudio emparejado
  .
b de
emparejado
muestra es consistente
completa con
var(
e independiente deconsiste
b) la obtenida b en
casos en
los comparar
Ejemplos
yccontroles b del la
7.15frecuencia
 c estudio y 7.16 enobservada
EURAMIC. la
pares discordantes donde el caso está expuesto4con su frecuencia esperada bajo la hipótesis
nula. Aunque
Si no hubiera
muestra completa
esta asociación deentre
e independiente
estimación efecto exposición
esdemás
casos yy enfermedad,
controles
imprecisa delesta frecuencia
estudio
por disponer EURAMIC.
únicamente esperada
de sería
simplemente la mitad del número total de parejas discordantes (b + c)/2, con lo cual el estadístico
Bajocontraste
del la
50 hipótesis
Aunque viene
parejas,estanula
será de no efecto,
determinado
estimación
menos depor este
efecto
propensa estadístico
es siguederivados
más imprecisa
a posibles sesgos aproximadamente
por disponer una de
de la únicamente
diferencia de
2
distribución chi-cuadrado conpropensa
1 grado adeposibles  sesgos
libertad, b  c  permite obtener el valor P
50 parejas,
edad entre será menos
casos y controles. 2  b  lo que derivados de la diferencia de
2 {b  E (b)}  2  (b  c) 2
 =   . 2
como edad
la probabilidad
entre casosaylacontroles.
derechavar( delbestadístico
) b 2 en
c la distribución
bc  1 . Este
El método más extendido para contrastar la hipótesis 4 nula de independencia entre
contraste
Bajo se conoce como el test de McNemar y se aplica cuando la varianzauna de bdistribución
bajo
El la
exposición
hipótesis
método másnula
y enfermedad
de no
extendido
en un
efecto,
para este estadístico
contrastar
estudio la hipótesis
emparejado
sigue
consiste
aproximadamente
nula endecomparar
independencia entre
la frecuencia
chi-cuadrado con 1 grado
Bajo la hipótesis nula dedeno libertad,
efecto, loesteque permite obtener
estadístico el valor P como la
sigue aproximadamente unaprobabilidad
la hipótesis nula es var(b) = (b  2 + c)(1 - ) = (b + c)/4  2  5; es decir, cuando el número
a la derechay del
exposición estadístico χ en la distribución χ consiste 1 . Este contraste se conoce como el test
observada b deenfermedad en un
pares discordantes estudio
dondeemparejado
el caso está expuesto encon
comparar la frecuencia
su frecuencia
de distribución
McNemar ychi-cuadrado
se aplica cuando
con 1 la varianza
grado de b bajo
de libertad, lo quela hipótesis nula eselvar(b)
permite obtener = (b + c)
valor P
de parejas discordantes
π(1 – π) = b(bde+pares
c)/4 ≥ es superior
5; es decir,donde o igual
cuando a 20.
el número de parejas
observada
esperada discordantes
bajo la hipótesis nula. Si no hubiera el caso está expuesto
asociación con discordantes
su frecuencia
entre exposición
es superior o
y enfermedad,
igual a 20. 2
como la probabilidad a la derecha del estadístico  en la distribución  1 . Este 2

esperada
esta bajo laesperada
frecuencia
Ejemplo hipótesis
7.19 nula.
sería Si del
no hubiera
simplemente
El estadístico test de asociación
la McNemar
mitad enentre
del número exposición
total7.7
la Tabla de toma y enfermedad,
parejas el valor
contraste
Ejemplo se 7.19 
conoceElcomo el test del
estadístico de McNemar
test de McNemar y se aplica en lacuando
Tabla 7.7la varianza de b bajo
toma el valor
esta frecuencia
discordantes (b +esperada
c)/2, consería
lo cualsimplemente
el estadístico la mitad del número
del2 contraste vienetotal de parejas por
determinado
la hipótesis nula es var(b) = (b + c)2=(1(-6)17 = )(b += c)/45,26. 5; es decir, cuando el número
discordantes (b + c)/2, con lo cual el estadístico 6  17del contraste viene determinado por
de Aparejas
partir discordantes es superior
de la distribución o igual acon
chi-cuadrado 20.1 grado de libertad (Tabla 6 del Apéndice),
A partircomprobarse
puede de la distribución que chi-cuadrado con 1está
este estadístico gradocomprendido
de libertad (Tabla
entre6 del
los percentiles
χ 1 Ejemplo
 2
 ;0,975 = 5,02 y χEl1  ;0,99
7.19
 2
= 6,63, de
estadístico dello cual se tiene queen0,01 < P <7.7
0,025. Así, el riesgo de
Apéndice),
infarto puede
agudo comprobarse
de miocardio quetest
difiere este deestadístico
McNemar
significativamente
la Tabla
está entre
comprendido toma ellos
entre
los sujetos con
valor
niveles
32 de
colesterol HDL superiores e inferiores a 0,90 mmol/l.
percentiles  12;0,975 = 5,02 y  12;0,99 2= 6,63, (6 de
17lo) 2 cual se tiene que 0,01 < P < 32
 = = 5,26.
6  17
0,025. Así, el riesgo de infarto agudo de miocardio difiere significativamente
116 Pastor-Barriuso R.
A partir de la distribución chi-cuadrado con 1 grado de libertad (Tabla 6 del
entre los sujetos con niveles de colesterol HDL superiores e inferiores a 0,90
Apéndice), puede comprobarse que este estadístico está comprendido entre los
siguen
CE: CORRECCIÓN PORargumentos similares a los descritos en este apartado y pueden consultarse en los
CONTINUIDAD
libros de análisis de datos categóricos referenciados en este tema.Apéndice: corrección por continuidad
ice se derivan las versiones con corrección
cada paciente que conformaporun
continuidad del intervalo
grupo de emparejamiento). Estas generalizaciones
7.8
y del test de hipótesis APÉNDICE:
para
siguen una proporción
argumentos CORRECCIÓNpoblacional
similares . Si kCONTINUIDAD
POR
a los descritos es
en el número
este apartado y pueden consultarse en los
La inferencia sobre proporciones puede extenderse a estudios donde se empareja más de un
eventos en una sujeto
muestra
En
poraleatoria
libros
este
muestra de
deapéndice
(por
análisis se de
ejemplo,
datos n,
tamaño
derivan
unintervalo
el estudio dedecasos
categóricos
las versiones referenciados
con
y controles
confianza
corrección enaleste por
donde cada caso está emparejado
tema.
continuidad del intervalo
con múltiples controles, o un ensayo clínico donde cada paciente que recibe un nuevo tratamiento
está emparejado
para  vendrá determinado con
por aquellos varios pacientes
valores bajo
( inf, para tratamiento estándar), así como a estudios donde se
de confianza y del test de hipótesis sup) unaque proporción
verifiquen poblacional . Si k es el número
comparan más de dosCORRECCIÓN
7.8 APÉNDICE: muestras dependientes (por ejemplo, un ensayo clínico donde se asignan
POR CONTINUIDAD
aleatoriamente distintos tratamientos a cada paciente que conforma un grupo de emparejamiento).
observado
 k | de= eventos
P(Xgeneralizaciones
Estas en
/2, unaargumentos
inf) = siguen muestra aleatoria similares de atamaño n, el intervalo
los descritos en este de confianza
apartado al
y pueden
En este apéndice
consultarse en los librosse derivan
de análisislas versiones con corrección
de datos categóricos por continuidad
referenciados en estedel intervalo
tema.
100(1 -  )% para 
P(X  k |  =  sup) = /2, vendrá determinado por aquellos valores (  inf ,  sup ) que verifiquen
de confianza y del test de hipótesis para una proporción poblacional . Si k es el número
7.8  APÉNDICE: CORRECCIÓN POR CONTINUIDAD
a distribución binomial de parámetros y una
n en . Como P(X k |  = en
se discutió  infel) = /2,
En observado
este apéndicede eventos
se derivan lasmuestra
versiones aleatoria de tamaño por
con corrección n, elcontinuidad
intervalo de del confianza al de
intervalo
confianza y del test de hipótesis para P(X una proporción =  sup)poblacional
k | aproximarse = /2, π. Si k es el número observado
2, si n(1 - )  5,100(1
estas probabilidades
-  )% para  binomiales
vendrá pueden
determinado por aquellos valores ( infconfianza
,  sup) quealverifiquen
de eventos en una muestra aleatoria de tamaño n, el intervalo de 100(1 – α)%
para π vendrá determinado por aquellos valores (πinf, π sup) que verifiquen
istribución normaldonde X es unaZdistribución
estandarizada como binomial de parámetros n y . Como se discutió en el
P(X  k |  =  inf) = /2,
Apartado 3.3.2,k si n/2(1-n)  5, P(X  k |  =  sup) = /2,
 1  estas probabilidades binomiales pueden aproximarse
P(X  k |  =  inf)  P Z   = /2,
inf
donde X es una  distribución
n  (1 binomial
 )  de parámetros n y π. Como se discutió en el Apartado 3.3.2,
mediante  la distribución
inf inf 
normal estandarizada Z como aproximarse mediante la distribución
si nπ(1 – π) ≥ 5, estas probabilidades binomiales pueden
donde X es una distribución
normal estandarizada Z como binomial de parámetros n y . Como se discutió en el
 k  1 / 2  n sup 
 3.3.2,   n inf  pueden aproximarse
P(X  k |  = Apartado
sup)  P Z

 siP(X n(1 -k|)=5,estas P  Z  k  1 / 2binomiales
= )/2.probabilidades = /2,
 n sup (1   sup )  inf
 n  (1   ) 
 inf inf 
mediante la distribución normal estandarizada Z como
 k  1 / 2  n sup 
érmino 1/2 de la corrección por continuidad P(X  k | se  =añade
 sup)aambas P Z expresiones = /2.
 n (1   ) 
 sup sup 
 k  1 / 2  n inf 
P(X  k |  =  inf)  P Z 
incluir la probabilidad de observar exactamente k eventos. Para = /2,
Notar que el término 1/2 de la corrección k  1 / 2 por  ncontinuidad
inf n inf (1  se )  a ambas expresiones con
 infañade
 = z1-/2,
objeto de incluir
s cálculos, las desviaciones típicasladeprobabilidad
estas distribuciones de observar
np (1normales
 p ) exactamente
se k eventos. Para simplificar los
cálculos, las desviaciones típicas de estas distribuciones normalesañade
Notar que el término 1/2 de la corrección por continuidad se a ambaspor
se sustituyen expresiones
la estimación
 k  1 / 2  n sup  
la estimación np p) , dedeloincluir
(1 objeto cual k |  = que
P(Xseladeduce ksup)1/de2P  Z = /2.
con probabilidad  n sup n=exactamente
observar
sup1-(
-z 1/2.  sup )k eventos. Para

k np 1 / (21   np) inf = z
simplificar los cálculos, las desviaciones 1/2,
np(1 típicasp) de estas distribuciones normales se
Notar que el término 1/2 de la corrección por continuidad se añade a ambas expresiones
Finalmente,
sustituyen por despejando
la estimación  inf y npksup( 1se/p2obtiene
1,  n lo
) , de supel intervalo
cual de confianza al 100(1 - )%
=  zse deduce
1/2.
que
con objeto de incluir la probabilidadnpde(1observar  p) exactamente k eventos. Para
para  34
Finalmente, despejando π inf y π sup, se obtiene el intervalo de distribuciones
simplificar los cálculos, las desviaciones típicas de estas confianza al 100(1 normales
– α)% separa π
Finalmente, despejando  inf y  sup, se obtiene p(1 el
 pintervalo
) 1  de confianza al 100(1 - )%
sustituyen por la estimación pnp  (1z1p/)2 , de lo cual se deduce . que
 n 2n 
para  34
Este intervalo de confianza difiere de la versión sin corrección presentada en el Apartado 7.2 en
que ambos límites del
Este intervalo deintervalo
confianzasedifiere
amplían deen la una cantidad
versión 1/(2n) inversamente
sin corrección presentadaproporcional
en el al
tamaño muestral. La utilización de esta p (1  p ) 1 
p  z1corrección se fundamenta
  . en el hecho de aproximar una
límites del 2n  encontinua.
 / 2
distribución
Apartado binomial
7.2 en quediscreta
ambosmediante una intervalo n se amplían
distribución normal Cuanto
una cantidad menor sea el
1/(2n)
tamaño muestral, más imprecisa será la aproximación normal y, en consecuencia, la corrección 34por
inversamente proporcional al tamaño muestral. La utilización de esta corrección se
Este intervalo de confianza difiere de la versión sin corrección presentada en el
fundamenta en el hecho de aproximar una distribución binomial discreta mediante una R.
Pastor-Barriuso 117
Apartado 7.2 en que ambos límites del intervalo se amplían en una cantidad 1/(2n)
distribución normal continua. Cuanto menor sea el tamaño muestral, más imprecisa será
inversamente proporcional al tamaño muestral. La utilización de esta corrección se
la aproximación normal y, en consecuencia, la corrección por continuidad 1/(2n) ha de

ser mayor. Por el contrario, si el tamaño muestral es grande, la distribución binomial


Inferencia sobre proporciones
 k  n 0  1 / 2 
P = 2P(X  k | H0)  2 P Z 
estará muy próxima a la normal, por lo que  la corrección  0 )  será insignificante.
n 0 (1  1/(2n)

continuidad 1/(2n) ha de
P para el ser mayor. bilateral
Por el contrario, si el tamaño
nulamuestral
H0:  =  es grande, la distribución
El valor contraste de la hipótesis 0 puede obtenerse a
binomial estará muy próxima a la normal, por lo  que la corrección
n 0  k  1 / 2 1/(2n) será insignificante.
= 2 P Z  ,
partir
El de Plapara
valor aproximación
el contrastenormal a lade
bilateral la hipótesis
distribución nbinomial
nula
0 (1 H )π = π0 puede obtenerse a partir
0:0como
de la aproximación normal a la distribución binomial como

si p  0. Combinando ambos  k  n 0  1 / 2 


P = 2P(X resultados,
 k | H0)setiene 2 P Zque  el valor P corresponde , al doble de
 k nn0 (011/ 02)  
la probabilidad normal P = 2P(X  k | aHla0) derecha
estandarizada  2 PZdel  test estadístico
 n 0 (1   0 ) 
si la proporción observada p > π0, o alternativamente  como
si la proporción observada p > 0, o alternativamente como
 1 
P = 2P(X  k | H 0)  2 P| p
 Z nk0| 0nk0  11// 22 
| k  n 0 | 1 = / 22 P Z  n 2(n1   )  ,
z   0 . 0 
n 0 (1   0 )   0 (1 n00()1   0 ) 
 nn 0  k  1 / 2 
= 2 P Z  ,
si p  0. Combinando ambos resultados, se tiene  quenel  valor
(1  P ) 
corresponde al doble de
 0 0 
El test con corrección por continuidad incorpora el término -1/(2n) en el numerador
si pla≤probabilidad
π0. Combinando normal estandarizada
ambos resultados, a lasederecha
tiene que del eltest estadístico
valor P corresponde al doble de la
probabilidad
del siestadístico,normal estandarizada
de tal formaambos
p  0. Combinando a
que elresultados, la derecha
valor P será del test
se ligeramente estadístico
tiene que el valor mayorPque el obtenido
corresponde al en el 35
doble de
1
correspondiente contraste sin corrección por | p   0(Apartado
continuidad | 7.2). Esta
la probabilidad normal estandarizada | k  n 0 a|  la1derecha
/2 del test estadístico
2n .
z 
corrección será tanto mayor cuantonmás  0 (1reducido
  0 ) seael0 (tamaño 1   0 ) muestral.
1
| p   n0 | 
| k  n 0 | 1 / 2 2n .
El Ejemplo
test con corrección por z continuidad
  el término
incorpora –1/(2n) en EURAMIC
el numerador del
7.20 En el Ejemplo 7.1 n 0se(1utilizaron
 incorpora
0)
los controles
0 (1   0 ) del estudio
estadístico, de tal forma que el valor P será ligeramente mayor que el numerador
El test con corrección por continuidad el término -1/(2n) en el obtenido en el
correspondiente contraste sin corrección por continuidad n
(Apartado 7.2). Estaadultos
corrección será
para realizar
delmayor
estadístico,
inferencias sobre la prevalencia
P será
poblacional  de hombres
tanto cuantodemástal forma
reducido quesea el valor
el tamaño ligeramente mayor que el obtenido en el
muestral.
El test
con con corrección
niveles bajos por continuidad
de colesterol HDL ( incorpora
0,90 el término
mmol/l). A -1/(2n) ense
continuación el calculan
numerador
correspondiente contraste sin corrección por continuidad
Ejemplo 7.20  En el Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC para (Apartado 7.2). Esta
delrealizar
los inferencias
estadístico,
correspondientes sobre
de tal forma
intervalosla prevalencia
que elde valor
confianza poblacional
P será ligeramente
y sea
test el π de
detamaño hombres
mayor
hipótesis que eladultos
utilizando la conenniveles
obtenido el
corrección será tanto mayor cuanto más reducido
bajos de colesterol HDL (≤ 0,90 mmol/l). A continuación se calculan los correspondientes muestral.
intervalos
correcciónde
correspondiente porconfianza
contraste
continuidad. ysintest EldeIChipótesis
corrección al 95% utilizando
porpara
continuidad
 vendría la (Apartado
corrección
dado por7.2). por continuidad.
Esta El IC
al 95% para π vendría dado por
Ejemplo 7.20 En el Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC
corrección será tanto mayor cuanto más reducido sea el tamaño muestral.
 0,293(1  0,293) 1 
para realizar inferencias
0,293   z 0,975 sobre la prevalencia  poblacional  de hombres adultos
 539 2  539 
Ejemplo 7.20 En el Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC
con niveles bajos de colesterol HDL ( 0,90 mmol/l). A continuación se calculan
= 0,293  (1,960,020 + 0,001) = (0,254; 0,333),
para realizar inferencias sobre la prevalencia poblacional  de hombres adultos
y ellos correspondientes
estadístico corregidointervalos
para el contrastede confianzabilateraly testde de hipótesis nula
la hipótesis utilizando
H0: π = la0,30 sería
y elcon niveles bajos
estadístico de colesterol
corregido para el HDL ( bilateral
1 contraste
0,90 mmol/l). A continuación
de la1 hipótesis nula H0se : calculan
=
corrección por continuidad.
| p 0 | El IC al 95% para
| 0,293  0,30 |   vendría dado por
2n de confianza y test2 de  539
0,30lossería
correspondientes
z= intervalos hipótesis
= 0,30,utilizando la
 0 (1   0 ) 0,30(1  0,30)
 0,293(1  0,293) 1 
corrección por 0,293   z 0,n975 El IC al 95% para
continuidad.   vendría
539 dado por
 539 2  539 
36
con un valor P asociado en las tablas de la distribución normal estandarizada P = 2P(Z ≥
0,30) 2{1 –PΦ(0,30)}
con un= valor asociado=  en0,293
0,293   z=0,764.
las tablas
0Como
,293 (dela0,distribución
1cabría
(1,960,020 293 )+ 0,001)
esperar,

1elnormal
intervalo confianzaPcorregido
estandarizada
=(0,254; de 0,333),
=
2  539 
0 , 975
 539
2P(Z  0,30) = 2{1 - (0,30)} = 0,764. Como cabría esperar, el intervalo de
118 Pastor-Barriuso R.
y el estadístico corregido para el contraste bilateral de la hipótesis nula H0:  =
confianza corregido por continuidad = 0,293  (1,960,020 (IC al 95%+25,433,3%)
0,001) = (0,254; 0,333),
es ligeramente más
0,30 sería
Tabla 7.8  Intervalos de confianza (IC) y tests de hipótesis con corrección por continuidad.
Tabla 7.8 Tabla 7.8 Intervalos
Intervalos de confianza
de confianza (IC) y tests(IC)
de hipótesis hipótesis
y tests decon con corrección
corrección por continuidad.
por continuidad.
IC al 100(1 – α)% Test estadístico
)%
IC al 100(1IC- al 100(1 - )% Test estadístico
Test estadístico

1 1
  p(1  p ) 1  | p   00 | | p   00 | 
muestra    2n 2 n
Una
Una muestra
muestra Una
Una muestra p(1zz11p// 22)  1 
p   z11 // 22pp    z zz 
  n 2nnn 22nn   00 (1   00 ) 00 (1   00 )
n nn

1 1 11  1 1 
| p11  p22 | | p11 p 22|    
 p(1  p ) p1 (p1 (1p1 )p ) p 2 (11  1p 2 ) 1 1  1 1  2 n n22 
Dos
DosmuestrasDos
muestrasindependientes
Dos muestras
muestras independientes
independientes
independientesp11  p 22  ppz1111 
p11 (zz111
 //pp22 22  p11 ) p11 (p122(1p11 )p22 ) p22 (11  1p22 ) 1 1 1  1 
 // 22  n         z  2  n11 n22   11
zz 
  n11 n11 n22 2nn22 n11 n22 22 nn11 nn22  1 1  1 1 
p (1  p )  p (1  p)  
 n11 n 22  n11 n 22 

2 22 2 2 2
2 2 2
22 22 (2| O 2 E
ijij
2 (|| 
ijij
O1ijij/ 2)E ijij | 1 / 2)
Test  2 de Pearson*
χ 2 de2 Pearson*
Test deTest
Pearson* ―
   2   2  

ii 11
jj 11 
ii 11  E E
jj 11 ijij
Eijij

2
( | b  c2 | 1( )| 22b  c | 1 ) 2
Test
Test de de Test de McNemar
McNemar
McNemar 
―   22  ( | b c22 | 1()| b  c | 1 )
bc bc bc
2
** La corrección
** La
La corrección corrección
por
corrección
Lapor por
continuidad
continuidad no
no se aplica no
por continuidad
continuidad
se aplica no
al se
test
se aplica
al testaplicade al
 22 de al test
Pearson
test 
Pearson de
en
 2en Pearson
tablas de en
Pearson
detablas de en tablas
contingencia
tablas de
de contingencia
contingencia contingencia
mayores
mayores de mayores
22.
mayores de
de 22. de 22.
22.
*  La corrección por continuidad no se aplica al test χ 2 de Pearson en tablas de contingencia mayores de 2×2.

Pastor-Barriuso R.
Apéndice: corrección por continuidad

119
46 46
Inferencia sobre proporciones

por continuidad (IC al 95% 25,4-33,3%) es ligeramente más amplio que su correspondiente
intervalo sin corrección (25,5-33,2%, Ejemplo 7.1), y el valor P aumenta al aplicar dicha
corrección (P = 0,764 versus 0,726, Ejemplo 7.1). No obstante, los resultados con y sin
corrección son muy similares dado que el tamaño muestral utilizado en este ejemplo es
moderadamente grande.

La corrección por continuidad también se aplica a la comparación de proporciones en muestras


independientes o dependientes y al test chi-cuadrado de asociación en una tabla 2×2, ya que estos
métodos de inferencia utilizan una distribución continua (normal o chi-cuadrado) para representar
una distribución de frecuencias discreta. Las versiones corregidas de estos procedimientos, cuya
derivación es similar al caso de una proporción, se presentan en la Tabla 7.8. En general, la
utilización de la corrección por continuidad da lugar a resultados más conservadores; esto es,
intervalos de confianza más amplios y mayores valores P de los contrastes. El principal objetivo
de esta corrección es aumentar la cobertura de los intervalos de confianza y reducir la probabilidad
de un error de tipo I en los contrastes, especialmente cuando el tamaño muestral es reducido.

7.9 REFERENCIAS

1. Agresti A. Categorical Data Analysis, Second Edition. New York: John Wiley & Sons,
2002.
2. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, Fourth
Edition. Oxford: Blackwell Science, 2001.
3. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of
Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980.
4. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The Design and
Analysis of Cohort Studies. Lyon: International Agency for Research on Cancer, 1987.
5. Collett D. Modelling Binary Data, Second Edition. London: Chapman & Hall, 2002.
6. Colton T. Estadística en Medicina. Barcelona: Salvat, 1979.
7. Fleiss JL, Levin B, Paik MC. Statistical Methods for Rates and Proportions, Third Edition.
New York: John Wiley & Sons, 2003.
8. Hennekens CH, Buring JE. Epidemiology in Medicine. Boston: Little, Brown and
Company, 1987.
9. Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic Research: Principles and
Quantitative Methods. New York: John Wiley & Sons, 1982.
10. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press,
1999.
11. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia:
Lippincott Williams & Wilkins, 2008.

120 Pastor-Barriuso R.
TEMA 8

MÉTODOS NO PARAMÉTRICOS

8.1  INTRODUCCIÓN

En los temas anteriores se han presentado distintos métodos de inferencia para datos de carácter
continuo (Tema 6) y categórico (Tema 7). Estos procedimientos se conocen como métodos
paramétricos y asumen que los datos proceden de una población cuya distribución de probabilidad
es conocida (normal o binomial), o que al menos la distribución de los estadísticos empleados
puede aproximarse mediante el teorema central del límite. Así, las inferencias se fundamentaban
en la aproximación normal a la distribución de las medias y proporciones muestrales. Aunque en
la mayoría de las ocasiones estas asunciones son razonables, pudiera ocurrir que no se cumplan
las condiciones necesarias para la realización de análisis paramétricos, especialmente cuando los
tamaños muestrales son muy reducidos. En tales circunstancias, es posible utilizar métodos
alternativos que realizan asunciones mínimas acerca de la distribución de la variable a estudio, y
que reciben colectivamente el nombre de métodos no paramétricos o de distribución libre.
Antes de proceder a la descripción de los métodos no paramétricos más utilizados, conviene apuntar
sus principales ventajas e inconvenientes. Entre las ventajas fundamentales cabe destacar que:
yy Los métodos no paramétricos son muy robustos y, en consecuencia, pueden aplicarse a
situaciones donde la utilización de pruebas paramétricas es cuestionable. Así, por ejemplo,
la comparación de medias en dos muestras independientes requiere de tamaños muestrales
suficientemente grandes para aplicar el teorema central del límite y de una varianza
homogénea en ambas poblaciones, mientras que su equivalente no paramétrico permite
contrastar globalmente la igualdad de distribuciones bajo la única asunción de que ambas
distribuciones sean continuas.
yy Como se verá más adelante, la propia naturaleza de las pruebas no paramétricas las hace
particularmente útiles para comparar variables cualitativas ordinales, cuyo tratamiento
mediante métodos paramétricos clásicos entraña problemas conceptuales ya que estas variables
carecen de interpretación numérica (ver definición de tipos de variables en el Tema 1).
Sin embargo, los métodos no paramétricos presentan una serie de limitaciones que impiden
su uso generalizado:
yy Los métodos no paramétricos se emplean casi exclusivamente para determinar la
significación estadística de la comparación entre grupos. Aunque existen procedimientos
no paramétricos para obtener estimadores de efecto e intervalos de confianza, éstos
requieren de asunciones adicionales y su aplicación es más compleja.
yy Si se cumplen las condiciones de aplicación de las pruebas paramétricas, el uso de métodos no
paramétricos es un tanto ineficiente, lo que conlleva una leve pérdida de potencia en el análisis.
Estudios de simulación bajo la asunción de normalidad han mostrado una perdida de potencia
aproximada del 5% de las pruebas no paramétricas respecto a sus equivalentes paramétricos.
yy Los métodos paramétricos pueden extenderse fácilmente al análisis multivariante de
situaciones más complejas. Aunque en la actualidad los métodos no paramétricos han
experimentado un fuerte desarrollo, su utilización es aún limitada por la mayor complejidad
y menor disponibilidad en los programas de análisis estadístico de uso rutinario.

Pastor-Barriuso R. 121
Métodos no paramétricos

En general, los métodos no paramétricos se emplean como complemento o alternativa a las


pruebas paramétricas cuando no se cumplen las condiciones mínimas para la aplicación de estas
últimas. En este tema se revisan los métodos no paramétricos de uso más frecuente, tales como
el test de la suma de rangos de Wilcoxon, el test de los rangos con signo de Wilcoxon y el test
exacto de Fisher.
la variable (empates), se asigna a cada una de ellas la media de los rangos

correspondientes.
8.2  Finalmente,
TEST(empates),
DE LA SUMA DEseRANGOS
suman los DE
rangos de una cualquiera de las dos
WILCOXON
la variable se asigna a cada una de ellas la media de los rangos
muestras, seleccionemos
En el Apartado 6.3 se tratópor ejemplo la
el problema deprimera muestra,de variables continuas en dos muestras
la comparación
correspondientes. Finalmente, se suman los rangos de una cualquiera de las dos
independientes. Si ambos tamaños muestrales n1 y n2 son suficientemente grandes para aplicar
el teorema central del límite, el test de la t den1 Student permite realizar inferencias acerca de la
muestras, seleccionemos por ejemplo la primera muestra,
U =  rSin
diferencia de medias entre ambas poblaciones. i . embargo, si la distribución subyacente dista
mucho de ser normal y las muestras son muyi =pequeñas,
1 las medias muestrales no se distribuirán
n1
de forma normal y la anterior prueba paramétrica no será aplicable. Bajo estas circunstancias,
U =  ri .
ha estadístico
El de utilizarse el equivalente
del test de Wilcoxonnose paramétrico
basa en al test de la t de Student para muestras
i =1 esta suma de rangos.
independientes, que se conoce como el test de la suma de rangos de Wilcoxon. Este procedimiento
permite contrastar globalmente la igualdad de distribuciones bajo la única asunción de que la
El estadístico
Ejemplo
variable del
8.1test
a estudio de una
tenga Wilcoxon
Supongamos queselabasa
distribución en esta
subyacente
muestra suma de nrangos.
continua.
consiste en 1 = 10 casos de infarto de

Si no se asume nada sobre la forma de la distribución, parece razonable basar el contraste en


miocardio
la variable y n2 = 10secontroles
de las(empates), asigna a seleccionados
cada yaleatoriamente
una deconsiste
ellas
nolaenmedia de del estudio
el orden
Ejemplo observaciones
8.1 Supongamos deque
ambas
la muestras
muestra en sus 10 los
n1 =verdaderosrangos
casos valores.
de infartoPara
de ello, se
combinan las dos muestras ordenando los valores de menor a mayor. A continuación, se asigna
EURAMIC.
correspondientes.
el rango LaFinalmente,
ri o posición Tabla
que 8.1 muestra
ocupa cada los los
niveles
se seleccionados
suman
observaciónrangos β-caroteno
de de
dentro una en tejido
cualquiera
de la muestra de adiposo
las dos para
combinada. Si existen
miocardio y n2 = 10 controles aleatoriamente del estudio
varias observaciones con el mismo valor de la variable (empates), se asigna a cada una de ellas
muestras,
estos
la media de20 seleccionemos
lossujetos.
rangos Al por ejemplo
menor valor delos
correspondientes. la primera
ambas
Finalmente, muestra,
muestras 0,04 μg/g se le asigna
unael
EURAMIC. La Tabla 8.1 muestra niveles deseβ-caroteno
suman losenrangos
tejidodeadiposocualquiera
para de
las dos muestras, seleccionemos por ejemplo la primera muestra,
rango20
estos 1, sujetos.
al siguiente
Al menor valorμg/g
valor 0,05 se le notorga
de ambas 1 el rango
muestras 2 y así
0,04 μg/g se sucesivamente
le asigna el
U =  ri.
i =1
hasta asignar el rangovalor
20 al0,05
mayor valorle0,57 μg/g. rango
A los dos sujetos con idéntico
rango 1, del
El estadístico al siguiente
test de Wilcoxon se μg/g
basa seen estaotorga
sumaelde 2 y así
rangos. sucesivamente
El nivel
estadístico
0,13 del test
μg/g de de Wilcoxon
β-caroteno lessecorresponden
basa en esta suma de rangos.
las posiciones 7 y 8 y,con
en idéntico
hasta
Ejemploasignar
8.1 el Supongamos
rango 20 al mayor que la valor 0,57 μg/g.
muestra A los
consiste endosn1 sujetos
= 10 casos de infarto de
miocardio y n = 10 controles seleccionados aleatoriamente
consecuencia, 2se asigna el rango medio (7 + 8)/2 = 7,5 a ambas observaciones.del estudio EURAMIC. La
nivel
Tabla 0,13 μg/g
8.1 muestra
Ejemplo de β-caroteno
los nivelesque
8.1 Supongamos les corresponden
de la
β-caroteno las posiciones
en tejidoenadiposo
muestra consiste 7 y
n1 = 10para 8 y, en
casosestos 20 sujetos.
de infarto de Al
menor valor de ambas muestras 0,04
Así, la suma de rangos en los casos de infarto esμg/g se le asigna el rango 1, al siguiente valor 0,05
consecuencia,
μg/g se
se le otorga
miocardio asigna
y n2el=rango el rango medio (7
2 y así sucesivamente
10 controles + 8)/2 = 7,5 a ambas observaciones.
hasta asignar eldel
seleccionados aleatoriamente rango 20 al mayor valor
estudio
0,57 μg/g. A los dos sujetos con idéntico nivel 0,13 μg/g de β-caroteno les corresponden
Así, la suma de7La
las EURAMIC.
posiciones rangos
y 8Tabla en8.1
y, en los
10
casos de infarto
consecuencia, es el β-caroteno
 muestra
ri = 1 +los9 se asigna
+niveles
... + 19de rango medio
= 96,5 en(7tejido
+ 8)/2 = 7,5 apara
adiposo ambas
observaciones. Así, la sumai =1de rangos en los casos de infarto es
estos 20 sujetos. Al menor 10 valor de ambas muestras 0,04 μg/g se le asigna el

y en los controles
i =1
ri = 1 + 9 + ... + 19 = 96,5
rango 1, al siguiente valor 0,05 μg/g se le otorga el rango 2 y así sucesivamente
y en los controles
y enhasta
los controles 10
asignar el rango 20 al
 r j mayor
= 13 +valor + 6 μg/g.
2 + ...0,57 A los dos sujetos con idéntico
= 113,5.
j =1

nivel
Notar que la μg/g
0,13 de β-caroteno
elección entre una les
10 corresponden
u otra las posiciones
suma de rangos 7 y 8 y,
es arbitraria. Laensuma total de
rangos en ambas muestras es
r j = 13 + 2 + ... + 6 = 113,5.
(n + n
Notar que la elección entrej =1una1u otra )(n
2 suma
1 + n 2de rangos es irrelevante. Latal
+ 1)/2 = 20⋅21/2 = 210, de forma que una
suma
vezconsecuencia, se asigna
calculada la suma el rango
de rangos 96,5medio
en la(7primera
+ 8)/2 =muestra,
7,5 a ambas observaciones.
la otra queda determinada
por 210 – 96,5 = 113,5.
total de rangos en ambas muestras es (n1 + n2)(n1 + n2 + 1)/2 = 20⋅21/2 = 210, de
Notar
Así,que la elección
la suma entreen
de rangos una
losucasos
otra suma de rangos
de infarto es es irrelevante. La suma
122 tal forma
Pastor-Barriuso que una vez calculada la suma de rangos 96,5 en la primera muestra, la
R.
total de rangos en ambas muestras
10 es (n1 + n2)(n1 + n2 + 1)/2 = 20⋅21/2 = 210, de
otra queda determinada por 210 r = 1 + 9 + ... + 19 = 96,5
- i96,5 = 113,5.
tal forma que una vez calculada la suma de rangos 96,5 en la primera muestra, la
i =1
Test de la suma de rangos de Wilcoxon

Tabla 8.1 β-caroteno


Tabla en tejidoenadiposo
8.1 β-caroteno en 10 casos
tejido adiposo en 10decasos
infarto
de de miocardio
infarto y 10 y 10
de miocardio
Tabla 8.1  β-caroteno en tejido adiposo en 10 casos de infarto de
controles seleccionados
controles yaleatoriamente
seleccionados
miocardio aleatoriamente
10 controles del
8.1estudio
[Tablaseleccionados EURAMIC.
aproximadamente
del estudio aquí] del estudio
EURAMIC.
aleatoriamente
EURAMIC.
Caso Caso ControlControl
El objetivo es contrastar Casosi las distribuciones F1 y F2 en Control ambas poblaciones son
[Tablaβ-caroteno (μg/g) (μg/g)aquí]
β-caroteno
8.1 aproximadamente
β-caroteno (μg/g)
RangoRango (r i)
Rango (r ) β-caroteno
(r ) i
(μg/g) (μg/g)
β-caroteno
β-caroteno (μg/g)
Rango (r
Rango (rj) j
)
Rango (rj)
iguales H0: F1 = F2 frente a la hipótesisi alternativa bilateral H1: F1 ≠ F2. Bajo esta
0,04 1 0,25 13
0,04 0,04 1 1 0,25 0,25 13 13
s contrastar si las distribuciones
hipótesis nula,
0,14 0,14 F la y0,14
F
suma ende ambas
rangos9 9
poblaciones
esperada enson
la primera 0,05muestra
0,05 0,05 sería 2
igual 2 a la suma
1 2 9 2
0,20 0,20 0,20 11
11[Tabla118.1 aproximadamente 0,36
0,36 0,36 aquí] 17 17 17
total dealternativa
= F2 frente a la hipótesis rangos 0,08
0,08 porbilateral
la proporción
0,08 H1:3F1 ≠ deFsujetos
323. Bajo en estadicha0,09muestra,
0,09 0,09 44 4
0,21 0,21 0,21 12[Tabla 128.1 aproximadamente
12 0,33 aquí]
0,33 0,33 1616 16
a suma de rangos esperadaEl objetivo es
en la primera contrastar
0,10 muestra si las distribuciones F1 y0,37F2 en ambas poblaciones son
0,10 0,10 (n1 + 5nsería 5igual
5 a la suma
2 )( n1 + n 2 + 1) n1 0,37n1 (0,37n1 + n 2 + 1) 1818 18
0,28 0,28 E(U)
0,28 = 14 14
14 0,13= 0,13
0,13 . 7,5
7,5 7,5
por la proporción de El objetivo
iguales
sujetos H en : F es
dicha= contrastar
F frente
muestra, asi
la las 2
distribuciones
hipótesis n1F+1 nybilateral
alternativa 2F en ambas
H 2: F1poblaciones
≠ F . Bajo son
esta
0,29 0,29
0 1 2
0,29 15 15
15 0,17
0,17 0,17
2 1 21010 10
0,13 0,13 0,13 [Tabla7,5
7,5 8.1 aproximadamente
7,5 0,57 aquí]
0,57 0,57 2020 20
iguales
hipótesis H :
nula,F =
la F
sumafrente
de a la
rangos hipótesis
esperada alternativa
en la bilateral
primera H
muestra : F ≠ F . Bajo
0,12 muestra,6 6el valorsuma
sería igual a esta
la
(n1 + n 2 )(Por n 2 0,48
n1 +tanto, ) u denota
+ 1si n0,48 0,48 la (n1 +19de
n1suma n 2 rangos ) observada en
19 0,12
la primera 6
0 1 2 1 1 2
1 + 119 0,12
E(U) = =10 .
2 Elde
total objetivo
hipótesis rangos
nula,n1 es
+la
porncontrastar si102las por
2 la proporción
suma de rangos distribuciones
de sujetos
esperada Fprimera
enladicha
en F2 en
1 y muestra, ambas
muestra
10
sería
10
poblaciones
igual son
exacto de P vendría  
determinado
ri = 96,5 r i = 96,5 la probabilidad bajo H 0 de  una
obtener
r j = 113,5 r j asuma
=la113,5
suma
de
i =1 i =1 j =1 j =1
iguales
total de H0: Fo1más
rangos =
porF2distante
lafrente a la muestra,
proporción hipótesis
de que elalternativa
sujetos en dicha bilateralu;Hes : F1 ≠ F2. Bajo esta
rangos
enota la suma de rangos tanto
observada en la (n1 de
primera + nE(U) elvalor
2 )( n1 + n 2 + 1)
valor n1 muestra,
observado n1 (n1 1+ ndecir,
2 + 1)
E(U) = = .
hipótesis nula,es la suma 2 n + n 2
El objetivo bajo de
contrastar rangos
H(n0sidelas esperada
distribuciones en laFde primera
y F en muestra
ambassería igual a lason
poblaciones suma iguales
1 2
dría determinado por la probabilidad obtener
1 + n 2 )( n P 1=+unan 2 +suma
2P(U 1≥) u |n1H1 0), 2 n1 (n1 + n 2 + 1)
E(U)
H0: F1 = F2 frente a la hipótesis alternativa bilateral H1: F1 ≠ F2. Bajo esta hipótesis nula, la suma
= = .
más distante de E(U) total
de rangos
Por deelesperada
tanto,
que rangos por
si u denota
valor observado proporción
en la primera
la sumau; esmuestra
de de2 sujetos
rangos
decir, sería en ndicha
igual
observada 1 + n 2muestra, 2
a la
ensuma total de
la primera rangos el
muestra, porvalor
la proporción
de si
sujetos
u > E(U),en dicha muestra,
o alternativamente
exacto P
Por tanto, si u denotadeterminado
de vendría la suma por
n1 +lanprobabilidad
(n1 + nde2 )(rangos observada
2 + 1) n1 enbajo H0 1de
la nprimera
1 (n + obtener
nmuestra,
2 + 1)
una suma de
el valor
P = 2P(U ≥ u | HE(U) 0), = = .
2 = 2P(U ≤ nu1 | +Hn0),2
P 2
rangos
exacto de tanto o más distante
P vendría determinado de E(U) porque el valor observado
la probabilidad bajo Hu; 0 deesobtener
decir, una suma de
ternativamente Por tanto, si u denota la suma de rangos observada en la primera muestra, el valor exacto de P
Por
vendría
si u≤tanto,
rangos determinado
E(U).
tanto uo denota
si Esta más por lalasuma
probabilidad
distante dede
probabilidad
puede
E(U)rangos bajoobservada
calcularse
que H de
el valor teniendoen la primera
obtener
observado enuna suma
cuenta
u; es muestra,
debajo
que
decir, el la
rangos valor
tanto o más
hipótesis
P = 2P(U ≥0 u | H0),
distante de E(U) que el valor observado u; es decir,
P = 2P(U
exacto u | H0), determinado por la probabilidad bajo H de obtener una suma de
P≤ vendría
nula dede igualdad de distribuciones, cualquier combinación de0 rangos en la primera
P = 2P(U ≥ u | H0),
si u > E(U), o alternativamente
a probabilidad puede rangos
si umuestra
E(U), tanto
> calcularse oteniendo
más distante
eso igualmente
alternativamente probable.
en de E(U)
cuenta queque
Así, como
bajo ellavalor
elhipótesis
número observado u; es decir, de los n1 + n2
de combinaciones
si u > E(U), o alternativamente
P = 2P(U ≤ u | H0),
de distribuciones, cualquier combinación de rangos Pen=la2P(U n1 +≥n 2u| H0),
primera
si uposibles
≤ E(U). rangos tomados depuede
Esta probabilidad n1 es 
n1 en calcularse  , la probabilidad
en cuenta quebajo bajoHla0 para
P = 2P(U nteniendo
1≤ u| H0),
hipótesis nula de
si u
igualdad ≤ E(U).
de Esta
distribuciones,probabilidad
cualquier
mente probable. Así, como el número de combinaciones de los n1 + n2 puede calcularse
combinación de teniendo
rangos en
en cuenta
la primera que bajo
muestra laeshipótesis
igualmente
si u > E(U),
probable. Así, como o alternativamente
el número de combinaciones de los n1 + n2 posibles rangos tomados de n1
cualquier
si u ≤de
nula E(U). combinación
igualdadEsta de r1, ..., rpuede
probabilidad
distribuciones, n1 viene dada por
calcularse
cualquier teniendo endecuenta
combinación rangos que
enbajo la hipótesis
la primera
 n1 + n 2 
tomados de n1 en n es
en n11    , la probabilidad bajo H para
bajo H00 para cualquier combinación r1, ..., rn viene dada por
 n1  P = 2P(U ≤ u | H0), 1

muestra es igualmente
nula de igualdad de distribuciones, probable. Así, como1elcombinación
cualquier número de combinacionesde rangos en ladeprimeralos n1 + n2
.
nación r1, ..., rn1 viene  n1 + n 2 
si u ≤dada
muestra E(U).espor Esta probabilidad
igualmente probable. puede
Así, calcularse 2teniendo
 n1 +elnnúmero
como  de en cuenta que bajo
combinaciones la hipótesis
de los n1 + n2
posibles rangos tomados de n1 en n1 es  n1  , la probabilidad bajo H0 para
nula de igualdad de distribuciones,  n1 combinación
cualquier  de rangos en la primera
El cálculo 1
del valor exacto de P se ilustra en nel n2 
1 +siguiente ejemplo.
posibles rangos. tomados de n1 en n1 es   , la probabilidad bajo H0 para
El cálculo

cualquier del
n 2 valor exacto
n1 +combinación r , de
..., P
r se ilustra
viene 
dadaen n el
1por siguiente
 ejemplo.
muestra
 es igualmente probable.
1 n1
Así, como el número de combinaciones de los n1 + n2
 n 1 
cualquier combinación r1, ..., rn1 viene dada 27 27
 n1 1+porn2 
posibles rangos tomados de n1 en n1 es   ., la probabilidad bajo H0 para
alor exacto de P se ilustra en el siguiente ejemplo. n1 +n1n 2  5 R. 123
Pastor-Barriuso
 1 
 n1  .
cualquier combinación r1, ..., rn1 viene dada n1 + porn2 
 
Ejemplo 8.2 Si la distribución del β-caroteno fuera igual en los casos de infarto y
10(10 + 10 + 1)
E(U) = = 105.
en los controles libres de enfermedad, la 2suma de rangos esperada en los 10 casos
Como el valor observado de esta suma de rangos u = 96,5 es inferior al esperado,
Métodos no paramétricos
Ejemplo 8.2 Si la distribución del β-caroteno fuera igual en los casos de infarto y
de
Como infarto
el valor del
el Pvalor ejemplo
observado
se obtiene anterior sería
de esta
mediante sumaigual a
de rangos u = 96,5 es inferior al esperado,
en los controles libres de enfermedad, la suma de rangos esperada en los 10 casos
Ejemplo
el valor P8.2  Si la distribución
se obtiene mediante del10b-caroteno fuera igual en los casos de infarto y en los
controles + 10
(10 de +961) esperada en los 10 casos de infarto del
de infartolibres de enfermedad,
del ejemplo anterior
P = 2PE(U) la suma
sería igual arangos
= | H0) = 2  P=(U105.
(U ≤ 96,5 = k | H0).
ejemplo anterior sería igual a 2 k =55
96
P = 2P(U ≤ 96,5
E(U) =
10| (H 
100)+=102 + 1)P(U = k | H 0 ) .
Como el valor
Notar que observado
la suma arrancadeenesta sumamínimo
el valor de rangos
k = 55 u==105.
posible 96,5
1 + 2es+inferior
... + 10al= esperado,
55 y sólo
2
Como
el valor
Notar elPvalor
que observado
se suma
la obtiene de
enesta
mediante
arranca sumamínimo
el valor de rangos u = 96,5
posible es
2 +inferior
1 + facilitar 10alcálculos).
... + los =esperado, el valor
55 y sóloLa
toma valores enteros (se excluyen posibles empates para
Como
P el valor
se obtiene observado de esta suma de rangos u = 96,5 es inferior al esperado,
mediante
toma valores enteros
probabilidad bajo H0(se excluyen
para posibles
cualquier empates
combinación
96 depara facilitar
rangos en lalos cálculos).
primera La
muestra
el valor P se obtiene = 2P(U ≤ 96,5 | H0) = 2  P(U = k | H 0 ) .
P mediante
k = 55
probabilidad
es bajo H0 para cualquier combinación de rangos en la primera muestra
Notar que la suma arranca en el valor mínimo96posible 1 + 2 + ... + 10 = 55 y sólo toma
Notar que
valores
es la suma
enteros P = 2P(en
(se arranca
excluyen Uposibles
≤el96,5 H 0) = 2 
valor| empates
mínimo P(facilitar
U =1 k+| 2Hlos
posible
para +0 )...
. + 10 = 55
cálculos). Layprobabilidad
sólo
1 10! (20 − 10)!k =55 1
bajo H0 para cualquier combinación = de rangos en = la primera , muestra es
 20 
toma valores enteros (se excluyen 20! empates 184para
.756 facilitar los cálculos). La
 1  10posibles
! (20 − 10)! 1
Notar que la suma arranca 10 en el= valor mínimo =posible 1 +, 2 + ... + 10 = 55 y sólo
 20
probabilidad bajo H0 para cualquier  20!
combinación 184
de.756rangos en la primera muestra
 
toma valores enteros (se excluyen
 10 posibles empates para facilitar los cálculos). La
de
es lo cual se sigue que
de lo cual se sigue
probabilidad bajo Hque
0 para cualquier combinación de rangos en la primera muestra
de lo cual se sigue que
P(U = 55 | H0) = P(1, 1 2,10 3,! 4,
(205,−6,107, 1 | H0) = 1/184.756,
)! 8, 9, 10
es = = ,
P(U = 56 | H0) =P(1, 20  2, 3, 4,20 5,!6, 7, 8, 184
9, 11.756| H0) = 1/184.756,
P(U = 55 | H0) = P(1, 2, 3, 4, 5, 6, 7, 8, 9, 10 | H0) = 1/184.756,
P(U = 57 | H0) =P(1, 10  3, 4, 5, 6, 7, 8, 9, 12 | H )
1  2,10 ! (20 − 10)! 1 0
P(U = 56 | H0) =+P(1, =
2, 3, 4, 5, = ,
| H ) = 1/184.756,
P(1,
20  2, 3, 4,20 5,!6,
6,7,7,8,8,9,
10,11.11
184 756| 0H0) = 2/184.756
 
de lo cual se sigue que  10 
y así sucesivamente. ComoP(1,
P(U = 57 | H 0 ) = puede 2, 3, 8, 9, 12 | H0) resulta muy laborioso incluso
4, 5, 6,el7,procedimiento
intuirse,
para estas pequeñas muestras de tamaño 10, ya que requiere determinar el número de
P(U = con
combinaciones H0) =
55 | igual P(1, 2,
+suma de3,rangos.
4, 5, 6, 7, 8, 9,
10,10 H|H
11|múltiples
0)0)==1/184.756,
2/184.756
de lo sucesivamente.
y así cual se sigue queComo puede intuirse,Después de
el procedimiento cálculos,
resulta se tiene que
muy laborioso
96

yincluso
P(U P = 256
así sucesivamente.
para
| HP0()U= =P(1,
Como kpuede| H2,0 3, =4,2(1
5, 6,
)intuirse, 17,+
+ el 8,29,+ 11 +| H
...ya
procedimiento 0) = 1/184.756,
4.397)/184.756
resulta muydeterminar
laborioso
P(Uestas
= 55k =pequeñas
|55H0) = P(1, muestras
2, 3, 4, de tamaño
5, 6, 10,10
7, 8, 9, |H que se requiere
0) = 1/184.756,
P(U = 57 | H0) = P(1, 2,= 3,
= 97.708/184.756 4, 5, 6, 7, 8, 9, 12 | H0)
0,529.
incluso paradeestas
el número pequeñas muestras de tamaño 10, ya que se requiere determinar
P(U =combinaciones
56 | H0) = P(1,con igual
2, 3, 4, 5,suma
6, 7,de8, rangos.
9, 11 | HDespués de múltiples
0) = 1/184.756,
Aunque los casos de infarto muestran
+ P(1, 2, 3, 4, niveles
5, 6, 7, 8, inferiores
10, 11 | de H0)b-caroteno
= 2/184.756 que los controles
el númerose
cálculos, detiene
combinaciones
que con igual suma de rangos. Después de múltiples
(la suma P(U
de rangos
= 57 | H observada
0) = P(1, 2,en3,los casos
4, 5, 6, 7,es8,menor
9, 12 | queH0) la esperada), no se alcanzan
Aunque los casos
diferencias de infarto muestran
estadísticamente niveles inferiores
significativas. No obstante, de β-caroteno
dado el que los
reducido tamaño
se tiene que Como puede intuirse, el procedimiento resulta muy laborioso6
y así sucesivamente.
cálculos,
muestral, cabe esperar que la potencia
+ P(1, 2, 3, 4, 5,de6,este7, 8,contraste
10, 11 | H sea
0) =muy pequeña para detectar
2/184.756
controles
cualquier (la sumadiferencia
posible de rangos en observada
los niveles en los casos es menor
subyacentes que la esperada),
de b-caroteno entre los no
casos de
6
incluso para estas pequeñas muestras de tamaño 10, ya que se requiere determinar
infarto y los sujetos libres de la enfermedad.
y así
se sucesivamente.
alcanzan diferencias Como puede intuirse,
estadísticamente el procedimiento
significativas. resulta muy
No obstante, dadolaborioso
el
el número de combinaciones con igual suma de rangos. Después de múltiples
Para simplificar
incluso
reducido para
tamaño los cálculos
estas pequeñas
muestral, decabe
esteesperar
test, la
muestras Tabla
deque la8potencia
tamaño del
10,Apéndice
ya que sefacilita
de este losdeterminar
requiere
contraste percentiles
sea muy de la
distribución de la suma de
cálculos, se tiene que rangos de Wilcoxon bajo la hipótesis nula de igualdad de distribuciones,
cuando el la menor
número
pequeña dede
para las doscualquier
combinaciones
detectar muestras es desuma
conposible
igual tamaño inferior
de rangos.
diferencia o igualsubyacentes
en losDespués
niveles a múltiples
de 8. Para un de nivel de
significación α bilateral, la hipótesis nula se rechazará si la suma de rangos en la muestra 6 de
menorβcálculos,
tamaño es
-caroteno inferior
seentre
tienelos
que al percentil
casos α/2 oysuperior
de infarto los sujetosal percentil α/2 de dicha tabla.
libres de1la– enfermedad.
6
Para simplificar los cálculos de este test, la Tabla 8 del Apéndice facilita los

124 percentiles
Pastor-Barriusode
R. la distribución de la suma de rangos de Wilcoxon bajo la hipótesis nula

de igualdad de distribuciones, cuando la menor de las dos muestras es de tamaño


Ejemplo 8.3 En un estudio hipotético a partir de dos muestras independientes de
Test de la suma de rangos de Wilcoxon

tamaños n1 = 5 y n2 = 10, la suma de rangos en la muestra más pequeña es 23.

Ejemplo 8.3  En unbajo


Como la distribución estudio
H0 dehipotético
la suma dea rangos
partir es
de simétrica
dos muestras independientes
alrededor de E(U) de
En el cason1de
tamaños 5 y nambos
= que 2 = 10, la suma
tamaños de rangos
muestrales en la
sean muestra
superioresmás
a pequeña
8, puede es 23. Como
emplearse el la
distribución
= n1(n1 + n2 bajo H0=de5(5
+ 1)/2 la +
suma
10 +de1)/2
rangos esse
= 40, simétrica
tiene quealrededor de E(U) = n1(n1 + n2 + 1)/2
=En5(5
el +
siguiente caso
10 de que
+ 1)/2
método =ambos
40, setamaños
aproximado. tiene
Comoquemuestrales
el contrastesean
parasuperiores
la igualdada de
8, puede emplearse
distribuciones se el
En el caso
siguiente de que ambos P =tamaños2P(U ≤ 23muestrales
H0) = 2P(U
el |contraste sean
para≥superiores | H ). a 8,
57igualdad depuede emplearse el
basa en el método
rango o aproximado.
posición de las Como observaciones, resulta la lícito0 sustituir distribuciones
los valores se
En el caso de
Utilizando
siguiente que
la Tabla ambos
8 del tamaños
Apéndice muestrales
elcon n1 = 5sean n2 superiores
ypara =la10, puedea 8, depuede
comprobarse emplearse
que el seelvalor
basa en elmétodo
Utilizando
observados rango
x la
por oaproximado.
posición
Tabla
sus 8 del de
Apéndice
correspondientes
Como
las con
contraste
observaciones,
rangos n =r 5 resulta
y
en n
el =
igualdad
lícito
10, puede
estadístico sustituir
de
distribuciones
t los
comprobarse
la de valores
que
Student para
u = 57 estái comprendido entre los percentiles 1 i u0,975 2 56 y u0,99 = 58, de lo cual se deduce
siguiente
la en
basa método
desigualdad
el rango aproximado.
o0,01 < P(U
posición de≥las Como el contraste
| H0) < 0,025, que
57observaciones, para
resulta la igualdad
corresponde
lícito sustituir ade0,02
distribuciones
< 0,05.se
< Pvalores
observados
el valor
muestras ux=i por
57 sus
estácorrespondientes
independientes comprendido
con igual varianza entre rangos los(Apartado ri en
percentiles el estadístico
6.3.1), = 56dey la
u0,975 obteniéndose tlos
u0,99 de Student
= 58, de lo para
basa en el rango
observados xi poro sus
posición de las observaciones,
correspondientes rangos ri en resulta lícito sustituir
el estadístico de la tlosde valores
Student para
muestras
En el caso independientes
de que ambos con
tamaños
cual se deduce la desigualdad 0,01 < P(U igual varianza
muestrales (Apartado
sean≥ 57 superiores
| H ) 6.3.1),
< a
0,025,8, obteniéndose
puede
que emplearse
corresponde elasiguiente
método aproximado. Como el contraste para la r1 igualdad
− r2 0
de distribuciones
observados xi por sus correspondientes
muestras independientes con igual varianza z = rangos ri en el, estadístico
(Apartado de la t de Studentelpara
6.3.1), obteniéndose
se basa en rango o
posición
0,02de < Plas< 0,05.
observaciones, resulta lícito 1 1 los valores observados xi por sus
s r r1 −sustituir +r2
correspondientes rangos ri encon
muestras independientes el estadístico
igual varianza z = de lan(Apartado t denStudent , paraobteniéndose
6.3.1), muestras independientes con
r 11− r 12 7
igual varianza (Apartado 6.3.1), obteniéndose s 1 + 2
z = r n1 n 2 ,
donde la diferencia de rangos medios ess r r1 1− r+2 1
z= n1 n 2 ,
1 1
donde la diferencia de rangos medios ess r +
1 n1
1 n2
n1 n 2
r −
donde la diferencia de rangos
1 r2 = 
n1 i =medios
r i − 
n 2esjn=21
r j

donde la diferencia de rangos medios 1 n11


es 1
donde la diferenciar1 de − rrangos
2 = 
n11 in=11
n
medios
1
ri − es  r j
n12 nj (=2 1n1 + n 2 )(n1 + n 2 + 1) n1 
1 1
r1 − r2 = n 
=
 r −
rii − n  r j 2
−  ri 
n11 in=11
1 i =n 1
1 n12 nj =2(1n1 + n 2 )(n1 + n 2 + 1) i =n11 
2 
1 1 
r1 − r2 = =  r −
rii − n1 rj −  ri 
nn1111 ii=n=111 1 nn122 j =(1n1 +n1n(2n)( 1 n+21 n+2 n+21+ ) 1) in=11 
==  + ri − ri −  − ri 
nn111 n 2 ni2=n11 2 
1 in=11 1 1  (n1 +nn1 (2n)(1 n2+1 n+2n+2 1+)1) in=11 
==  n+rin −   ri − 2
 − ri 

 111i =1 12 n2in=11
n n1 (n1 + n 2 + 1) 
2 
  i =1
y, si no hay empates, la varianza =  + de los  rangos ri − en la muestra combinada es
n n 2
 11 12  in=11 n1 (n1 + n 2 + 1) 
y, si no hay empates, la = varianza
 + delos  rangosri − en la muestra combinada es
y, si no hay empates, la varianza 2 n1 de nlos 21rangos n1 + n2
en la muestra 2 
combinada es

i =1
y, si no hay empates, la varianza s r = de los rangos (ri en − rla) 2muestra combinada es
n1 + n 2 − 1 ni1=+1n2
1
y, si no hay empates, la varianza s 2
r =  (ren i − la
n1 + 1n 2 − 1 n1i+=n12  n1 + n 2 + 1combinada
de los rangos
n + n
2
r )muestra 2 es
1
1 2

s r2 == n + n − 1   (rii −− r ) 2 2 
n1 + 1n 2 − 1 n1i+=n12  n1 + n 2 + 1 2
1 2 n i =+1n
1
1 2

s r2 == (n + n )(n  (r i −− r ) 2
n111++ nn222−−111n1ii=++=1n12n2i + 1) 2

2
= n 1  n1. + n 2 + 1 
= 12   i − 
n(n1 1++nn2 2−)(1nn11i+=+n12 n2 + 1) 2
 n1 .+ n 2 + 1 
2
= 1
= 12  i − 
Sustituyendo en la expresión=anterior, n(n1 1++nn2 2−se )(1ntiene
1i =+ 1 n 2 + 1) 2 
.
Sustituyendo en la expresión anterior, se tiene 12
Sustituyendo en la expresión= anterior, (n1 + n 2 )(sen1tiene + n 2 + 1)
.
n1
n1 (n12 1 + n 2 + 1)
Sustituyendo en la expresión ri − se tiene
anterior, 2 U − E (U )
z= i =n11
n1 (n1 + n 2 + 1) = ,
Sustituyendo en la expresión nri1 n−2 (n1se+tiene
anterior, n 2 + 1)
2
SE (U )
U − E (U )
z = in=11 n1 (12 n1 + n 2 + 1) = ,
 rni 1−n 2 (n1 + n 2 + 1)
2
SE (U )
U − E (U )
z = in=11 n1 (n12 1 + n 2 + 1) = ,
 rni 1−n 2 (n1 + n 2 + 1)
2
SE (U )
U − E (U )
z = i =1 12 = , Pastor-Barriuso R. 125
n1 n 2 (n1 + n 2 + 1) SE (U ) 8
12
8
Las medidas
Las medidas
de tendencia
de tendencia
central
central
informan
informan
acercaacerca
de cuál
de es
cuál
el valor
es el valor
más representati
más represe

Métodos no paramétricos de una


dedeterminada
una determinada
variable
variable
o, dicho
o, dicho
de forma
de forma
equivalente,
equivalente,
estos estos
estimadores
estimadores
indican
ind

alrededor
alrededor
de qué devalor
qué valor
se agrupan
se agrupan
los datos
los datos
observados.
observados.
Las medidas
Las medidas
de tendencia
de tendenc
que corresponde simplemente a la suma de rangos estandarizada; es decir, la diferencia entre la
suma de rangos observada central
central
de la de
y esperada muestra
enlalamuestra
sirvensirven
primera tanto tanto
muestrapara resumir
para resumir
dividida lossuresultados
por los resultados
error observados
estándar observados
bajo comocomo
para p
la hipótesis nula de igualdad de distribuciones. Bajo H0, este estadístico seguirá aproximadamente
una distribución normalrealizar realizar
inferencias
estandarizada inferencias
si n1,acercaacerca
n2 > 8. de losdeparámetros
Notar los en
que, parámetros
poblacionales
general, poblacionales
este tamañocorrespondientes.
correspondientes.
muestral A A
es muy inferior al que se requeriría para aplicar la prueba paramétrica de la t de Student en dos
muestras independientes. continuación
continuación
se describen
se describen
los principales
los principales
estimadores
estimadores
de la de
tendencia
la tendencia
central
central
de unade

variable.
Ejemplo 8.4  A partir variable.
del estudio EURAMIC, se seleccionan 1000 muestras aleatorias
simples de n1 = 10 casos de infarto de miocardio y n2 = 10 controles. En cada una de estas
muestras, se calcula1.2.1
la diferencia
1.2.1
Media de niveles
Media
aritmética medios de b-caroteno entre casos y controles, así
aritmética
como la suma de rangos para los casos de infarto. Las Figuras 8.1(a) y (b) presentan las
La media
distribuciones muestrales Lademedia
aritmética,
aritmética,
la diferenciadenotada por xpor
dedenotada
medias se xdefine
1, – 2, y
sede
define
como como
la suma
la suma delarangos
suma
de cada U,uno
de cadadeuno
losde los
respectivamente. Como la distribución poblacional del b-caroteno es marcadamente asimétrica
(ver Figura 4.3) yvalores
las muestras
valores son muy
muestrales
muestrales pequeñas,
dividida
dividida lanúmero
por elpor diferencia
el número dedemedias
de observaciones muestrales
observaciones realizadas.se Si denotamos
realizadas. Si denota
distribuye de forma asimétrica alrededor de la diferencia subyacente μ1 – μ2 = – 0,09 mg/g, de
tal forma que no sepor npor
cumple lan condición
el tamaño
el tamaño
muestral
de y poryxipor
muestral
normalidad xi el valor
elnecesaria
valor observado
observado
para paraelel
aplicar para
testsujeto
el la
de i-ésimo,
t de i-ésimo,
sujeto i = 1,i...,
= 1,n
Student. Por el contrario, la suma de rangos sí se distribuye de forma aproximadamente normal
en torno a su valorlaesperado
media
la media
vendría vendría
en esta dada dada
por E(U)
población por = 96,9. Así, aun cuando se disponga de
muestras tan reducidas, se podría aplicar la aproximación normal al test de la suma de rangos
de Wilcoxon. 1 n 1 n x1 + xx21 ++ ... x 2++x...
n + xn
x = x = xi 
= xi = . .
n i =1 n i =1 n n
30 30
La media
La media
es la medida
es la medida
de tendencia
de tendencia
central
central
más utilizada
más utilizada
y de más
y defácil
más fácil
Frecuencia relativa (%)

25 25
1.2 MEDIDAS
1.2 MEDIDASDE TENDENCIA
DE TENDENCIA CENTRALCENTRAL
20 interpretación.
interpretación.
Corresponde
Corresponde al “centro
20 al “centro
de gravedad”
de gravedad” de losdedatoslos datos
de la demuestra.
la muestra.
Su S
Las medidas
Las medidas
de tendencia
de tendencia
centralcentral
informan
informan
acercaacerca
de cuál
dees
cuál
el valor
es el valor
más repres
más
15 15
principal
principal
limitación
limitación
es quees está
quemuyestá influenciada
muyvariable
de unadedeterminada
una determinada
influenciadapor
variable
o, dicho
los
porvalores
o, dicho
de forma
losequivalente,
valores
de forma
extremos
extremos
equivalente,
y, enestimado
estos estos
y,
este
estimadores
enin
10 10
caso, caso,
puedepuede
no sernounser
fielunalrededor
reflejo
fielalrededor
reflejo
de ladede
de qué tendencia
lavalor
valor
qué setendencia
secentral
agrupan los central
agrupan dedatos
datos
los la de
distribución.
la distribución.
observados.
observados.
Las medidas
Las medidas
de tenden
de te
5 5
centralcentral
de la muestra
de la muestra
sirvensirven
tanto tanto
para resumir
para resumir
los resultados
los resultados
observados
observados
como c
0 0
Ejemplo
Ejemplo
1.4 En
1.4este
Enrealizar
yeste
enrealizar
los
y ensucesivos
los sucesivos
inferencias
inferencias ejemplos
acercaacerca ejemplos
de losde los sobre
parámetros sobre
estimadores
parámetros estimadores
poblacionales muestrales,
poblacionales muestr
correspondientes.
correspondien
A
-0,9 -0,6 -0,3 0 0,3 0,6 50 70 90 110 130 150
continuación
continuación
se describen
se describen
los principales
los principales
estimadores
estimadores
de la tendencia
de la tendencia
centralcent
de
xutilizarán
1 − x2
utilizarán
los valores
los valores
del colesterol
del colesterol
HDL HDL
obtenidos
U obtenidos
en losen10los
primeros
10 primeros
sujetos
suje
d
variable.
variable.
estudio
(a) estudio
“European StudyStudy
“European on Antioxidants,
on Antioxidants,
Myocardial
(b) Myocardial
Infarction
Infarction
and Cancer
and Canc
of
1.2.1 1.2.1
MediaMedia
aritmética
aritmética
the Breast“
the Breast“
(EURAMIC),
(EURAMIC),
un estudio
un estudio
multicéntrico
multicéntrico
de casos
de casos
y controles
y controles
realizad
rea
Figura 8.1  Distribución muestral de la diferencia de niveles La medios
La media media de denotada
aritmética, β-caroteno
aritmética, 1 –
por xpor
denotada 2 entre casos y
, se xdefine
, se define
como como
la suma
la suma
de cada
de uno
cadadeuno
lo
controles (a) y de la suma de rangos U en los casos de infarto (b) en 1000 muestras aleatorias Figura simples
8.1 de
entre
n1 = 10 casos de infarto de miocardio y nentre
1991 1991
y 1992
y 1992
en ocho
en
valores ocho
países
valores países
muestrales Europeos
muestrales Europeos
dividida e por
dividida
por el Israel
elenúmero
número Israel
para evaluar
para evaluar
de observaciones
2 = 10 controles obtenidos a partir del estudio EURAMIC. Las líneas
de elrealizadas.
observacionesefecto
el efecto
de los
realizadas. Sid
Si deno
verticales en trazo discontinuo corresponden a los parámetros subyacentes μ1 – μ2 = – 0,09 μg/g y E(U) = 96,9.
por n por n el tamaño
el tamaño muestral y por yxi por
muestral xi el valor
el valor observado
observado
para elpara
sujeto i-ésimo,
el sujeto i-ésimo
i=1

la media
la media
vendría
vendría
dada por
dada por

1 n 1 n x1 + xx21 ++...x 2+ +x n... + x n


x = x= x i 
= xi = . .
n i =1 n i =1 n n

La media
La media
es la medida
es la medida
de tendencia
de tendencia
centralcentral
más utilizada
más utilizada
y de más
y defácil
más fáci

interpretación.
interpretación.
Corresponde
Corresponde
al “centro
al “centro
de gravedad”
de gravedad”
de losde
datos
los datos
de la muestra.
de la mu
126 Pastor-Barriuso R. principal
principal
limitación
limitación
es queesestá
quemuy
estáinfluenciada
muy influenciada
por los
por
valores
los valores
extremos
extremos
y, en

caso, caso,
puedepuede
no serno
unser
fielunreflejo
fiel reflejo
de la tendencia
de la tendencia
centralcentral
de la distribución.
de la distribución
Si se producen empates en la asignación T
de rangos en la muestra combinada, la

varianza de la suma de rangos es



menor
t i (t i + 1)(t i − 1)
que la obtenida en ausencia desuma
empates y el
Si se producen empates f = en la asignación de rangos en la muestra
i = 1
,
Test de combinada,
la la
de rangos de Wilcoxon

(n1 + n 2 )(n1 + n 2 + 1)(n1 + n 2 − 1)


varianza de la suma de rangos de
estadístico del test de la suma es los
menor rangosque de Wilcoxonenresulta
la obtenida ausencia de empates y el
Sit se producendeempates
conestadístico enpara
la asignación de rangos
i-ésimo laen la muestra combinada,
que, si nolahayvarianza de
i el número empates
del test de la suma el valor
de losn1 rangos de de variable.
Wilcoxon Notar
resulta
la suma de rangos es menor que la obtenida en ausencia de
n1 (n1 + n 2 + 1) empates y el estadístico del test de
la suma de
empates, f =los
0 yrangos de Wilcoxon
este estadístico
 r −
resulta al citado anteriormente.
se reduce
i
2 Finalmente, como la
z = in=11 n ( n + n + 1) ,
n1 nr2i (−n1 +1 n 21 + 1)(2 1 − f )
suma de rangos es un variable discreta que se aproxima mediante una distribución
z = i =1 12 2 ,
n1 n 2 (n1 + n 2 + 1)(1 − f )
normal continua, es frecuente aplicar la corrección por continuidad a estos estadísticos.
donde 12
La versión con corrección por continuidad del test de la suma de rangos de Wilcoxon
donde
donde T
(con o sin empates) se presenta en la Tabla i =1
t8.2.
i (t i + 1)(t i − 1)

f = T ,
(n1 + n 2 )(nt1i (+t i n+2 1+)(1t)( n + n − 1)

[Tabla 8.2 aproximadamente
i =1
i − 1)
1 2
aquí]
con ti el número de empates fpara = el valor i-ésimo de la variable. Notar , que, si no hay empates,
f =con
0 y teste estadístico ( n
se reducepara1 + n 2 )( n1 + n 2 + 1)( n1 + n 2 − 1)
al citado anteriormente.
i el número de empates el valor i-ésimo de la Finalmente,
variable. Notarcomo la si
que, suma de rangos
no hay
es una variable discreta que se aproxima mediante una distribución normal continua, es frecuente
aplicar
con tilael corrección
empates,
Ejemplo f = 8.5
número0 y Como
esteporlacontinuidad
estadístico
de empates paraseel
muestra a estos
dereduce
casos
valor al estadísticos.
citado
y controles
i-ésimo laLa
deanteriormente.
lade Tabla
variable. versión con
n1 =sicorrección
Finalmente,
8.1
Notares
que, 10 la por
2como
nno =hay
continuidad del test de la suma de rangos de Wilcoxon (con o sin empates) se presenta en la
Tabla
suma>8.2.
empates,8,depuede
rangos y es unestadístico
variable
f = 0 aplicarse
este discreta
la aproximación
se reduce que alsecitado
normal aproxima mediante
a laanteriormente.
suma de rangosunaUdistribución
= 96,5 en
Finalmente, los la
como

normal
suma decontinua,
Ejemplo
casos 8.5 eses
de infarto.
rangos Como
unfrecuente
Bajo
variable aplicar
lalamuestra
hipótesis
discreta lacasos
denula corrección
que deseyuna por continuidad
misma
controles
aproxima distribución
de la Tabla
mediante a8.1
una estos
deles nestadísticos.
1 = n2 = 10 > 8,
β-caroteno
distribución
puede aplicarse la aproximación normal a la suma de rangos U = 96,5 en los casos de
La en
versión
infarto.
normal con
Bajo
continua,
casos corrección
la el por
es hipótesis
frecuente
y controles, continuidad
10nula
aplicar
valor dela+una
esperado
⋅ 10 (10 +del
corrección
10 de )(test
misma
1esta 0de
1 −suma por lacontinuidad
,00075 suma
de ) dedel
distribución
rangos rangos de estadísticos.
ab-caroteno
seríaestos Wilcoxon
en casos y
var(U) =
controles, el valor esperado de esta suma = 174,87,
12de rangos sería
(con
La o sin empates)
versión se presenta
con corrección en la Tabladel
por continuidad 8.2.test de la suma de rangos de Wilcoxon
10(10 + 10 + 1)
E(U) = = 105
(condonde
o sin empates) se presenta en la Tabla 2
8.2.
10 ⋅ 10(10 + 10 + 1)(1 − 0,00075)
y su varianza var(U) = [Tabla 8.2 aproximadamente aquí] = 174,87,
12
y su varianza ⋅ 102(10 (2 ++ 110
)(2+−1)( 1)1 − 0,00075)
f = = 10
var(U) [Tabla 8.2 aproximadamente aquí] = 0,00075
(10 + 10)(10 + 10 +12 1)(10 + 10 − 1) = 174,87, 10
donde
Ejemplo 8.5 Como la muestra de casos y controles de la Tabla 8.1 es n1 = n2 = 10
donde
es el
donde
> 8,factor
puededeaplicarse
corrección de
lamuestrala 2varianza
aproximación (2de+ casos debido
−y1)controles
1)(2normal aa la
la presencia
suma de t1 =U2 = 96,5 en los
deTabla
rangos
Ejemplo 8.5 Comof= la = 0,00075 8.1 es n1 = n2 = 10
de la
(10 + 10)(10 + 10 + 1)(10 + 10 − 1)
observaciones
casos
> 8, puede
empatadas
de infarto. para 2el(2valor
Bajolalaaproximación
aplicarse hipótesis )(20,13
+ 1nula −de1)μuna
normal
g/g.misma
Por tanto, el estadístico
a la sumadistribución
de rangos Udel βde
= 96,5
la
-caroteno
en los
f =
es el factor de corrección de la varianza debido a la presencia de t1 = 2 observaciones = 0,00075
suma de rangos de (10 + 10)(con 10 +corrección
10 + 1)(10 por + 10continuidad
− 1)
empatadas
es casos
el factor
en casos para
de
y el Wilcoxon
valorel0,13
corrección
controles, de la
valor mg/g.
varianza Pordebido
esperado tanto,
de esta elsuma
a la estadístico
presencia esde tsería
de
dedistribución
rangos 1la=suma de rangos de
2 β-caroteno
de infarto. Bajo la hipótesis nula una misma del
Wilcoxon con corrección por continuidad es
observaciones
es el
enfactor
casos de empatadas
corrección
y controles, para
elde el valor
la| varianza
96 ,5 −10 0,13
105 | −+1μesta
debido /g/g. laPor
2a+suma tanto, elde
presencia estadístico
t1 = 2 de la
zvalor
=E(U esperado
) = 174,87
(10de 10 =1)0,60,de rangos sería
= 105
suma de rangosempatadas
observaciones de Wilcoxon paracon corrección
el valor 0,13 μ 2por
g/g.continuidad
Por tanto, elesestadístico de la
que corresponde a un valor PE(=U2P(Z 10(10 + 10 + 1)
) = ≥ 0,60) = 2{1=–105 F(0,60)} = 0,549 a partir de la
suma sudevarianza
distribución rangos
quey corresponde de
normal Wilcoxon
a un valor P con
estandarizada =| 962Pcorrección
de
( Z la
≥ Tabla
0,60) 2por
=3 2{1continuidad
del Apéndice.
- Φ (0,60)} esEste
= 0,549valor aproximado
a partir de de
,5 − 105 | −1 / 2
z = = 0,60,
P es muy similar al valor exacto calculado en el Ejemplo 8.2, no habiendo así suficiente
evidencia para rechazar la hipótesis 174 ,87 10
la distribución
y su varianza normal estandarizada | 96,5 de −de igualdad
105 −1 / 2de
la| Tabla distribuciones
3 del Apéndice. Este del nivel
valorde b-caroteno
en los casos de infarto de miocardio z= y los sujetos =libres 0,60,de la enfermedad.
aproximado de P aesunmuy similar 174 ,87 10
que corresponde valor P = 2al P(valor
Z ≥ 0,60)exacto = 2{1calculado en el=Ejemplo
- Φ(0,60)} 0,549 a 8.2,
partirnode

habiendo
que así suficiente
la distribución
corresponde normal evidencia
a un valor P = 2Ppara
estandarizada ≥rechazar
(Z de la Tabla
0,60) la3 hipótesis
= 2{1 del de igualdad
- ΦApéndice.
(0,60)} ade
Este valor
= 0,549 partir de
Pastor-Barriuso R. 127
distribuciones
aproximado
la dedel
distribución nivel
P es
normalmuy β-caroteno
desimilar deenlalos
al valor
estandarizada casos
exacto
Tabla de infarto
calculado
3 del en de miocardio
el Ejemplo
Apéndice. y los
8.2,
Este valor no

sujetos
habiendolibres
aproximado dePlaesenfermedad.
asíde
suficiente
muyevidencia
similar alpara rechazar
valor exacto la hipótesisendeeligualdad
calculado Ejemplode
8.2, no
128
Pastor-Barriuso R.
Métodos no paramétricos

Tabla 8.2 
Tabla
Tabla
Tabla Estadísticos
8.28.2
8.2 Estadísticos
Estadísticos
Estadísticos para
para
para
para el
el test test
de
eleltest
test de
la la
suma
dedela suma
sumasuma
la de de
rangos
deyrangos
de rangosde
rangos los
yy de de
rangos
de los
los los
y rangos rangos
concon
rangos signo
signo
con de
decon
signo Wilcoxon
signo con
de Wilcoxon
Wilcoxon Wilcoxon
decon
corrección
con con
corrección
por
corrección corrección
por continuidad.
continuidad.
por continuidad.por continuidad.
Tabla
Tabla 8.28.2 Estadísticos
Estadísticos para
para el test
el test de de la suma
la suma de de rangos
rangos y de
y de loslos rangos
rangos concon signo
signo de de Wilcoxon
Wilcoxon concon corrección
corrección porpor continuidad.
continuidad.
SinSin
Sin empates
empates
empates Con
Con Con empates
empates
empates
Con empates
SinSin empates
empates Con
Con empates
empates
n1 nn11 n1 nn11
n1 (n11(+n1n1 +2 +n212)+ 1) 1 1 1
n (n11(+n1n1 +2 +n212)+ 1) 1 1
n1 n1 n1 n1
i i
+ n +−1) − 1 + n +−1) − 1
 ii 1
r−rrn−−(nn ((+nnn+ 1 1 2
+n 1)+ 1) 1− 12  ii 1
r−rrn−−(nn ((+nnn+ 1 1 2
+n 1)+ 1) 1− 1 2
 r −r − 2 22
i =1 ii=i=11 i − 2− 22  r −r − 2 22
i =1 ii=i=11 i − 2− 22
deTest
TestTest
Test de
ladesuma
la la
desuma rangos
de de
ladesuma
suma rangos
de rangos
rangos =
z =zz = i =1 i =1 2 2 2 2 =
z =zz = i =1 i =1 2 2 2 2
Test
Test de de la suma
la suma de de rangos
rangos z =z = 1
n nn2n(11nn212(+
(nn1n+2++nn21)++11)) 1 2 11 212
z =z =n nnn(nn (+
(nn1n+2++nn21)(
++111)(
−)(11f−−) ff ))
1
n nn2 1(n21 (+n11n+2 +n221)+ 1) 1 2 1 21
n nn(n (+n11n+2 +n221)( +11)(−1f−) f )
12 12 12 12 12 12
12 12 12 12
T TT
T T

t i iii
(ttt (+(tt1)( ii i ii
++t11)()(−tt1)−−11))
ii i i
t (tt (+t 1)(
i =1 ii=i=11
 i+ t1)(−t 1)− 1)
concon
con
f =ff == i =1 i =1
conconf =f(n=1((+nn n++)( 2 n
11 2 221
nnn)()(+nn11n++ +n221)(
++n11)(
1)(+ 2 n
nn11n++ −n21)−−11))
(n1(+ n n+ )(
n n)(+ 1 2 21
n1n+2 n+21)( 1 +
+ n1)( n1n+2 n−221)− 1)
m mm m mm
m m
n(nnn+((n1n)++11))1 11 m
n(nn+(n1)+ 11))1 11
i
r −−(nn+(n1)+−1) 1−− 1 r m−r − n( n +−
 i −rriin    riin−(nn+(n1)+ 1) 1−− 1
=1 
i ir
=i=11−ri − 4 4
i 4 − 2− 22 =1  iri=i=11−ri − 4 4 4 − 2− 22
Test
Test de de
Test los
de los
los rangos
rangos concon
rangos con signo
signo
signo i =1 i =1
z =zz == 4 4 2 2 i =1 i =1
z =zz ==i 4 4 2 2
TestTestlos
deTest de
derangos
losloscon
rangossigno
rangos
concon signo
signo z =z = n(nnn+((n1n)( ++211)(
n)(2+2n1n)++11)) z =z =n(nnn+((nn1)( ++211)(
n)(2+2nn1)++−11))f−− ff
n(nn+(n1)( + 21)(
n 2+n1)+ 1) n(nn+(n1)( + 21)(
n 2+n1)+−1)f− f
24 24 24 24 24 24
24 24 24 24
T TT
T T
 
t i (tttiii(+(tti1i )(
++t11i)()(−tti1i )−−11))
=1 
i t
ii=i=11(ttii (+t i1)(+ t1i)(−t i1)− 1)
concon
con
f =ff ==1 i =1
i=
conconf =f = 2 22
2 2

28 28
28
28 28
Test de los rangos con signo de Wilcoxon

El test de la suma de rangos de Wilcoxon es también conocido como el test de Mann-


Whitney. Aunque este último se deriva siguiendo un procedimiento distinto, ambas pruebas de
hipótesis son completamente equivalentes, obteniéndose el mismo valor P con cualquiera de
ellas. La comparación no paramétrica de distribuciones continuas en más de dos muestras
independientes se conoce como el test de Kruskal-Wallis. Este procedimiento es una
generalización del test de la suma de rangos de Wilcoxon y puede consultarse en los textos
sobre métodos no paramétricos referenciados en este tema.

8.3  TEST DE LOS RANGOS CON SIGNO DE WILCOXON

En este apartado se describe el procedimiento de contraste no paramétrico equivalente al test de


la t de Student para muestras dependientes. Como se discutió en el Apartado 6.4, la prueba t
para datos emparejados permite comparar dos medias poblacionales a partir de las diferencias
observadas en cada pareja de datos dependientes. Esta prueba paramétrica requiere que el
número de parejas sea suficientemente grande para asegurar que la media de las diferencias se
distribuya de forma normal. En aquellas circunstancias donde se produzcan violaciones claras
de este supuesto de normalidad (particularmente cuando el número de parejas sea muy reducido),
resulta más apropiado utilizar el test no paramétrico de los rangos con signo de Wilcoxon. Bajo
la asunción de que la variable a estudio sea continua, este procedimiento permite contrastar si
las diferencias se distribuyen simétricamente alrededor de 0. La hipótesis nula establece, por
tanto, que las diferencias de cualquier magnitud a favor de los sujetos de una población son
igualmente probables que a favor de los sujetos de la otra población.
Con objeto de preservar el emparejamiento, se calculan las diferencias di en cada pareja de
datos dependientes. La asignación de rangos a estas diferencias se realiza mediante el siguiente
procedimiento. En primer lugar, se excluyen las parejas donde di = 0 y se asignan rangos ri a las
restantes n diferencias no nulas, comenzando en 1 para la diferencia con menor valor absoluto
hasta n para aquella con mayor valor absoluto. Si existen diferencias con el mismo valor
absoluto (empates), se asigna a cada una de ellas la media de los rangos correspondientes.
Finalmente, a cada rango se le otorga el signo correspondiente a su diferencia. Estos rangos
con signo constituyen así una representación estandarizada de las diferencias, que preserva
tanto el orden de magnitud como el signo de las mismas. El test de los rangos con signo de
Wilcoxon se basa en la suma de los rangos positivos (o, equivalentemente, de los rangos
negativos)
m
W= r,
i =1
i

donde m denota el número de rangos positivos.


donde m denota el número de rangos positivos.
Ejemplo 8.6  A partir del estudio EURAMIC, se seleccionan aleatoriamente 20 casos
de infarto de miocardio y 20 controles emparejados por grupos quinquenales de edad.
LosEjemplo
niveles 8.6 A partir delpara
de b-caroteno estudio EURAMIC,
estas 20 parejas se
deseleccionan aleatoriamente
casos y controles 20 en la
se presentan
Tabla 8.3. Una vez excluida la pareja con di = 0, el número efectivo de parejas es n = 19.
casosde
A partir deestas
infarto de miocardio
parejas y 20 controles
con diferencias no nulas, emparejados por grupos
se asignan rangos del 1 al 19 comenzando
en la menor diferencia absoluta 0,01 mg/g hasta la mayor diferencia absoluta 1,00 mg/g. A las
dosquinquenales de edad. Los
parejas con diferencia niveles
absoluta β-caroteno
0,27demg/g para estas
se les otorga 20 parejas
el rango medio (9de+casos
10)/2 y= 9,5,
y a otras dos parejas con diferencia absoluta 0,38 mg/g se les asigna su rango medio
(12controles
+ 13)/2 =se12,5.
presentan en la Tabla
Finalmente, 8.3. un
se otorga Una vez positivo
signo excluidaalalos
pareja di = 0, el
concorrespondientes
rangos

número efectivo de parejas es n = 19. A partir de estas parejas con diferencias no

nulas, se asignan rangos del 1 al 19 comenzando en la menor diferencia Pastor-Barriuso


absoluta R. 129

0,01 μg/g hasta la mayor diferencia absoluta 1,00 μg/g. A las dos parejas con
otras dos parejas con diferencia absoluta 0,38 μg/g se les asigna su rango medio
(12 + 13)/2 = 12,5. Finalmente, se otorga un signo positivo a los rangos
(12 + 13)/2 = 12,5. Finalmente, se otorga un signo positivo a los rangos
correspondientes
Métodos no paramétricos a diferencias positivas y un signo negativo a los rangos
correspondientes
correspondientes aa diferencias
diferenciasnegativas.
positivas La
y un signo
suma de negativo a los rangos
rangos positivos resulta

correspondientes a diferencias
a diferencias positivas y un
9
negativas.
signo La asuma
negativo de rangos
los rangos positivos resulta
correspondientes a diferencias
negativas. La suma de rangos positivos resulta
 ri = 17 + 12,5 + ... + 3 = 91
i =91

r i =1
i = 17 + 12,5 + ... + 3 = 91
y la suma de rangos negativos
y la suma de rangos negativos
y la suma de rangos negativos
10

r
j =1
j = (− 4) + (− 14) + ... + (− 9,5) = − 99.
10

En este ejemplo la suma r j = de


total (-4)los
+ (-14)
rangos+ absolutos
... + (-9,5)es= n(n
-99.+ 1)/2 = 19∙20/2 = 190. Así,
En vez
una este determinada
ejemplo la sumaj =1
la sumatotal de
delos rangos
rangos absolutos91,
positivos n(nsuma
es la + 1)/2
de=rangos
19⋅20/2negativos
= viene
dada por 91 – 190 = – 99.
190. Así, una vez determinada la suma de rangos positivos 91, la suma de rangos
En este ejemplo la suma total de los rangos absolutos es n(n + 1)/2 = 19⋅20/2 =
negativos
Tabla 8.3 viene dada por 91
β-caroteno -tejido
190 = -99.
Tabla 8.3Así,
190. β-caroteno
una vezen tejidoen
adiposo
determinada
adiposo
en
la suma
eny20
20decasos
rangos
casos y controles
controles
positivos del
91,estudio
del estudio
la sumaEURAMIC
de rangos
EURAMIC
emparejados segúnemparejados según grupos
grupos quinquenales de edad.quinquenales de edad.
negativos viene dada por 91 - 190 = (μg/g)
β-caroteno -99.
β-caroteno (μg/g)
Diferencia Diferencia Rango Rango con
13
Pareja Caso Control (di) absoluta absoluto signo (ri)
Diferencia Diferencia Rango Rango con
Pareja 1 Caso0,47 0,55
Control – 0,08
(di) 0,08
absoluta 4
absoluto – 4 (ri)
signo
1 2 0,470,75 0,55
0,09 -0,08
0,66 0,08
0,66 17 4 17-4 13
2 3 0,750,78 0,09
0,40 0,66
0,38 0,66
0,38 17
12,5 17
12,5
3 4 0,780,66 0,40
0,13 0,38
0,53 0,38
0,53 1512,5 1512,5
4 5 0,660,09 0,13
0,49 0,53
– 0,40 0,53
0,40 1415 – 1415
5 6 0,090,20 0,49
0,31 -0,40
– 0,11 0,40
0,11 514 -14
– 5
6 7 0,200,08 0,31
0,28 -0,11
– 0,20 0,11
0,20 75 – 7-5
7 0,08 0,28 -0,20 0,20 7 -7
8 0,08 0,46 – 0,38 0,38 12,5 – 12,5
8 0,08 0,46 -0,38 0,38 12,5 -12,5
9
9 0,310,31 0,16
0,16 0,15
0,15 0,15
0,15 6
6 6
6
10
10 0,300,30 0,87
0,87 – 0,57
-0,57 0,57
0,57 16
16 – 16
-16
11 11 0,160,16 1,16
1,16 – 1,00
-1,00 1,00
1,00 1919 – 19
-19
12 12 0,130,13 0,13
0,13 00 00 —− —−
13 13 0,060,06 0,37
0,37 – 0,31
-0,31 0,31
0,31 1111 – 11
-11
14 14 0,250,25 0,04
0,04 0,21
0,21 0,21
0,21 88 88
15 15 0,390,39 0,37
0,37 0,02
0,02 0,02
0,02 22 22
16 16 0,950,95 0,14
0,14 0,81
0,81 0,81
0,81 1818 1818
17 17 0,330,33 0,06
0,06 0,27
0,27 0,27
0,27 9,59,5 9,59,5
18 18 0,530,53 0,50
0,50 0,03
0,03 0,03
0,03 3 3 33
19 19 0,160,16 0,17
0,17 -0,01
– 0,01 0,01
0,01 11 – 1-1
20 20
0,230,23 0,50
0,50
-0,27
– 0,27
0,27
0,27 9,5
9,5 -9,5
– 9,5
99

SumaSuma
de rangos positivos  rrii ==9191
positivos
de rangos
ii ==11

10
10

SumaSuma
de rangos negativos  rrjj= =
negativos
de rangos -99
– 99
jj =
=1
1

130 Pastor-Barriuso R.
de 0, se esperaría la misma suma de rangos
[Tabla 8.3 positivos que negativos
aquí] y, por consiguiente,
2 aproximadamente
2 4
la suma esperada de rangos positivos sería 1 n(nla+ mitad
1) n(de n +la1suma
) Testtotal de rangos absolutos
Bajon la
donde indica el número
hipótesis nula de E(W)
deque las =diferencias
diferencias no nulas.se= Al igual ,que
distribuyen endeel
losapartado
simétricamente anterior,
rangos con signo de Wilcoxon
alrededor
2 2 4
1 n(n + 1) n(n + 1)
el
devalor
0, se exacto
esperaría P misma
de la para el suma
contraste bilateral
E(W)de=rangos vendrá
= que
positivos dadonegativos
,por la probabilidad bajo H0
y, por consiguiente,
donde n indica el número de diferencias2 no 2nulas. Al 4
igual que en el apartado
Bajo la hipótesis nula de que las diferencias se distribuyen simétricamente alrededor de 0, se anterior,
de obtener
la suma
esperaría una suma
laesperada
misma suma de
de rangos
de rangos positivos
positivos
rangos tanto
sería o másdedistante
la negativos
que mitad la
y, suma E(W)
detotal deque
por consiguiente, susuma
rangos
la valor
absolutos
esperada
el valor
de rangos exacto
donde npositivos de P
indica elseríapara el
la mitad
número contraste bilateral
de la sumanototal
de diferencias vendrá
de Al
nulas. dado
rangos por la
igualabsolutos probabilidad bajo
que en el apartado anterior, H0
observado w; esto es, si w > E(W),
1 n(n + 1) n(n + 1)
devalor
el obtener una de
exacto suma de rangos
P para positivos
E(W) tanto vendrá
= bilateral
el contraste dado, pordelaE(W)
o=más distante que su valor
probabilidad bajo H0
2 2 4
P = 2P(W ≥ w | H0)
de
donde n indicaw;
observado
obtener elesto
una suma es,de
número w diferencias
> E(W),
siderangos positivos tanto oAlmás
no nulas. que endeelE(W)
distante
igual apartadoque anterior,
su valor el valor
donde n
exacto de P para el contraste bilateral vendrá dado por la probabilidad bajo H0 deanterior,
indica el número de diferencias no nulas. Al igual que en el apartado obtener una
y,
suma sidew rangos
observado ≤ E(W),
w; esto es, si w
positivos > E(W),
tanto o más distante de E(W) que su valor observado w; esto es,
P = 2P(W ≥ w | H0)
el valor exacto
preestablecido,
si w > E(W), de P para el contraste bilateral vendrá dado por la probabilidad
la hipótesis nula se rechazará si la suma de rangos positivos es inferior bajo H0
PP == 2P(W
2P(W ≤≥ ww || H H00).)
de
al w ≤ E(W),
y, percentil
si
obtener una
α/2 suma de rangos
o superior positivos
al percentil α/2. o más distante de E(W) que su valor
1 - tanto
y, si w ≤ E(W),
Bajo dicha
observado
y, si w hipótesis
w;
≤ E(W), esto es,nula,
si w cualquier
> E(W), combinación de un número arbitrario de rangos
P = 2P(W ≤ w | H0).
Ejemplo 8.7 Como ilustración, supongamos que la suma de rangos positivos es w
Bajopositivos r1, ..., rm nula,
dicha hipótesis es igualmente
cualquierprobable
combinación y su probabilidad
de un númeroviene determinada
arbitrario porpositivos
de rangos
Bajo dicha hipótesis nula, cualquierP= 2P(W ≤≥ w | de
combinación
)
H00).
un número arbitrario de rangos
r1, ..., rm =
es25
igualmente
a partir deprobable y su probabilidad
n = 12 parejas viene determinada
de datos dependientes por
con diferencias no nulas. La
1
positivos
y,
Bajosi wdicha , ..., rm bajo
r1hipótesis
≤ E(W),
distribución es nula,
igualmente
H0 de probable
cualquier
la suma y nsu, probabilidad
combinación
de rangos viene
de un número
positivos determinada
arbitrario
es simétrica por
de rangos
alrededor de
2
preestablecido, la hipótesis nula se rechazará si la suma de rangos positivos es inferior
donde 2nE(W)
positivos es el
r1,=número
n(nrm+es1)/4
..., deigualmente
subconjuntos
= 12(12 +probable de=cualquier
1)/4 y1su
39, lo tamaño
deprobabilidad que
cual se deduce pueden
viene obtenersepor
determinada
que a partir de
npercentil
lasaldonde
parejasn
2 es α/2
con el odiferencias
superiordealsubconjuntos
número percentil
no P = 2P(W
- αde
nulas. 1Haciendo ≤ w
/2.cualquier
uso | H
, de tamaño 0 ).
este resultado,
que pueden la Tabla 9 del Apéndice
obtenerse a
n
2
facilita los percentiles de la distribución de la suma de rangos positivos bajo la hipótesis nula de
w0,05 = n(n + 1)/21 - w0,95 = 78 – 60 = 18,
quepartir
las diferencias
Bajo dicha n parejas
de lashipótesisse distribuyen simétricamente
con diferencias
nula, cualquier no nulas.
combinación alrededor de unde
, Haciendo 0, cuando
uso
número esteelresultado,
de arbitrarionúmero deladiferencias
de rangos Tabla
Ejemplo
n
dondees2 nes
no nulas ≤ 16.8.7 Como
Para unde
el número ilustración,
nivel supongamos
de significación
subconjuntos 2 n
que la suma
α preestablecido,
de cualquier tamaño quede rangos
la pueden positivos
hipótesis es w
nula se rechazará
obtenerse a
9positivos
si la del
suma donde
Apéndice w
derrangos
, ...,
0,95r = 60
facilita se
los
positivos
es obtiene
igualmentees de
percentiles
inferior la
probable Tabla
de
al la 9
percentil
y su del
distribución Apéndice
α/2
probabilidad o de la
superiorpara
suma
viene aln =
de 12. Como
rangos
percentil
determinada 1 la suma
positivos
– α/2.
por
= 25n a1partir mde n = 12 parejas de datos dependientes con diferencias no nulas. La
partir de
donde 2 las
es eln parejas
númerocon diferencias nodenulas.
de subconjuntos cualquierHaciendo tamaño usoque de pueden
este resultado,
obtenerse la Tabla
a
bajoEjemplo
laobservada
hipótesis w
8.7  bajonula
=
Como25de > w
que las=
ilustración,diferencias
18, se sigue se que P(W
distribuyen ≤ 25 | H
simétricamente
) > 0,05. alrededor
Así, el es de
w = 25
distribución H0 de la suma desupongamos
0,05
rangos1 positivos que la es suma
simétricade rangos
0
alrededor positivos
de
9 del
partir Apéndice
a partir =facilita
de lasdennparejas losdiferencias
con
12 parejas percentiles de nulas.
no la distribución
de datos dependientes n
, Haciendo
con de la
uso
diferencias suma
de este
node rangos
resultado,
nulas. Lapositivos
la Tabla
distribución
0, cuando P >de20,10. ncual
≤ 16. Para unque niveldedeE(W)significación α =
bajo
E(W) H0el
contraste
=de número
n(n 1)/4de=de
labilateral
+suma diferencias
arroja
rangos
12(12 +un1)/4 no
valor nulas
positivos
= 39, es
eslo simétrica se deducealrededor = n(n + 1)/4
9bajo
del laApéndice
12(12 hipótesis =nula
+ 1)/4 facilita39, dedelosque
lo las se
diferencias
percentiles
cual de laque
deduce se distribuyen
distribución desimétricamente
la suma de rangos alrededor
positivosde
n
donde 2 es el número de subconjuntos de cualquier tamaño que pueden obtenerse a
Enlaaquellas muestras w0,05 = el
donde n(n + 1)/2 –dewdiferencias
número 0,95 = 78 – 60 no=simétricamente
18, sea superior a 16,
nulas
0, cuando
bajo el número
hipótesis nulade dediferencias no nulasse
que las diferencias es n ≤ 16. Para
distribuyen un nivel de significación
alrededor de α
partir
donde w0,95n =parejas
de las con diferencias
60 se obtiene de la Tabla no9nulas. Haciendo
del Apéndice para uson =de12. este
Comoresultado,
la sumalaobservada
Tabla
puede =utilizarse
w donde
0, cuando >w0,95
25 el número
w =la=60
siguiente
se
de
18, obtiene aproximación
diferencias
se sigue deque
la no
Tabla
P(Wnulas
≤9normal.
del
25es | H ≤ Dado
Apéndice
n )16.
> Para
0,05.queAsí,
paraun los=elrangos
n nivel
12. Como
de conlasigno
suma α
significación
contraste bilateral arroja
0,05 0 14
9 del
un Apéndice
valor P > facilita
0,10. los percentiles de la distribución de la suma de rangos positivos
constituyen
observada unawrepresentación
= 25 > w0,05 = 18, estandarizada
se sigue quede P(W las≤diferencias
25 | H0) > 0,05. observadas
Así, el en cada
bajo la hipótesis nula de que las diferencias se distribuyen simétricamente alrededor de14
pareja contraste
de datos
En aquellas bilateral
muestras arroja
dondeunpodría
dependientes, elvalor
númeroP > 0,10.
construirse un estadístico
de diferencias no nulas sustituyendo
sea superior las a 16, puede
utilizarse
0, cuando la siguiente
el númeroaproximación
de diferenciasnormal. no nulas Dado
es n que ≤ 16.los Pararangos
un nivel con de signo constituyen
significación α una
diferencias no
representación nulas di porde
estandarizada loslasrangos con signo
diferencias ri en el en
observadas testcada
de la t de Student
pareja de datospara 14
dependientes,
En aquellas muestras donde el número de diferencias no nulas sea superior a 16,
podría construirse un estadístico sustituyendo las diferencias no nulas di por los rangos con
muestras
signo r en eldependientes (Apartado
test de la t de Student para6.4). Así, eldependientes
muestras estadístico resulta (Apartado 6.4). Así, el estadístico
puedei utilizarse la siguiente aproximación normal. Dado que los rangos con signo
resulta
constituyen una representación estandarizada de rlas diferencias observadas en cada 14
z= ,
sr
pareja de datos dependientes, podría construirse unnestadístico sustituyendo las

diferencias no nulas di por los rangos con signo ri en el test de la t de Student para
donde la media de los m rangos positivos y n - m rangos negativos es
muestras dependientes (Apartado 6.4). Así, el estadístico resulta
Pastor-Barriuso R. 131

r
z= ,
sr
Métodos no paramétricos
1 n 1 m n−m 
r = 1 n ri =  
1  i =1m ri +  n−m r j 

r =n i =1 ri = n    ri + 

j =1 r j 

n i =1 y n – im
donde la media de los m rangos positivos =1 rangos j =1 negativos
 es
1 n m  mm nn(−nm + 1) 
= 11  
m ri +1  m ri −
n(n + 1) 
r== n  i =1riri=+  i =1 riri −+ 2r j  
 n
nn i =i1=1

i =i1=1 j =12 
 

2 m n(n + 1) 
= 21  m ri −
 (mn4+ 1) n(n + 1) 
+ n
m
= n  i =1 rii − ri − 
n  ii==11  i =14  2 
y, en el caso de que no haya empates,
2  m la varianza  H0 de los rangos con signo se
n(n + 1)bajo
=   rla i − 
y, en el caso de que no haya empates,
n  i =1 4  H0 de los rangos con signo se
varianza bajo
estima mediante
estima
y, Para
en mediante
elconcretar
caso el problema,
de que supongamos
no haya empates, la varianza bajo H0deden los
que se dispone pares de observaciones
rangos con signo se estima
y, en el caso de que no haya empates,
mediante la varianza bajo H 0 de los rangos con signo se
1 n 2 1 n 2 (n + 1)(2n + 1)
sr = 1 
de una variable aleatoria continua.
2
Enn rcada
1
i = pareja n i de
= (datos dependientes, una
n + 1)(62n + 1) .
estima mediante 2 n
s r =  ri =  i =
i =1 2 n i =1 2
.
n i =1 muestra
observación x1 corresponde a la primera n i =1 y la otra observación
6 x2 a la segunda
Aplicando ambas resultados, se
1 tienen el 1estadístico
n
(n + 1)(2n + 1)
Aplicando ambas resultados, se
Aplicando ambos resultados, 
2 se tiene el 2 estadístico
muestra. El objetivo se centra s r en= comparar r = las
tiene el estadístico
i i 2 = poblacionales. μ1 y μ2 a partir de
medias
n i =1 n i =1 6
estas dos muestras dependientes. m ri − n(n + 1)
m

 n(n4+ 1) W − E (W )
Aplicando ambas resultados, z=  se i =tiene
1 ri −el estadístico
= W − E (W ) ,
Los procedimientos desarrolladosin=1(en el Apartado
n + 1)(2n + 1) = SE4 6.3 no(pueden
W ) , aplicarse a esta
z=
nm (n + 124 )(2n + 1) SE (W )
situación, ya que las medias de ambas rmuestras n(n +no 1) son independientes por provenir de
que representa la diferencia entrey,elen
 i =valor
i − 24
observado4 yW − E (W )de la suma de rangos positivos,
esperado
distribución asimétrica z= 1 consecuencia,
=la utilización, de la prueba de la t de
dividida por sucorrelacionadas.
que representa
observaciones error estándar bajo
la diferencia SinHembargo,
entre n0.(elnSivalor
+el1)(número
2observado
la 1)de parejas
n +comparación (Wcon
y esperado
SE se diferencias
de la suma
) simplifica node
nulas es n > 16,
rangos
notablemente
que representa
este estadístico
Studentsigue la diferencia
para aproximadamente entre
muestras dependientes el valor observado
una distribución y esperado de la suma de rangos
normal estandarizada bajo la hipótesis
24 resulta cuestionable. Sin embargo, a pesar de
sepositivos,
sinula de simetría
calculan dividida
las de las por
diferencias su derror
diferencias estándar
= x1alrededor
- x2 en cada bajo
de 0. H0.de
una Si las el número de parejasemparejadas.
n observaciones con diferencias
positivos, dividida por su error estándar
contar únicamente con 20 parejas, la distribución bajo H 0 . Si el número de parejas
de la suma de rangos con positivos
diferencias
Pornoque representa
unnulas
lado,
Ejemplo es
como > la
n8.8  16,
lasA diferencia
este
distintas entre
partirestadístico
delparejas
estudio elsigue
no valor
están
EURAMIC, observado
aproximadamente
relacionadas y esperado
se seleccionan deestas
una1000
entre la suma
distribución
sí, de rangos de 20
normal
diferencias
muestras aleatorias
no parejas
nulas es
presenta n > 16, este
un aspecto
de casos estadístico
y controlesmucho sigue
más normal,
agrupados aproximadamente
según permitiendo
quinquenios de una distribución
asíedad.
el usoLadeFigura normal
la aproximación
8.2 presenta la
positivos,
estandarizada dividida
bajo
distribución muestral
son independientes. por
la
Por otro su error
hipótesis
delado, estándar
nula
la diferencia
la mediamedia de bajo
simetría H .
de
de lasdediferencias
0 Si lasel número
diferencias
b-caroteno d entre de parejas
alrededor
casoscon
coincide con
la diferencias
de 0. así como
y controles,
estandarizada bajo
normal al test
la distribución la hipótesis
de los de
muestral rangos nula
la suma conde de simetría
signo
rangos de
de Wilcoxon. las diferencias alrededor
positivos W (esto es, la suma de rangos de 0. en las
no nulas
diferencia es n
de medias
parejas > 16,
donde el este estadístico
muestrales, sigue aproximadamente
caso presenta un nivel superior de b-caroteno que el control). Debido al una distribución normal
Ejemplo
reducido 8.8 Adepartir
número parejas, dellaestudio
media de EURAMIC,
las diferencias se seleccionan
de b-caroteno1000 muestras
presenta una distribución
Ejemplo
estandarizada 8.8
bajo Ala partir
hipótesis del estudio
nula de EURAMIC,
simetría de se
las seleccionan
diferencias 1000
alrededormuestras
de 0. muestras
asimétrica y, en consecuencia,n la utilización de la prueba de la t de Student para
aleatorias de 20 parejas1[Figura de casos8.2 y1 controles
n
aproximadamente agrupadosaquí] según quinquenios de
d =  d i Sin
casos ny 
dependientes resulta cuestionable. = embargo, ( x i1 −axpesari2 ) de contar únicamente con 20 parejas,
aleatorias de 20 parejas de controles agrupados según quinquenios de
la distribución de la suman de i =1 rangos ipositivos
=1 presenta un aspecto mucho más normal,
Ejemplo
edad. 8.8 A partir
La Figura del estudio
8.2depresenta EURAMIC,muestral
la distribución se seleccionan 1000 muestras
de la diferencia media de β-
permitiendo así el uso la aproximación n normal al test de los rangos con signo de Wilcoxon.
En edad.
el caso de existir
La Figura 8.2 presenta 1
diferencias n
con 1el mismo valor absoluto,
de la diferencia medialade β-
ha de utilizarse
=  xla i1 −
distribución
 xi 2 = xmuestral
1 − x2
aleatoriasddeentre
caroteno 20 parejas
casosnydei controles,
=1
casos yn controles i =así
agrupados según quinquenios de
1 como la distribución muestral de la suma
siguiente versión
En el caroteno
caso de existir corregida
d entre diferenciasdel estadístico
casos y controles, con el mismo del
así comotest
valorlalos
de rangos ha
absoluto,
distribución conde signo
utilizarse
muestral de lalasuma
siguiente
de rangos positivos W (esto es, la suma de rangos en las parejas donde el caso β-
edad.
versión corregida La Figura
del 8.2
estadístico presenta
del la
test distribución
de los rangos muestral
con signo de la diferencia media de
y, en consecuencia, d es un estimador
de rangos positivos W (esto es,insesgado lamsuma nde derangos
la diferencia de medias
(n + 1) en las parejas donde el caso
caroteno un
presenta d nivel
entre superior
casos y controles,de β-caroteno riasí − comoque 4 ellacontrol).
distribución
Debidomuestral de la suma
al reducido
poblacionales μ - μ . Así, el problema z = de ila
=1 comparación
presenta un nivel superior de β-caroteno que el control). Debido al reducido
1 2 de ,medias en dos muestras
nla
(nsuma+ 1)(2de n +rangos
1) − f en las parejas donde el caso
de rangos
número parejas, laWmedia
depositivos (esto es, de las diferencias de β-caroteno presenta una
dependientes númeroqueda dereducido
parejas, la a una
media simple de lasinferencia 24 sobre
diferencias de βla-caroteno
media depresenta
una única una
presenta un nivel superior de β-caroteno que el control). Debido al reducido 16
muestra de n diferencias independientes. 16
cuya varianza incluye el término de corrección por empates
número de parejas, la media de las diferencias de β-caroteno presenta una
Los métodos
132 Pastor-Barriuso R. del Apartado 6.2.1 para la media de una muestra pueden entonces
T
16
utilizarse para calcular un intervalo de confianza  t i (t i +al1)(100(1 t i − 1)- α)% para μ - μ como
1 2
f = i =1 ,
distribución asimétrica y, en consecuencia, la utilización de la prueba de la t de

Student para muestras dependientes resulta cuestionable.


TestSin embargo,
de los rangos conasigno
pesar de
de Wilcoxon

contar únicamente con 20 parejas, la distribución de la suma de rangos positivos


Para concretar el problema, supongamos que se dispone de n pares de observaciones
presenta
25 un aspecto mucho más normal, permitiendo 25 así el uso de la aproximación
Frecuencia relativa (%) de una variable aleatoria continua. En cada pareja de datos dependientes, una
20 20
normal al test de
observación los rangosacon
x1 corresponde signomuestra
la primera de Wilcoxon.
y la otra observación x2 a la segunda
15 15
muestra. El objetivo se centra en comparar las medias poblacionales μ1 y μ2 a partir de

10 estas dos muestras dependientes. 10


[Figura 8.2 aproximadamente aquí]
5 5 6.3 no pueden aplicarse a esta
Los procedimientos desarrollados en el Apartado

En el0caso de existir
situación, ya quediferencias
las medias decon el muestras
ambas mismo valor
0 son absoluto,
no ha de
independientes porutilizarse
provenir dela

observaciones
siguiente versión
-0,6 correlacionadas.
corregida
-0,3 0 Sin embargo,
del estadístico la comparación
del test
0,3 de los 30se simplifica
0 rangos con 90notablemente
60 signo 120 150 180

d
si se calculan las diferencias W emparejadas.
d = x1 - x2 en cada una de las n observaciones
m
n(n + 1)

(a)distintas parejasrino−están relacionadas entre sí, estas
Por un lado, como las
i =1 4
(b)diferencias
z= ,
Figura 8.2  Distribución muestralPor
son independientes. deotro
la diferencia
lado, + media
n(lan media n de
1)(2de las1β-caroteno
+ )diferencias
− f d entre casos
coincide cony la
controles (a) y de la
suma de rangos positivos W (b) en 1000 muestras aleatorias de n = 20 parejas de casos y controles agrupados
según quinquenios de edad
diferencia a partir
de medias muestrales, 24
del estudio EURAMIC. Las líneas verticales en trazo discontinuo
Figura 8.2
corresponden a los parámetros subyacentes μ1 – μ2 = – 0,09 μg/g y E(W) = 80,3.

cuya varianza incluye el término ded =corrección


1 n 1 npor empates
Ejemploincluye
8.9 En el
la término 
Tabla 8.3desecorrección
di = 
obtuvieron
n i =1 n ni =1=
( x i1 − x i 2 )
19 > 16 parejas de casos y
cuya varianza por empates
1T n
1 n

controles con diferencias no nulas  x(i1t i−+n1


)(txii 2−=y,1x)1en− xconsecuencia,
n t iβ-caroteno
= de
i =1 i =1
2 puede
i =1
f = ,
utilizarse la aproximación normal a la suma 2 de rangos positivos W = 91. Bajo la
Ejemplo y, 8.9 En la Tablad 8.3
en consecuencia, es un
seestimador
obtuvieron insesgado
n = 19 de >
la 16
diferencia
parejasdede
medias
casos y
donde ti es el número de empates para la i-ésima diferencia absoluta. Esta corrección conlleva
hipótesis
unadonde
reducción nula
elde de simetría
la varianza
ti espoblacionales
número μy deefecto
su
μ1 -empates las diferencias
sobre deel alrededor
lanestadístico
la i-ésima de 0, apreciable
será el valor esperado
cuando de
el la
número
Ejemplo
controles 8.9
conEn la de
Tabla
diferencias
2. 8.3
Así, el
separa
no nulas
problema
obtuvieron
de β-caroteno =diferencia
comparación
19y,> en deabsoluta.
medias
16consecuencia,
parejas de Esta
en casos
dos corrección
muestras
y
puede
de empates sea elevado (tal es el caso de las variables cualitativas ordinales). Dado el carácter
suma
discreto de
la rangos
dependientes
de una suma positivos
de rangos es
queda reducido a una simple inferencia sobre la media de una única
y nulas
el reducido tamaño
conlleva
controles
utilizarse
reducción
con
la
de la no
diferencias
aproximación
varianza
normal
y su
de
a la
efecto
β-caroteno
suma de y,muestral
sobre
rangos
inherente
enelconsecuencia,
estadístico
positivos W
será
=
aapreciable
puede
91.
las pruebas no
Bajo la
paramétricas, la aproximación normal a estos estadísticos suele incorporar además la corrección
muestra de n diferencias independientes.
porcuando
continuidad ladeaproximación
el número
utilizarse la de
Tabla 8.2 para
empates sea reducir
normalelevado la
a =la19 (probabilidad
(tal
suma19es +de1el)rangos
caso de de incurrir
las en=un
variables
positivos W error
Bajodelatipo
cualitativas
91. I.
hipótesis nula de simetría
Los métodos de
del ApartadoE(W)
las diferencias
6.2.1 para la mediaalrededor
de=una de 0, elpueden
95 muestra valor esperado
entonces de la
4
ordinales).
Ejemplo Dado
8.9  el
En carácter
la Tabladiscreto
8.3 se de la sumaalrededor
obtuvieron nde=alrangos
19 > 16 y 0,
el reducido tamaño
hipótesis nula
suma deutilizarse de
rangospara simetría
positivos de
calcular es las diferencias
un intervalo de confianza 100(1 - αparejas
de )% el μde
valor
para casos y controles
esperado
1 - μ2 como
de la con
diferencias no nulas de b-caroteno y, en consecuencia, puede utilizarse la aproximación
y la varianza
muestral inherente apositivos
las
suma de
normal arangos
la suma de pruebas
rangos no paramétricas,
es positivos W = 91.la aproximación
sBajo la hipótesisnormal
nula de a estos
simetría de las
19 (n19 + / 21)
d
diferencias alrededor de 0, el E(W) d ±
valor esperadot de la ,
n= suma
95 de rangos positivos es
−1,1−α
=
estadísticos suele incorporar además 19(19la+corrección
1)(2 ⋅419 + 1por ) − 6continuidad de la Tabla 8.2 para
var(W) = 19(19 + 1) = 617,25,
E(W) = 24 = 95
reducir la probabilidad de incurrir en un error4de tipo I.
y la varianza
ydonde
la varianza
el término de corrección de la varianza por los t1 = 2 empates con 24
y la varianza
19(19 + 1)(2 ⋅ 19 + 1) − 6
diferencia absoluta var( 0,27Wμg/g
) = y los t2 = 2 empates con=diferencia 617,25, absoluta 0,38
24
19(19 + 1)(2 ⋅ 19 + 1) − 6
var(W) = = 617,25,
donde
μg/g es el término de corrección de la varianza
24 por los t1 = 2 empates con diferencia 17
donde el 0,27
absoluta términomg/gdey corrección de la varianza
los t2 = 2 empates con diferenciapor los tabsoluta
1 = 2 empates con es
0,38 mg/g
donde el término de0,27 2(2 + 1de
corrección )(2la−varianza
1) + 2(2 +por 2 −t11)= 2 empates
1)(los con 0,38
diferencia absoluta f =μg/g y los t2 = 2 empates con diferencia
= 6. absoluta
2
diferencia absoluta 0,27 μg/g y los t2 = 2 empates con diferencia absoluta 0,38
μg/g es
Pastor-Barriuso R. 133
Aplicando la corrección por continuidad, el test estadístico de los rangos con
μg/g es
2(2 + 1)(2 − 1) + 2(2 + 1)(2 − 1)
f = entonces
signo de Wilcoxon resulta = 6.
2
2(2 + 1)(2 − 1) + 2(2 + 1)(2 − 1)
f= = 6.
2
Métodos no paramétricos

Aplicando la corrección por continuidad, el test estadístico de los rangos con

signo de Wilcoxon
Aplicando resultapor
la corrección entonces
continuidad, el test estadístico de los rangos con signo de
Wilcoxon resulta entonces
| 91 − 95 | −1 / 2
z= = 0,14,
617,25
con un valor P = 2P(Z ≥ 0,14) = 2{1 – F(0,14)} = 0,889. Notar que el resultado del test
sería
con unidéntico
valor Pde= utilizar
2P(Z ≥ la suma
0,14) de rangos
= 2{1 negativos
- Φ(0,14)} W =Notar
= 0,889. – 99, que
ya que su valor esperado
el resultado
es E(W) = – 95 y su varianza coincide con var(W) = 617,25. Así, una vez controladas las
diferencias
del test seríadeidéntico
edad, las
dediferencias de b-caroteno
utilizar la suma de rangosanegativos
favor de W
los=casos deque
-99, ya infarto
su no son
significativamente distintas de las diferencias a favor de los sujetos libres de la enfermedad.
valor esperado es E(W) = -95 y su varianza coincide con var(W) = 617,25. Así,
La comparación no paramétrica de una variable continua en más de dos muestras dependientes
puedeuna vez controladas
realizarse mediante las diferencias
el test de edad,Bajo
de Friedman. las diferencias
la asunción β-caroteno
dede a favorsigue la
que la variable
misma distribución continua excepto posibles diferencias de localización (traslaciones), esta
prueba permite contrastar la hipótesis nula de una misma localización de la variable en cada una
de las poblaciones. Este procedimiento también se fundamenta en la definición de rangos y
puede consultarse en los libros específicos de métodos no paramétricos.
18

8.4  TEST EXACTO DE FISHER

En el Apartado 7.4 se presentó el test χ2 de Pearson como un procedimiento general para evaluar
la asociación estadística entre las variables de una tabla 2×2. Esta prueba se basa en la asunción
de que el tamaño muestral es suficientemente grande para justificar la aproximación chi-
cuadrado a la distribución nula del estadístico χ2 de Pearson. En concreto, si los marginales de
la tabla son pequeños, de tal forma que la frecuencia esperada en alguna de las celdas sea
inferior a 5, esta aproximación puede resultar imprecisa. En tales circunstancias, es preferible
utilizar métodos alternativos basados en la distribución exacta de las frecuencias de las celdas
de una tabla 2×2. En este apartado se describe el más conocido de estos procedimientos, el test
exacto de Fisher.

Ejemplo 8.10  La Tabla 8.4 presenta el número de sujetos con niveles de b-caroteno
Ejemplo
superiores8.1. Bajo la hipótesis
e inferiores de independencia
a 0,30 mg/g entre los 10 entre
casoseldenivel de β-caroteno
infarto y el
y los 10 controles del
estudio EURAMIC seleccionados de forma independiente en el Ejemplo 8.1. Bajo la
riesgo de de
hipótesis infarto de miocardio,
independencia entrelaelfrecuencia esperada en
nivel de b-caroteno y elcada celda
riesgo sería de miocardio,
de infarto
la frecuencia esperada en cada celda sería
5⋅10
E11 = E12 = = 2,5,
20
15 ⋅ 10
E21 = E22 = = 7,5.
20
Como los valores esperados en dos de las cuatro celdas son inferiores a 5, la prueba χ2 de
Pearsonlosnovalores
Como será aplicable a esta
esperados tablade2×2
en dos lasycuatro
la asociación ha de
celdas son contrastarse
inferiores mediante otro
a 5, la
procedimiento.
prueba χ 2 de Pearson no será aplicable a esta tabla 2×2 y la asociación ha de

contrastarse mediante otro procedimiento.

134 Pastor-Barriuso R.
[Tabla 8.4 aproximadamente aquí]
Test exacto de Fisher

Tabla 8.4  β-caroteno en tejido adiposo en


10 casos de infarto de miocardio y 10 controles
seleccionados aleatoriamente del estudio
EURAMIC.
β-caroteno Infarto de miocardio
(μg/g) Caso Control Total
> 0,30 1 4 5
≤ 0,30 9 6 15
Total 10 10 20

El test exacto de Fisher se basa en determinar la probabilidad exacta de observar una tabla
cualquiera con frecuencias a, b, c y d, bajo la hipótesis nula de independencia y asumiendo que
todos los marginales n1, n2, m1 y m2 son fijos (Tabla 7.1). La condición de marginales fijos se
impone por conveniencia matemática, ya que los cálculos se simplifican notablemente y los
marginales contienen poca información sobre la asociación a estudio. Bajo H0, la probabilidad
de enfermar π es común en los sujetos expuestos y los no expuestos. Así, el número de enfermos
entre los expuestos sigue una distribución n1 binomial de parámetros n1 y π, mientras que entre los
 a n1 − a  n 2 
P(a, b, c, d | H ) = 
no expuestos sigue una distribución binomial
0 a  π (1 − π )
de parámetros   π c
 c  n2 y− π.
(1 π )Como
n2 − c
las muestras de
 
expuestos y no expuestos son independientes,  
la probabilidad de obtener una tabla con
frecuencias a, b, c y d es el producto de las probabilidades binomiales de observar a sujetos
enfermos entre los expuestos y c entre losn1   n 2  m1
=  no expuestos,  π (1 − π ) m2 .
 na1   m1 − a   n2 
P(a, b, c, d | H0) =   π a (1 − π ) n1 − a   π c (1 − π ) n2 − c
a c
Para marginales n1, n2, m1 y m2 fijos, el rango de valores posibles k para el número de
 n1   n 2  m1
=
casos expuestos varía entre k1 = max(0,  m - n ) y π k = − π ) m,2 m
(1min(n . ). Por tanto, la
a
  m
1 1 −
2 a  2 1 1

Para
probabilidad n1,obtener
marginales de n2, m1 yuna
m2tabla
fijos,con
el rango de valores
frecuencias a, b, cposibles k para ela unos
y d condiciona número de casos
expuestos varía entre k = max(0, m
Para marginales n1, n1 2, m1 y m2 fijos,
1 – n ) y k = min(n
el2 rango2 de valores , m ).
1 posibles
1 Por tanto, la probabilidad
k para el número de de
obtener una tabla
marginales n1, con 1 y m2 fijosa,viene
frecuencias
n2, m b, c ydada
d condicionada
por a unos marginales n1, n2, m1 y m2 fijos
viene dada por
casos expuestos varía entre k = max(0, m - n ) y k = min(n , m ). Por tanto, la
1 1 2 2 1 1

 n1   n 2  m1
probabilidad de obtener una tabla con frecuencias  a, b, c y dπ condiciona
(1 − π ) m2 a unos
a
  1 m − a 
P(a, b, c, d | n1, n2, m1, m2; H0) = k
marginales n1, n2, m1 y m2 fijos viene dada por n1   n 2  π m1 (1 − π ) m2
2

 
k = k1  k   m1 − k 

 nn1   nn2  m1  n   m2 n 
 1   2  π (1 −1 π  )
2

 aa   m 1 − a  
P(a, b, c, d | n1, n2, m1, m2; H0) ==    m1 − a   a   m1 − a 
k2  n
k2
n1 nn2  =m1 n + mn2 ,

k= k1 
 1  
 2
 k   m − k 

 π (1
 − 1π ) 2 

 1
k = k1  k   m1 − k 
  m1 

 n1   de
donde el denominador de la última igualdad se obtiene  n1   nde
n 2 las propiedades  coeficientes
2 los
       
binomiales. Esta distribución
donde el denominador de ladeúltima
probabilidades entre
igualdad se a  todas
 obtiene m1 −delas  posibles
alas  a  tablas
propiedades m1 −deacon
loslos mismos
=
marginales se conoce como distribución hipergeométrica y =
determina la ,
distribución bajo H0
k2
 n1   n 2   n1 + n 2 
coeficientes binomiales. Esta distribución de   
probabilidades entre todas
 lasposibles
k = k1  k   m1 − k   m1 
tablas con los mismos marginales se conoce como distribución hipergeométrica y
Pastor-Barriuso R. 135

donde el denominador de la última igualdad se obtiene de las propiedades de los


determina la distribución bajo H0 del número de casos expuestos y no expuestos en una
Métodos no paramétricos

del número de casos expuestos y no expuestos en una muestra de m1 casos obtenidos a partir de
un total de n1 sujetos expuestos y n2 sujetos m no expuestos. Notar que esta probabilidad depende
 1   m 2   n1   n 2 
únicamente del número a de casos expuestos,  dado
 que una vez  conocido  a las frecuencias de
las restantes celdas quedan determinadas  a los
por   nmarginales
1 − a a la
 de  mtabla.
1 − a
Cabe destacar también
P(a | n1, n2, m1, m2; H0) = =
que aunque los cálculos se han derivado de  mun m2 
1 + estudio  n1 + n 2  se obtendría el mismo
prospectivo,
   
resultado a partir de un estudio retrospectivoen términos del número de sujetos expuestos entre
 n1   m1 
casos y controles,
n1 !nm2 !1 m
 1 ! mm2 2!   n1   n 2 
=    ,    
n! aa! b! c!nd1!− a   a   m1 − a 
P(a | n1, n2, m1, m2; H0) = =
 m1 + m 2   n1 + n 2 
   
lo cual confirma que la probabilidad condicional n1  a una determinada
 asociada m1  tabla no

varía en función del diseño prospectivo o retrospectivo del


n1 ! n 2 ! m1 ! m 2 ! estudio.
=,
n! a! b! c! d!
lo cualEjemplo
confirma queBajo
8.11 la probabilidad
la hipótesis condicional asociada a una
nula de independencia entredeterminada
el nivel de βtabla no varía en
-caroteno
función del diseño prospectivo o retrospectivo del estudio.
lo cual confirma que la probabilidad condicional asociada a una determinada tabla no
y el riesgo de infarto agudo de miocardio, la probabilidad exacta de obtener la
Ejemplo
varía 8.11 delBajo
en función la hipótesis
diseño nulaode
prospectivo independencia
retrospectivo entre el nivel de b-caroteno y el
del estudio.
riesgo 8.4
Tabla de manteniendo
infarto agudolosdemarginales
miocardio,fijosla probabilidad
es exacta de obtener la Tabla 8.4
manteniendo los marginales fijos es
Ejemplo 8.11 Bajo la hipótesis nula de independencia entre el nivel de β-caroteno
10  10 
   
1 4 5!15!10!10!exacta de obtener la
y el riesgo de| infarto
P(1 agudo
5, 15, 10, 10; de =    la probabilidad
H0)miocardio, = = 0,136,
 20  20!1! 4! 9! 6!
Tabla 8.4 manteniendo los marginales fijos 5
 es
 
que corresponde a la probabilidad de que, de los 5 sujetos observados con niveles de
10  y10
b-caroteno
que superiores
corresponde a 0,30 mg/g,de
a la probabilidad que,caso
1 sea de loslos 5 sujetos
restantes 4 sean controles.
observados Notar que
con niveles
 1   4 
la tabla se refiere por la frecuencia a = 1 observada    5en !15!la10primera
!10! celda, dado que las
P(1 | 5, 15, 10, 10; H0) = = = 0,136,
demás
de frecuencias
β-caroteno b = 4, ac 0,30
superiores = 9 yμdg/g,
= 61vienen
sea caso entonces
20  y los dadas
restantes por
20!1! 4! 9! 6!4 los
sean marginales.
controles.
 
5
Notar que la tabla se refiere por la frecuencia
Para contrastar la independencia entre las variables a =de1 una
observada
tabla 2×2,en la
el primera celda,
test exacto de Fisher
consiste en enumerar todas las posibles tablas con los mismos marginales que la tabla observada,
para adado queque las demás
corresponde
continuación afrecuencias
calcular b = 4,de
lalaprobabilidad
probabilidad cexacta
=que,
9 yde d =los
6 vienen
asociada5 sujetos
a cadaentonces
una dedadas
observados por
con
estas losbajo la
niveles
tablas
hipótesis nula de independencia. El valor P bilateral del test exacto de Fisher corresponde
marginales.
entonces de β-caroteno
a la suma de superiores
probabilidades μg/g,
a 0,30para 1 seaaquellas
todas caso y los restantes
tablas 4 sean controles.
con probabilidad inferior o
igual a la de la tabla observada (esto es, la suma de probabilidades de las tablas tanto o menos
compatiblesNotarconque la tabla senula
la hipótesis refiere
quepor la frecuencia
la tabla observada). a = 1 observada en la primera celda,
Para contrastar la independencia entre las variables de una tabla 2×2, el test exacto
dado que
Ejemplo las La
8.12  demás
Tabla frecuencias
8.5 presentab =todas
4, c = y d = 6 vienen
las9 posibles entonces
tablas con dadas marginales
los mismos por los
de Fisher consiste en enumerar todas las posibles tablas con los mismos marginales que
n1 = 5, n2 = 15, m1 = 10 y m2 = 10 observados en la Tabla 8.4 para la asociación entre el
marginales.
y el infarto de miocardio. Bajo la
b-caroteno
la tabla observada, para a continuación calcular la hipótesis
probabilidad nulaexacta
de independencia entre ambas
asociada a cada
variables, la probabilidad exacta asociada a cada tabla viene dada por la distribución
una dehipergeométrica
estascontrastar
Para tablas bajo la hipótesis nula
la independencia de independencia.
entre las variables deEluna valor
tablaP bilateral delexacto
2×2, el test test

exacto de Fisher
de Fisher corresponde
consiste entonces
en enumerar todasa las
la suma de probabilidades
posibles para todas
tablas con los mismos aquellas que
marginales

la tabla observada, para a continuación calcular la probabilidad exacta asociada a cada


136 Pastor-Barriuso R.
22
una de estas tablas bajo la hipótesis nula de independencia. El valor P bilateral del test
Test exacto de Fisher
tablas con probabilidad inferior o igual a la de la tabla observada (esto es, la suma de

probabilidades de las tablas tanto o menos compatibles con la hipótesis nula que la tabla
Tabla 8.5  Todas las posibles tablas con los mismos
observada). marginales que la Tabla 8.4, junto con sus probabilidades
tablas con probabilidad inferior
asociadas o igual
bajo a la de nula
la hipótesis la tabla observada (esto es, la suma de
de independencia.

probabilidades Tabla Probabilidad bajo Hcon Odds rationula que la tabla


Ejemplo de lasLa
8.12 tablas
Tablatanto o menos
8.5 presenta compatibles
todas las posibles
0 latablas
hipótesis
con los mismos
0 5
observada). 5, n2 = 15,5 m1 = 10 y m0,016
marginales n1 = 10 2 = 10 observados en
0 la Tabla 8.4 para la
1 4
9 β-caroteno
asociación entre el 6 0,136
y el infarto 0,17la hipótesis nula de
de miocardio. Bajo
Ejemplo 8.12 La Tabla 8.5 presenta todas las posibles tablas con los mismos
2 3
independencia 8
entre 7
variables, la0,348
ambas probabilidad exacta0,58
asociada a cada tabla
marginales n1 = 5, n2 = 15, m1 = 10 y m2 = 10 observados en la Tabla 8.4 para la
3 2
viene dada por 7 8
la distribución 0,348
hipergeométrica 1,71
asociación entre el β-caroteno y el infarto de miocardio. Bajo la hipótesis nula de
4 1
6 9 0,136 6
independencia entre ambas
P(0) variables, la5!probabilidad
15!10!10! exacta asociada a cada tabla
5 0 = P(5) = = 0,016,
5 10 200,016
! 0! 5!10! 5! ∞
viene dada por la distribución hipergeométrica
5!15!10!10!
P(1) = P(4) = = 0,136,
520
!1!51!!140!!91!06!!
P(0) = P(5) = = 0,016,
20! 0! 5!10! 5!
5!15!10!10!
P(2) = P(3) = 5!15!10!10! = 0,348,
P(1) = P(4) = 20! 2! 3! 8! 7! = 0,136,
20!1! 4! 9! 6!
cuya suma de probabilidades 5!15!10!10! tablas con a = 0, 1, 4 y 5
P(2) =es igual
P(3) = a 1. Como las = 0,348,
20! 2! 3! 8! 7!
tienen asociadas probabilidades menores o iguales que la probabilidad P(1) =
cuya suma de probabilidades es igual a 1. Como las tablas con a = 0, 1, 4 y 5 tienen
asociadas
0,136 de laprobabilidades menores
tabla observada, o iguales
el valor quedel
P bilateral test exacto deP(1)
la probabilidad = 0,136
Fisher es de la tabla
cuya suma de probabilidades es igual a 1. Como las
observada, el valor P bilateral del test exacto de Fisher establas con a = 0, 1, 4 y5

P = P(0) + Pmenores
tienen asociadas probabilidades (1) + P(4)o +iguales
P(5) que la probabilidad P(1) =
= 0,016 + 0,136 + 0,136 + 0,016 = 0,304.
0,136 de la tabla observada, el valor P bilateral del test exacto de Fisher es
Notar que se obtendría el mismo valor P si se sumaran las probabilidades asociadas a
todas
Notaraquellas tablas con
que se obtendría un oddsvalor
ratio Ptanto osumaran
más alejado del valor nulo 1 que el OR =
P = Pel(0)
mismo
+ P(1) + P(4)si+seP(5) las probabilidades
1∙6/(4∙9) = 0,17 de la tabla observada; es decir, las probabilidades de las tablas con OR ≤ 0,17
OR ≥ 1/0,17
oasociadas = 6. aquellas
a todas Así,= a0,016
partir+de0,136
tablas esta muestra
con un odds tan
+ 0,136 reducida,
ratio
+ tanto
0,016 no puede
o más
= 0,304. concluirse
alejado que exista
del valor
una asociación significativa entre el nivel de b-caroteno y el riesgo de infarto de miocardio.
nulo 1 que el OR = 1⋅6/(4⋅9) = 0,17 de la tabla observada; es decir, las
Cuando elque
Notar se obtendría
tamaño muestral el es
mismomuy valor P si el
pequeño, se número
sumarande lasposibles
probabilidades
tablas con los mismos
marginales muy reducido, de tal forma que el valor P
probabilidades de las tablas con OR ≤ 0,17 ó OR ≥ 1/0,17 = 6. Así,dea partir
será del test exacto Fisherde
podrá
esta tomar
asociadas a todas aquellas tablas con un odds ratio tanto o más alejado del
muy pocos valores, siendo así particularmente difícil obtener resultados significativos. Para un valor
nivel de significación
muestra α preestablecido,
tan reducida, el test exacto
no puede concluirse de Fisher
que exista tenderá a ser
una asociación conservador con
significativa
nulo 1 que el OR = 1 ⋅ 6/(4 ⋅ 9) = 0,17 de la tabla observada; es decir,
una verdadera probabilidad de error de Tipo I menor que el valor nominal α. Un contraste las
alternativo
entremenos
el nivelconservador
de β-carotenoconsiste en calcular
y el riesgo el valor
de infarto mid-P bilateral, que se define como
de miocardio.
probabilidades de las tablas con OR ≤ 0,17 ó OR ≥ 1/0,17
la probabilidad de la tabla observada más la probabilidad de las tablas = 6.menos
Así, a verosímiles
partir de esta
bajo H0.
Este valor mid-P será siempre inferior o igual al valor exacto de P, obteniéndose resultados 23
muestra tan
muy similares si elreducida, no puedeesconcluirse
tamaño muestral grande. que exista una asociación significativa

entre el nivel de β-caroteno y el riesgo de infarto de miocardio. Pastor-Barriuso R. 137

23
Métodos no paramétricos

Ejemplo 8.13  De todas las posibles tablas enumeradas en la Tabla 8.5, sólo las tablas
con a = 0 y 5 tienen probabilidades bajo H0 menores que la probabilidad P(1) = 0,136 de
la tabla observada, así que el valor mid-P bilateral se calcula como
mid-P = P(0) + P(1) + P(5) = 0,016 + 0,136 + 0,016 = 0,168,
que es considerablemente menor que el valor exacto de P = 0,304 calculado en el ejemplo
anterior. No obstante, ambos valores de P arrojan resultados no significativos para el
nivel de significación estándar α = 0,05.

El test exacto de Fisher puede generalizarse para evaluar la asociación estadística entre las
variables categóricas de una tabla r×c, cuando algunas frecuencias esperadas sean muy bajas y
no pueda aplicarse el test χ2 de Pearson. Aunque el valor P del test exacto de Fisher para tablas
mayores de 2×2 se define igualmente como la suma de probabilidades para aquellas tablas tanto
o menos probables que la tabla observada, su cálculo requiere de algoritmos de computación
dado el elevado número de posibles tablas con los mismos marginales.

8.5  REFERENCIAS

1. Agresti A. Categorical Data Analysis, Second Edition. New York: John Wiley & Sons, 2002.
2. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
Englewood Cliffs, NJ: Prentice Hall, 1977.
3. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of
Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980.
4. Colton T. Estadística en Medicina. Barcelona: Salvat, 1979.
5. Conover WJ. Practical Nonparametric Statistics, Third Edition. New York: John Wiley
& Sons, 1998.
6. Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley &
Sons, 1986.
7. Fleiss JL, Levin B, Paik MC. Statistical Methods for Rates and Proportions, Third Edition.
New York: John Wiley & Sons, 2003.
8. Hollander M, Wolfe DA. Nonparametric Statistical Methods, Second Edition. New York:
John Wiley & Sons, 1999.
9. Lehmann EL. Nonparametrics: Statistical Methods Based on Ranks. San Francisco:
Holden and Day, 1975.
10. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press,
1999.
11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State
University Press, 1989.

138 Pastor-Barriuso R.
TEMA 9

DETERMINACIÓN DEL TAMAÑO MUESTRAL

9.1 INTRODUCCIÓN

Las inferencias poblacionales derivadas a partir de una muestra conllevan indefectiblemente un


margen de error. Así, en el diseño de un estudio epidemiológico o clínico, es necesario plantearse
de antemano el número de sujetos que deben ser estudiados para responder a la pregunta de
investigación con un grado razonable de certidumbre. La determinación a priori del tamaño
muestral es una parte importante del diseño de un estudio por distintos motivos:
yy Permite concretar la hipótesis de trabajo. El investigador ha de precisar la hipótesis
principal del estudio y, en función de su experiencia, investigaciones previas o estudios
piloto, especificar la magnitud de efecto clínica o biológicamente relevante que se pretende
detectar.
yy Permite evaluar la factibilidad del estudio. Una de las limitaciones más frecuentes en los
estudios epidemiológicos es la imposibilidad de reclutar un número suficiente de pacientes,
bien sea por limitaciones en los recursos económicos, en el número de pacientes disponibles
o en el tiempo de duración del estudio.
yy Previene la obtención de resultados no concluyentes. Como se describió en el Tema 5, la
precisión de una estimación y la potencia estadística de un contraste de hipótesis aumentan
conforme aumenta el tamaño muestral, de tal forma que una muestra insuficiente dará
lugar a estimaciones imprecisas y contrastes de baja potencia.

Desde un punto de vista puramente teórico, basta con aumentar el tamaño muestral para
obtener estimaciones arbitrariamente precisas o para detectar como estadísticamente significativo
cualquier efecto por pequeño que sea. Aun cuando esto sea posible en la práctica, la utilización
de muestras excesivamente grandes es ineficiente, ya que la posible detección de efectos
trivialmente pequeños y de escasa utilidad práctica no justificaría los recursos empleados. En
último término, el objetivo de la determinación a priori del tamaño muestral consiste en estimar
la muestra mínima necesaria para asegurar estimaciones razonablemente precisas o para tener
una potencia suficiente en la detección de efectos clínicamente relevantes.
Con cierta frecuencia, el número de sujetos disponibles para un estudio viene dictado de
antemano por las limitaciones económicas o temporales. En tales circunstancias, es importante
determinar qué magnitudes de efecto tendrían una probabilidad razonable de ser detectadas con
la muestra disponible, para contar así con una idea aproximada de las posibilidades que ofrecería
la realización de dicho estudio.
Como se verá a continuación, el cálculo del tamaño muestral requiere de información previa
a la realización del estudio. Estos datos suelen proceder de investigaciones previas relacionadas
y, en la medida de lo posible, han de ajustarse a unas hipótesis de trabajo verosímiles. En
cualquier caso, las asunciones realizadas en el cálculo del tamaño muestral pueden diferir de los
resultados posteriores del estudio y, en consecuencia, estas determinaciones deben servir como
guía orientativa más que como norma rígida para la estimación del tamaño muestral. Conviene
apuntar también que la muestra resultante se refiere al número de sujetos necesarios para el

Pastor-Barriuso R. 139
ación de tamaño esencialmente infinito. La corrección de las fórmulas del tamaño

tral para otros tipos de muestreo


Determinación del tamañoymuestral
para poblaciones finitas puede consultarse en

bros sobre muestreos complejos citados al final del tema.


análisis y no a los inicialmente incluidos. Así, la muestra estimada ha de incrementarse en
previsión de las posibles pérdidas de sujetos que pudieran ocurrir en el estudio.
TAMAÑO MUESTRAL PARA LA ESTIMACIÓN DE UN PARÁMETRO
En este tema se revisan las fórmulas del tamaño muestral más frecuentemente utilizadas en
LACIONAL el diseño de estudios epidemiológicos y clínicos, tanto para la estimación de una media y una
proporción en una única muestra, como para la comparación de medias y proporciones en muestras
dependientes e independientes. En adelante, se asume que las muestras se obtienen mediante un
1.2 MEDIDAS
sta sección se presentan las fórmulas para determinar el tamaño muestral necesarioDE TENDENCIA CENTRAL
muestreo aleatorio simple a partir de una población de tamaño esencialmente infinito. La
corrección de las fórmulas del tamaño muestral para otros tipos de muestreo y para poblaciones
obtener estimaciones fiables de un parámetro poblacional (típicamente la mediadedetendencia central informan acerca de cuál e
Las medidas
finitas puede consultarse en los libros sobre muestreos complejos citados al final del tema.
variable continua o la proporción de sujetos con una determinada característica) a
de una determinada variable o, dicho de forma equivalente
9.2 TAMAÑO MUESTRAL PARA LA ESTIMACIÓN DE UN PARÁMETRO
r de una única muestra. Esta situación concierne esencialmente a los estudiosde qué valor se agrupan los datos observados. La
alrededor
POBLACIONAL
iptivos o transversales. El objetivo
En esta sección se centra las
se presentan en calcular
fórmulaselpara
tamaño muestral
determinar
central deellatamaño
muestramuestral necesario
sirven tanto para los resultado
para resumir
obtener estimaciones fiables de un parámetro poblacional (típicamente la media de una variable
mo necesario para estimar
continua o el
la parámetro
proporciónpoblacional con un
de sujetos con unadeterminado
realizargrado
determinada de
característica)
inferencias a partir
acerca de parámetros
de los una única poblacionales
muestra. Esta situación concierne esencialmente a los estudios descriptivos o transversales. El
sión, que puedeobjetivo
cuantificarse mediante
se centra la amplitud
en calcular del intervalo
el tamaño muestral de confianza.
mínimo necesario
continuación para estimar
se describen el parámetro
los principales estimadores de la
poblacional con un determinado grado de precisión, que suele cuantificarse mediante la amplitud
del intervalo
Tamaño muestral para la de confianza.de una media
estimación variable.
tamaño de una muestra precede a su selección y, en consecuencia, no se dispone de
rtir de la aproximación normal N(μ, σ 2/n) a la distribución de una1.2.1 mediaMedia
muestral
aritmética
9.2.1  Tamaño muestral para la estimación de una media
tamaño de una muestra precede a su selección y, en consecuencia,
información muestral. La precisión de la estimación δ queda entonces no se dispone de por
determinada
uede construirseAun intervalo
partir de confianza al
de la aproximación normal - α)%
100(1N(μ, σ /n)
2 paraa la media
la distribución de una media
La media aritmética, por x ,, puede
muestral
denotada se define como la su
información
construirse
la amplitud muestral.
un del
intervalo La precisión
dede
intervalo confianza dealo,
confianza la100(1
estimación
más – α)% δ queda
para la
concretamente, entonces
media
por determinada
poblacional
la distancia por
μ como
del centro
acional μ como x ± z1 – α /2 σ / n . Notar que este intervalo incluye
incluye la valores
desviación típica poblacional σ en lugar dede observacione
muestrales
la desviación dividida por el número
su la amplitud
límitesdel
aestimación
los delintervalo
muestral, ya de
intervalo queconfianza o, más concretamente,
la determinación del tamaño de poruna
la distancia
muestradel centroa su
precede
a poblacional σselección
en lugar dey, suenestimación
consecuencia, no seyadispone
muestral, por n el
de información
que la determinación tamaño muestral y por x
del muestral. La precisióni el valor
de observado
la para e
a los límites
estimación del intervalo
δ queda entonces determinada por la amplitud del intervalo de confianza o, más
σ media vendría dada por
la
concretamente, por la distancia del centro δ =a los
z1−αlímites
/2 , del intervalo3
n
σ
δ = z1−α / 2 ,
n 1 n x1 + x 2 + ... + x n
de donde puede despejarse el tamaño muestral n para obtener x = 
n i =1
x i =
n
de donde puede despejarse el tamaño muestral n para obtener
de donde puede despejarse el tamaño muestral n para obtener
z 2 σ 2 La media es la medida de tendencia central más utilizad
n = 1−α / 2 2
.
z2 δ σ 2
n = 1−α / 22 interpretación.
. Corresponde al “centro de gravedad” de los
De esta expresión se desprende que el tamaño δ muestral para la estimación de una media
De estadepende
poblacional expresiónde se desprende
tres elementos,queque
el tamaño muestral
debenprincipal
ser para la estimación
determinados de una
limitacióndees antemano
que está muyparainfluenciada
poder por los v
aplicarDe la esta
fórmula:
expresión se desprende
media poblacional depende de tres que el tamaño
elementos, quemuestral
deben serpara la estimación
determinados dede una
antemano
caso, puede no ser
yy El nivel de confianza 100(1 – α)%. Cuanto mayor sea este nivel de confianza, un fiel reflejo de lamayor
tendencia central de
media
será
para poblacional
el tamaño
poder depende
aplicarmuestral.
la fórmula:de
En tres elementos,
la práctica, suelequeutilizarse
deben serpor
determinados
convenio una de confianza
antemano del
95% (α = 0,05), de tal forma que el percentil de la distribución normal estandarizada es
para poder
z•1–α/2 aplicar
z0,975 la fórmula:100(1 - α)%. Cuanto mayor Ejemplo 1.4 En este y en los sucesivos ejemplos sob
El=nivel = 1,96.
de confianza sea este nivel de confianza,
yy La varianza poblacional σ 2. Cuanto más dispersa sea una variable,
utilizarán mayordel
los valores será la muestra
colesterol HDL obtenidos e
• El nivel de confianza 100(1 - α)%. Cuanto mayor sea este nivel de confianza,
mayorpara
necesaria será describirla
el tamaño muestral. En la práctica,
aceptablemente. suelepor
Se requiere, utilizarse porunconvenio
tanto, de una
valor aproximado
mayor serádel
el tamaño muestral. Entallaforma
práctica, estudio
suele “European
utilizarse por Study on una
convenio Antioxidants, Myocardia
140
confianza
Pastor-Barriuso R.
95% (α = 0,05), de que el percentil de la distribución
the Breast“ (EURAMIC), un estudio multicéntrico de
confianza del 95% (α es
normal estandarizada = 0,05),
z1-α/2 =dez0,975
tal forma
= 1,96.que el percentil de la distribución
entre 1991 y 1992 en ocho países Europeos e Israel p
Ejemplo 9.1 En un pequeño estudio piloto realizado en personas adultas de una
precisión de un kilogramo puede ser aceptable Tamañopara estimar
muestral el peso medio
para la estimación en poblacional
de un parámetro
determinada población, la media y la desviación típica de la presión arterial
personas adultas, pero resulta claramente insuficiente en recién nacidos.
desistólica resultaron
la varianza ser 130 ay estudio,
de la variable 20 mm Hg, que respectivamente.
suele obtenerse a Utilizando esta similares ya
partir de trabajos
realizados o de un estudio piloto.
información
Ejemplo preliminar,
9.1 En un pequeñose planea
estudioobtener
piloto una muestra
realizado en aleatoria
personas simple
adultasde demayor
una
yy La precisión deseada δ. El tamaño muestral será tanto mayor cuanto mayor sea la precisión
exigida
tamañoapara
determinadala estimación
estimar el(esto
población, niveles,medio
la mediacuanto menor
y ladedesviación
presión δ).
seaarterial
El criterio
típica sistólica para
conestablecer
de la presión una la precisión
precisión
arterial
de una estimación ha de fundamentarse en el conocimiento previo sobre la magnitud
aproximada
de ±2 mm
sistólica del Asumiendo
Hg. parámetro.
resultaron Así,
ser 130 yun por de
20nivel
mm ejemplo,
Hg,confianzaunadel
precisión
respectivamente. de un
95% yUtilizando
una kilogramo
desviación
esta típicapuede ser
aceptable para estimar el peso medio en personas adultas, pero resulta claramente
insuficiente
similar a la en
información preliminar,
delrecién
estudionacidos.
se planea
piloto, obtener una muestra aleatoria simple de mayor
se tiene

Ejemplopara
tamaño 9.1  En unel nivel
estimar pequeño estudio
medio piloto
de2presión
2
realizado
arterial en personas
sistólica adultas de una
con una precisión
determinada población, la media 1,96 20
n = y la2 desviación típica de la presión arterial sistólica
= 384,16;
resultaron ser 130 y 20 mm Hg, 2
respectivamente. Utilizando
de ±2 mm Hg. Asumiendo un nivel de confianza del 95% y una estadesviación
información preliminar,
típica
se planea obtener una muestra aleatoria simple de mayor tamaño para estimar el nivel
medio
similar de presión
a la
es decir, se del arterial
estudio
requerirían sistólica
piloto, con una385
se tiene
aproximadamente precisión
sujetosde ±2 estimar
para mm Hg.laAsumiendo
presión un nivel
de confianza del 95% y una desviación típica similar a la del estudio piloto, se tiene

1,96 2 20 2con una precisión de ±2 mm Hg.


arterial sistólica media de esta población
n= 2
= 384,16;
2
Obsérvese que el tamaño muestral aumenta de forma cuadrática con la precisión
es decir, se requerirían aproximadamente 385 sujetos para estimar la presión arterial
sistólica
es media
decir, se
deseada, de estaque
derequerirían
tal forma población con una
aproximadamente
para el doble precisión
de385 de
= 1±2
sujetosδpara
precisión mm
Hg,Hg.
estimar
mm Obsérvese que el
laelpresión
tamaño
tamaño muestral aumenta de forma cuadrática con la precisión deseada, de tal forma que
para el doble
arterial
muestral de precisión
sistólica
mínimo media deδesta
necesario =sería
1 población
mm Hg, elveces
cuatro tamaño
con una muestral
precisiónmínimo
mayor de ±2 mmnecesario
Hg. sería cuatro
veces mayor
Obsérvese que el tamaño muestral2 aumenta de forma cuadrática con la precisión
1,96 20 2
n= 2
= 1.536,64 ≈ 1.537.
deseada, de tal forma que para el1doble de precisión δ = 1 mm Hg, el tamaño

muestral p ±mínimo necesario


− π ) /lansería cuatro veces mayor
δ proporción
mediante
9.2.2  Tamaño 1-α/2 π (1para
zmuestral .estimación
Así, la precisión
de una en la estimación de una proporción
9.2.2 Tamaño muestral para la estimación de una proporción
Siguiendo
mediante unpargumento
poblacional π similar
(1 − π ) al
z1-α/2 determinada
±viene / ndel
1.,96
por apartado
Así, anterior,
2 la2 precisión
20 δ enpuede utilizarse ladeaproximación
la estimación normal
una proporción
Siguiendo un argumento similar
n
N(π, π(1 – π)/n) a la distribución de una= al del apartado
= anterior,
1.536,64 ≈ puede
1.537. utilizarse la
proporción muestral p para obtener un intervalo de
confianza al 100(1 – α)% para la proporción12 poblacional π mediante Así, la precisión δ
mediante p ± z1–α/2 π (1 − π ) / n . Así,
poblacional viene determinada por
aproximación normal N ( π, π (1 - π )/ n
la precisión δ en la estimación de unaδ proporción ) a la distribución
π (1 − π ) de una proporción muestral p
= z1−α / 2 poblacional , viene determinada por
n poblacional viene determinada por
9.2.2 Tamañounmuestral
para obtener intervalopara la estimación
de confianza al 100(1de π-unaα −proporción
(1)% ) la proporción poblacional π
πpara
δ = z1−α / 2 ,
n
y el tamaño
Siguiendo muestral mínimo
un argumento similar necesario
al del apartadopara alcanzar
anterior, dichapuedeprecisión
utilizarseesla π (1 − π
y el tamaño muestral mínimo necesario para alcanzar dicha precisión es δ = z1−α / 2
n
y el tamañonormal
aproximación muestral N(mínimo
π, π(1 - necesario para
π)/n) a lazdistribución
2 alcanzardedicha una precisión esmuestral p
proporción
π (1 − π )
n = 1−α / 2 2 .
δ y el
la tamaño muestral mínimoπnecesario
5 para alcanza
para obtener un intervalo de confianza al 100(1 z1−α / 2π-(α
2
1 )%
− π para
) proporción poblacional
El cálculo del tamaño muestral para n =la estimación de. una proporción precisa, por tanto, de
los siguientes elementos: δ 2
El cálculo del tamaño muestral para la estimación de una proporción precisa, por z 2 π (1 − π
n = 1−α / 2 2
yy El nivel de confianza 100(1 – α)%, que se establece habitualmente en el 95%. δ
tanto, de los siguientes
El cálculo del tamañoelementos:
muestral para la estimación de una proporción precisa, por
yy La proporción poblacional π.
tanto, de nivel
El los siguientes
• precisión
yy La dedeseada
confianza el error- α
elementos:
δ o 100(1 )%, queque
absoluto se establece
se considereElhabitualmente
cálculo del tamaño
aceptable. en el 95%. 5 para la estimación
muestral

• La nivel
El de confianza
proporción poblacional tanto,
100(1 π- .α)%, que se establece de los siguientes
habitualmente en elelementos:
95%.
Pastor-Barriuso R. 141
• El nivel de confianza 100(1 - α)%, que se est
• La proporción
precisión deseada δ o el πerror
poblacional . absoluto que se considere aceptable.

La precisión
El •conocimiento deseada
previo δ o elaproximado
del valor error absoluto que
de la proporción
• La objeto
se considere
proporción aceptable.poblacional
de estudio es π.
Determinación del tamaño muestral

El conocimiento previo del valor aproximado de la proporción objeto de estudio es necesario


no sólo para sustituirlo explícitamente en la fórmula, sino también para establecer la precisión
deseada en la estimación. Por ejemplo, un error absoluto del ±5% podría ser admisible en la
estimación de una proporción
información, se pretendepróxima
realizar al
un50%, mientras
estudio que este
transversal paramismo error
estimar la sería claramente
inaceptable para una proporción pequeña, pongamos del 5% (o equivalentemente para una
proporción muy grande, ya que cuando se estima una proporción también se está estimando su
prevalencia de hipertensión en esta población con un error absoluto del ±3%
complementario). Así, para determinar de antemano qué error se considera admisible, ha de
contarse con alguna información sobre la magnitud de π, bien sea a través de investigaciones
previas(error
o, enrelativo
información, sedel ±10%).
pretende
su defecto, Asumiendo
realizar
de un estudio el niveltransversal
un estudio
piloto. de confianza
paraestándar la 95%, π =
estimar del

0,30 y δ = 0,03,
prevalencia se necesitaría una
estamuestra mínima deerror absoluto del ±3%
Ejemplo 9.2 de En
hipertensión
el estudioenpiloto población
del ejemplo conanterior,
un la proporción de hipertensos
(presión arterial sistólica ≥ 140 mm Hg) fue del 30%. En base a esta información, se
(error relativo
pretende delun
realizar ±10%).
estudio1,Asumiendo
0,30(1 −el
96transversal
2 nivel
0,para
30 de confianza
) estimar estándar del
la prevalencia de 95%, π=
hipertensión en
n =
esta población con un error absoluto = 896,37 ≈ 897.
0,03 2 del ±3% (error relativo del ±10%). Asumiendo el
0,30 ydeδ =confianza
nivel 0,03, se necesitaría
estándar del una95%,muestra
π = mínima
0,30 y δde= 0,03, se necesitaría una muestra
mínima de
Si, por el contrario, el estudio 2se diseñara para estimar la prevalencia de diabetes,
1,96 0,30(1 − 0,30)
n= = 896,37 ≈ 897.
que se asume próxima al 5%, con0,un 03 2error absoluto del ±1% (error relativo del
Si, por el contrario, el estudio se diseñara para estimar la prevalencia de diabetes, que se
±20%),
asume elsecontrario,
requeriría
Si, por próxima elunestudio
al 5%, tamaño
con un semuestral
error considerablemente
absoluto
diseñara del ±1%
para estimar mayor
(error relativo
la prevalencia del ±20%), se
de diabetes,
requeriría un tamaño muestral considerablemente mayor
que se asume próxima al1,96 5%,2 con un error absoluto del ±1% (error relativo del
0,05(1 − 0,05)
n= = 1.824,76 ≈ 1.825.
0,012
±20%), se requeriría un tamaño muestral considerablemente mayor
Como se desprende de este ejemplo, para estimar fiablemente una proporción extrema
(muy
Comopequeña
se desprendeo muy de grande) se necesitará
este ejemplo, una fiablemente
para estimar muestra mayor que para estimar una
una proporción
1,96 2 0,05(1 − 0,05)
proporción cercana nal=50%. = 1.824,76 ≈ 1.825.
extrema (muy pequeña o muy grande) 0,012 se necesitará una muestra mayor que para
La fórmula del tamaño muestral presentada en este apartado se basa en la aproximación
normal a laseuna
estimar
Como distribución demuestral
proporción
desprende cercana
este alde50%.
ejemplo, una
para proporción. Aunqueunaesta
estimar fiablemente aproximación es
proporción
razonable en la mayoría de las circunstancias, existen fórmulas alternativas, tales como
las basadas en (muy
extrema la aproximación
pequeña o muy normal con corrección
grande) poruna
se necesitará continuidad o en la
muestra mayor aproximación
que para
La fórmula del tamaño muestral presentada en este apartado se
de Poisson, que pueden ser útiles cuando se prevé trabajar con muestras de reducido basa en la
tamaño o conuna
estimar proporciones
proporciónmuy extremas.
cercana al 50%.Una descripción y comparación más detallada
de los distintos métodos de cálculo delmuestral
aproximación normal a la distribución de una proporción.
tamaño muestral Aunque esta
puede encontrarse en la bibliografía
de este tema.
aproximación
La fórmula es delrazonable en la mayoría
tamaño muestral presentadade lasencircunstancias,
este apartado existen
se basa fórmulas
en la
alternativas,
9.3  TAMAÑO
aproximación tales como lasdistribución
MUESTRAL
normal a la basadas
PARAen muestral
la
LAaproximación
COMPARACIÓN normal DE
conMEDIAS
de una proporción. corrección
Aunque estapor
Muchos diseños
continuidad
aproximación esepidemiológicos,
o en la aproximación
razonable bien
de sean
deobservacionales
Poisson,
en la mayoría que
las pueden ser(estudios
útiles
circunstancias, defórmulas
cuando
existen cohortes o de casos y
se prevé
controles) o experimentales (ensayos clínicos), se realizan con un afán comparativo, donde el
objetivo
trabajar no es
con
alternativas, tanto
muestras
tales estimar
comodelas la magnitud
reducido
basadas tamaño de un determinado
o con proporciones
en la aproximación parámetro
normalmuy
conextremas.poblacional,
corrección por sino más
Una
bien comparar parámetros entre distintas poblaciones. En tales diseños, el problema radica en
determinar
continuidadelyotamaño
descripción muestral
comparación másmínimo
en la aproximación detalladanecesario
de los
de Poisson, en cada métodos
distintos
que pueden grupo dedecomparación,
ser útiles cálculosedel
cuando de tal forma
tamaño
prevé
que el contraste de hipótesis que se pretende realizar tenga una potencia suficiente para detectar
posibles
muestral diferencias
puede
trabajar con clínica
encontrarse
muestras o epidemiológicamente
en la bibliografía
de reducido tamaño o con esterelevantes.
de proporciones
tema. muy En extremas.
este apartado
Una se presentan

descripción y comparación más detallada de los distintos métodos de cálculo del tamaño
142 Pastor-Barriuso R.
muestral puede encontrarse en la bibliografía de este tema.

7
determinada
minada variable
variable
o, dicho
o, dicho
de forma
de forma
equivalente,
equivalente,
estosestos
estimadores
estimadores
indican
indican

orqué
de valor
qué valor independientes
se agrupan
se agrupan
los datos
los datos
observados.
observados.
Las medidas
Las medidas
de tendencia
de tendencia
Tamaño muestral para la comparación de medias

de
muestra
la muestra
sirven Supongamos
sirven
tantotanto
para para quelos
resumir se resultados
resumir pretende contrastar
los resultados la hipótesis
observados
observados
comocomo paraH0: μ1 = μ2 de igualdad de
paranula

rencias
inferencias
acerca
acerca
de medias
laslos
de frente
fórmulas del apoblacionales
parámetros la hipótesis
tamaño
los parámetros alternativa
muestral
poblacionales para contrastar
correspondientes.
correspondientes. μ1 ≠ μ2 enendos
bilateralAHdiferencias
1: A losdistribuciones
niveles mediosconde una
variable cuantitativa a partir de dos muestras dependientes o independientes.
2
nación
se describen
se describen
los principales
los principales
igual varianza σestimadores
1 = σ 2de
estimadores
2 2
σde
= la tendencia
la tendencia
. Según central
los central
de una
resultados de
deluna
Apartado 6.3, la distribución

. 9.3.1  Tamaño muestral para la comparación de medias en dos muestras independientes


muestral de la diferencia de medias x1 - x 2 en muestras independientes de tamaño n1 y
Supongamos que se pretende contrastar la hipótesis nula H0: μ1 = μ2 de igualdad de medias
edia
aritmética n2 será
aritméticafrente a la aproximadamente
hipótesis alternativa normalbilateral con Hmedia μμ2- en
1: μ1 ≠ 1
μ2 dos
= 0 bajo H0 y μ1 - μcon
distribuciones 2 ≠ igual H1, y σ12
0 bajovarianza
= σ22 = σ2. Según los resultados del Apartado 6.3, la distribución muestral de la diferencia de
tmética,
a aritmética,
denotada
denotada
medias x 1, –seσ
por por
varianza x define
21, en
2
se define
+como
σ 22 /como
/n1muestras n2laindependientes
=suma σla2(1/
suma
de
n1 cada
+de1/ncada
uno
de de
unolos
2) tamaño
(Figura den9.1).
1los
y nPara
2 seráasegurar
aproximadamente normal con
una probabilidad
media μ1 – μ2 = 0 bajo H0 y μ1 – μ2 ≠ 0 bajo H1, y varianza σ12/n1 + σ22/n2 = σ 2(1/n1 + 1/n2) (Figura
strales
muestrales
dividida
dividida
porαel
9.1). por
denúmero
Para elasegurar
número
cometer deunobservaciones
de
una observaciones
de tipo realizadas.
probabilidad
error I, laα realizadas.Si denotamos
de cometer
hipótesis Si
undenotamos
nula error de tipo I,sólo
se rechazará la hipótesis nula se rechazará
si el estadístico
sólo si el estadístico
año
tamaño
muestral y pory xpor
muestral i el x
valor
i el valor
observado
observadopara para el sujeto i-ésimo,
el sujeto i-ésimo,
i = 1,i =
...,1,n,..., n,
x1 − x 2 x1 − x 2
≤  z1α /2 ó ≥ z1α /2
adría
vendría
dadadada
por por x1 - x 2 σ≤ -z11-/ nα /21 σ+ 11/ n/ n2 + 1 / n ó xσ1 -1x/ 2n1≥+z11- α/ /2n 2σ 1 / n + 1 / n .
1 2 1 2

o, equivalentemente, si la diferencia de medias


1 n 1 n x1 + x12 ++ si x...2 ++ x...n + x n
= x
o, = x i
equivalentemente,
x Así, bajo la
= xxhipótesis la diferencia
= x ≤ alternativa, . de medias
.la potencia del test para detectar una diferencia
2 n z1 
 nα /2 σ 1 / n1 + 1 / n 2 ó x1  x 2 ≥ z1α /2 σ 1 / n1 + 1 / n 2 .
i
n i =1 n i =1 1
Así,subyacente μ1 - μ2 vendrá
bajo la hipótesis dada la
alternativa, porpotencia del test para detectar una diferencia subyacente
edia
es laes
medida
la medida –deμ2tendencia
deμ1tendencia
Así, vendráladada
bajocentral por más
hipótesis
central
más alternativa,
utilizada y delaymás
utilizada potencia
de más del test para detectar una diferencia
fácilfácil
8
tación.
n. Corresponde al subyacente
Corresponde “centro
al “centroμde μ2 vendrá
1 deβ los
1 - gravedad”
de gravedad” P(
=dada
de x1por
datos
los x 2 la
datos
de ≤de zla
muestra.
1α muestra.
/2 σ Su + 1 / n 2 | H1 )
1 / n1Su

mitación
l limitación
es que
es está
que está
muymuy
influenciada
influenciada
por los los x1 extremos
por+valores x 2 ≥extremos
P( valores z1  α y, + 1 / n 2 | H1 ).
n1 este
1este
/2 σeny,/en
1 - β = P( x1 - x 2 ≤ -z1- α /2 σ 1 / n1 + 1 / n 2 | H1 )
no
edeser
noun
serfiel
un reflejo
fiel reflejo
de lade
tendencia
la tendencia
central
central
de lade
distribución.
la distribución.
Asumiendo sin pérdida de generalidad que μ1 < μ2 (Figura 9.1), la segunda probabilidad
+ P( x1 - x 2 ≥ z1- α /2 σ 1 / n1 + 1 / n 2 | H1 ).
H1: μ1 ≠ μ2 H0: μ1 = μ2
lo
emplo
1.4 En
1.4este y ende
En este lasucesivos
ylos
en expresión
los sucesivosanterior,
ejemplos
~ejemplos
que representa
sobre sobre
estimadores el evento
estimadores de que
muestrales,
muestrales,~se
x1 se
sea apreciablemente mayor
x1 − x2 → N ( μ1 − μ 2 , σ 2 (1 / n1 + 1 / n2 )) x1 − x2 → N (0, σ 2 (1 / n1 + 1 / n2 ))
Asumiendo sin pérdida de generalidad que μ1 < μ2 (Figura 9.1), la segunda probabilidad
rán
ilizarán
los valores
los valores
delque
colesterol
del xcolesterol
HDL
2 , será HDL
obtenidos
virtualmenteobtenidos en los
cero. en
La10 losprimeros
10 primeros
potencia sesujetos
reduce sujetos
del del a
entonces
de la expresión anterior, que representa el evento de que x1 sea apreciablemente mayor
otudio
“European
“EuropeanStudyStudy
on Antioxidants,
on Antioxidants, Myocardial
Myocardial Infarction
Infarctionand Cancer
and Cancer of of
1 - β = P( x1 - x 2 ≤ -z1- α /2 σ 1 / n1 + 1 / n 2 | H1 )
que x 2 , será virtualmente cero. La potencia se reduce entonces a
east“
e Breast“
(EURAMIC),
(EURAMIC), un estudio
un estudio
multicéntrico
multicéntrico de casos
de casos y controles
y controles
realizado
realizado
 x − x 2 − ( μ 1 − μ 2 ) − z1−α / 2 σ 1 / n1 + 1 / n 2 − ( μ 1 − μ 2 ) 
tre
9911991
y 1992
y 1992
en ocho
en ocho
paísespaíses P x1e1 -Israel
P(
- β =Europeos
1 Europeos x1e2- βIsrael
≤ para
-z1- α para
evaluar
/2 / nel

σ 1evaluar + 1 / n
efecto
el |
efecto
de H los
1 )
de los H 
 σ 1/ n + 1/ n 1 2
σ 1 / n1 + 1 / n 2
1

 1 2 
 x − x 2 − ( μ 1 − μ 2 ) − z1−α / 2 σ 1 / n1 +5 1 / n52 − ( μ 1 − μ 2 ) 
= P 1 | μ − ≤ | 
μ H1 
= Φ − σz1−α1/ 2/ n+1 + 1 / n12 α/2 2  , σ 1 / n1 + 1 / n 2 
  
α/2
 σ 1 / n1 + 1 / n 2 

 μ1 - μ2 0
− z | μ 1 − μ 2 | 
= Φ
donde la última igualdad + ,
de la distribución normal de x1 - x 2 bajo la hipótesis
 1−α / 2se deriva
σ − 1z / n1σ+ 11//nn+2 1/ n
 1−α / 2 1 2 z1−α / 2σ 1 / n1 + 1 / n2

alternativa.
Figura Notar que sedealcanzaría
9.1  Representación la potenciaeldel
mismo resultado
contraste si μde1 >medias
bilateral μ2. Esta expresión
a partir de dos muestras
Figura 9.1
donde la última igualdad se deriva de la distribución normal de x1 - x 2 bajo la hipótesis
independientes.
permite determinar a posteriori la potencia de un contraste para detectar una diferencia
alternativa. Notar que se alcanzaría el mismo resultado si μ1 > μ2. Esta expresión
Pastor-Barriuso R. 143
de medias subyacente μ1 - μ2 a partir de dos muestras independientes de tamaños n1 y
permite determinar a posteriori la potencia de un contraste para detectar una diferencia
n2.
continuación sexdescriben
+ P( 1 - x 2 ≥ z1- α /2 σ 1 / n1 + 1 / n 2 | H1 ).
los principalescontinuación
estimadores se describen
de la tendencia
los principales
central deestimadores
una

variable. Las medidas


Las medidas de tendencia
de tendencia central
variable. central
informan informan acercaacerca de cuál dees cuálel valor
es el valor
más rem
Asumiendo sin pérdida de generalidad que μ1 < μ2 (Figura
Determinación del tamaño muestral
9.1), la segunda probabilidad
de unadedeterminada
una determinada variable variable
o, dicho o, dicho
de forma de forma equivalente,
equivalente, estos estos
estimadore
estim
1.2.1 Media
de la expresión anterior, aritméticael evento de que
que representa 1.2.1x1Media aritmética
sea apreciablemente mayor
Asumiendo sin pérdida de generalidad alrededor que de
alrededor μ1 < quéμde (Figura
2 valor
qué valor 9.1),
se agrupan se la segunda
agrupan
los datos losprobabilidad
datos
observados.observados. de
Laslamedidas
Las medidasde tend
expresión anterior, La
que media
representaaritmética,el denotada
evento
que x 2 , será virtualmente cero. La potencia se reduce1 entonces a de por
que x La
, se
seamedia
define aritmética,
como
apreciablemente la denotada
suma de
mayor cadapor
que unox 2, de
se los
define como
será virtualmente cero. La potencia se reduce
central de laentonces
central de
muestrala muestraa
sirven sirven
tanto tanto
para resumirpara resumir los resultados
los resultados observados
observad co
valores muestrales dividida por el número valores demuestrales
observaciones dividida realizadas.
por el número
Si denotamos de observa
1 − β = P( x1 − x 2 ≤ − z1−realizar n1 + 1inferencias
1 /inferencias
α /2 σ realizar H1 ) acerca
/ n 2 |acerca de losdeparámetros
los parámetros poblacionales
poblacionales correspondientes
correspond
por n el tamaño muestral y por xi el valor por nobservado
el tamañopara muestral el sujeto xi el valor
y pori-ésimo, i = observado
1, ..., n, p
 x − x 2 − ( μ 1 − μ 2 ) − z1−α / 2 σ 1 / n1 + 1 / n 2 − ( μ 1 − μ 2 ) 
aleatoriamente= P 501 pacientes hipertensos
continuación
continuación
≤ al
segrupo
describende monoterapia
se describen los principales estándar
los principales Hyestimadores
estimadores otros de la de tendencia
la tendencia
centrac
la media 
1
σ 1 /vendrían1 + 1 / ndada
2 por σ la
1 / n
media
1 + 1 / n
vendría
2 dada por 
50 pacientes de similares características variable. variable.al grupo de tratamiento combinado con el
 | μ 1 − μ 2 | 
= Φ − z + , 1 n x1 + x 2 + ... + x n 1 n x + x2 + .
nuevo fármaco. Después de

1− α / 2
σ 4 1semanas
/ n
1.2.1 1.2.1 +
Media
1 1 / de
n
Media
x
 =
2aritmética

tratamiento,
 aritmética
n i =1
x i = la media y
n
la desviación
. x = 
n i =1
xi = 1
n
típica de la presión
aleatoriamente arterial sistólica
50 pacientes hipertensos fueron 155 y de
al grupo 22 monoterapia
mm Hg en elestándar grupo dey otros
donde la última igualdad se deriva La media
deLalamedia aritmética,
aritmética,
distribución denotada
normal denotadapor xpor
de 1, – se xdefine
2, bajo
se definecomo como
la suma
la hipótesis la suma
de cada de uno
cadad
La media es la medida de tendencia central La media másesutilizada
la medida y de de más
tendencia
fácil central más ut
alternativa.
50 Notar que
monoterapia,
pacientes dey 150 se yalcanzaría
similares 18 mm Hgelenmismo
características el grupoal resultado
de tratamiento
grupo si μ1 > combinado.
de tratamiento μ2. combinado
Esta expresión Como con el permite
determinar a posteriori la potencia de un contraste para detectar una diferencia de mediasrealizadas.
donde la última igualdad se valores
deriva valores
de muestrales
la muestrales
distribución dividida dividida
normal por deel por
xnúmero
1 -el x número
2 de
bajo observaciones
lade observaciones
hipótesis realizadas
Si d
interpretación. Corresponde al “centro interpretación.
de gravedad”Corresponde de los datos de al “centro
la muestra. de gravedad”
Su
subyacente 1 – μ2 a
μfármaco.
paso previo
nuevo a la partir de dos
comparación
Después demuestras
4 de medias,
semanas independientes
contrastade
desetratamiento, media ynde
lalatamaños
igualdad n2.
1laydesviación
varianzas
por n por
el n
tamañoel tamañomuestral
alternativa. Notar que se alcanzaría el mismo resultado si μ1 > μ2. Esta expresión muestraly por yx ipor
el x
valor
i el valor
observado observado para el parasujeto i-ésimo,
el sujeto i-ési
principal limitación es que está muy influenciada principal limitación por los es valores
que está extremos
muy influenciada
y, en este por
mediante
típica
Ejemplo laelpresión
de 9.3  estadístico
En unarterial
ensayosistólica fueron 155 yla22eficaciamm Hgantihipertensiva
en el grupo de de un nuevo
permite determinar a posteriori laclínico
lamedia
potencia
para
la mediavendría evaluar
de vendría
un dada por
dada por
contraste para detectar una
fármaco en combinación
caso, puede no conserununtratamiento
fiel reflejo estándar,de lacaso,
tendencia se asignaron
puede central
no ser un de ladiferencia
aleatoriamente
fiel reflejo de50
distribución. la tendencia cent
monoterapia, y 150 y 18 mm
pacientes hipertensos al grupo de monoterapia Hg en s el
2 grupo 2
22muestrasde tratamiento combinado.
estándar y otros 50 pacientes de similares Como
de características
medias subyacente μ1 - de
al grupo μ2 atratamiento
partir
F = de12 dos =combinado = 1,49, independientes
con el nuevo 1den tamaños
1 n fármaco. xx21 ++n...
x1 + Después 1x y x...
2++de n 4 +x
paso previo a la Ejemplo
comparación 1.4de En s este
medias, 18
y en
se
semanas de tratamiento, la media y la desviación típica de nlai =presión
2
2
los sucesivos
contrasta la
x =
Ejemplo
igualdad
x
ejemplos
= x
1.4
de
1 n i =1
i = x
sobre
En
varianzas
=
esteestimadores
arterial
i
y en los
n sistólica
n
. n.
sucesivos
muestrales, ejemplo
se
n2.fueron 155 y 22 mm Hg en el grupo de monoterapia, y 150 y 18 mm Hg en el grupo de
mediante
que bajo laeldistribución
tratamiento estadístico
combinado. utilizarán de los
Como
F valores
paso
Fisher previo
con ndel acolesterol
la comparación HDLutilizarán
1 – 1 = 49 y n2 – 1 = 49 grados de
obtenidos los valores
de medias, en se loscontrasta
10
delprimeros
colesterol
la sujetosHDL obten
del
igualdad de varianzas mediante el estadístico La media
La media
es la medida
es la medida
de tendencia
de tendencia central central
más utilizada
más utilizada
y de más
y de fácil
más
estudio [Figura
“European 9.1 aproximadamente
Study on Antioxidants, aquí]
estudio Myocardial
“EuropeanInfarction Study on and Antioxidants,
Cancer ofMyo
libertad, corresponde a un valor P bilateral 22P(F
s12 22Corresponde 49,49 ≥ 1,49) = 2⋅0,082 = 0,164.
interpretación.
interpretación.
F = 2 = 2 = 1,49, Corresponde al “centro
al “centrode gravedad”
de gravedad” de los dedatos
los datos
de la demuesla
s 2 18 un estudio the
Así, la comparaciónthe delBreast“
nivel (EURAMIC),
medio
principal principalde presión
limitación
limitación arterial
es queesestá quemuy
Breast“
multicéntrico
sistólica entre
está influenciada
(EURAMIC),
de casos y controles
ambos
muy influenciada por los
un estudio
porvalores
realizado
los valores
multicéntr
extremosextrey
queEjemplo 9.3 En un ensayo
bajo la distribución F de clínico
Fisher con paranevaluar la eficacia antihipertensiva de un
1 – 1 = 49 y n2 – 1 = 49 grados de libertad,
entremediante
1991 y 1992 en ocho países Europeos
entre muestras
1991
e Israel y 1992 paraenevaluarocho paísesel efecto Europeos
de los e Is
grupos
que bajopuede
corresponde a realizarse
un valor PF
la distribución decaso,
Fisher
bilateral la con
2P(F
caso,
puede prueba
puede
no
49,49
–t1,49)
n1≥ser deun
1no=Student
49
ser= un
fiel2∙0,082 2 para
nfiel
y reflejo – 1reflejo
==de0,164.
49la grados
de Así,
tendencia de
la comparación
la tendencia central central
de la de distribución.
la distribuc
del nuevo fármaco
nivel medio en combinación
de presión con un tratamiento
arterial sistólica entre ambosestándar, grupos puede se asignaronrealizarse mediante
independientes
libertad,
la pruebacorresponde asumiendo
t de Student a para igualdad
un valormuestras deindependientes
P bilateral varianzas,
2P(F49,49 cuyo estadístico
≥asumiendo
1,49) = 2⋅0,082 resulta
igualdad = 0,164. de varianzas, 5
cuyo estadístico resulta Ejemplo Ejemplo1.4 En1.4 esteEnyeste en losy ensucesivos
los sucesivos ejemplos ejemplossobresobreestimadores
estimado m
Así, la comparación del nivel medio
x1 − x 2 de presión
155 − 150 arterial sistólica entre ambos 9
t= = utilizarán
utilizarán los valores
los valores =del 1,24,
colesterol
del colesterol HDL HDL obtenidosobtenidos
en losen10los primeros
10 prim
grupos puede realizarse mediante 1 1
la prueba t 1
de 1
Student para muestras
s + 20,1 +
n1 nestudio 2 estudio 50“European
“European 50StudyStudy on Antioxidants,
on Antioxidants, Myocardial
Myocardial Infarction
Infarction
and
independientes asumiendo igualdad de varianzas, cuyo estadístico resulta
donde la varianza combinada es s2 = {(50 – 1)222 + (50 – 1)182}/(50 + 50 – 2) = 404.
the Breast“the Breast“ (EURAMIC),
2 (EURAMIC), un2 estudio
undeestudio multicéntrico
multicéntrico de casos de casos
y controle
y co
Utilizando la distribución
donde la varianza combinada t de es s2 = {(50
Student con 1 + n2 +
-n1)22 – (50
2 = -98 grados
1)18 }/(50 50 - 2) =el valor P
+libertad,
bilateral es 2P(t98 ≥ 1,24) = 2∙0,108 x1 − x 2 = 0,216; 155 es−decir,
150 los resultados del estudio no aportan
t= entre = entre
1991 1991
y 1992 en=ocho
y 1992 1,24,
en ocho
paísespaíses Europeos Europeos e Israel e Israel
para evaluar
para evaluar
el efe
suficiente
404. Utilizandoevidencia para afirmar
la distribución 1 t de 1 que
Studentel tratamiento
con1 n1 + 1 n2combinado
– 2 = 98 grados es másde eficaz que la
monoterapia. s + 20,1 +
n1 n 2 50 50
libertad,
A partir de estosPresultados
el valor bilateral escabría ≥ 1,24) = 2⋅0,108
2P(t98preguntarse = 0,216; ambos
si en realidad es decir, los
tratamientos son
igualmente eficaces o si, por el contrario,
2
el estudio
2
carece de2
potencia suficiente para
resultados
donde la del estudio
varianza no
combinadaaportan
es s suficiente
= {(50 - evidencia
1)22 + para
(50 - afirmar
1)18 }/(50
detectar una diferencia que, aun siendo moderada o pequeña, sea importante que el - 2)en= términos
+ 50
clínicos. Si se considera clínicamente relevante una diferencia absoluta de |μ1 – μ2| = 5
tratamiento
404.
mm Hg en lacombinado
Utilizando
presión es mássistólica
la distribución
arterial eficaz que
t de Student lacon
media, monoterapia.
n 1 + n2 – 2 =
y asumiendo un98 grados
nivel de
de significación α=
A partir de
libertad, estos P
el valor resultados
bilateral cabría
es 2P(tpreguntarse
98 ≥ 1,24) = si en realidad
2⋅0,108 ambos
= 0,216; tratamientos
es decir, los
144 Pastor-Barriuso R.

son igualmente
resultados eficaces
del estudio nooaportan
si, por el contrario,
suficiente el estudio
evidencia carece
para de potencia
afirmar que el
1 2
Por tanto, no
detectarían es sorprendente
como que elsignificativa
estadísticamente estudio anterior arrojara unreal
una diferencia resultado
de 5 mmnoHg.
asumiendo un nivel
significativo, de significación
aunsorprendente
cuando exista α =diferencia
0,05 y una desviacióndetípica σmagnitud
= 20 mm
Por tanto, no es queuna
el estudio subyacente
anterior arrojara
Tamaño
dicha
un
muestral resultado
para no de medias
la comparación

Hgentre
en ambos
ambosgrupos, la potencia para detectar dicha diferencia en un estudio con
tratamientos.
significativo, aun cuando exista una diferencia subyacente de dicha magnitud
n1 = ny2una
0,05 = 50desviación
sería típica σ = 20 mm Hg en ambos grupos, la potencia para detectar
entre ambos tratamientos.
dicha diferencia en un estudio
Como ilustra el ejemplo anterior, n2 = 50de
conenn1el= diseño sería
un estudio es importante determinar
 5 
a priori
Comoqué tamaño
ilustra = Φ −anterior,
1el− ejemplo
βmuestral 96 +necesario
1,será de un
en cada
en el diseño Φ(−de
=estudio
grupo 0,71)
es =importante
0,239. para
comparación evitar la
determinar
 20 1 / 50 + 1 / 50 
aobtención
priori quédetamaño
Es decir, resultados
únicamente no 23,9%
muestral
un concluyentes poren
será necesario falta
cada
de los estudios degrupo
con potencia. Supongamos,
de comparación
este tamaño en el
para casocomo
evitar
muestral detectarían la
estadísticamente significativa
Es decir, únicamente un 23,9% unadediferencia realcon
los estudios de 5este
mmtamaño
Hg. Pormuestral
tanto, no es sorprendente
másque el estudio anterior arrojara un resultado no significativo, aunncuando
general,
obtención de que se pretende
resultados no asignar
concluyentesdistinto
por tamaño
falta de a ambas
potencia. muestras
Supongamos,2 = kn
en1,eldonde
caso una
exista
diferencia
detectaríansubyacente de dicha magnitud
como estadísticamente entre ambos
significativa tratamientos.
una diferencia real de 5 mm Hg.
k es un
más número
general, quepositivo prefijado.
se pretende A partir
asignar detamaño
distinto la fórmula de la muestras
a ambas 2 =n
potencia ncon 1, kn
2=
kn 1, y
donde
Como Porilustra
tanto, el
noejemplo anterior, que
es sorprendente en eleldiseño
estudio deanterior
un estudio es importante
arrojara determinar
un resultado no a priori
recordando
k es un que
número Φ(z
positivo ) = 1 - β ,
prefijado. se sigue
A partirque de la fórmula
qué tamaño muestral será necesario en cada grupo de comparación para evitar la2 obtención
1-β de la potencia con n = kn 1 y
, de
resultados no concluyentes
significativo, aun cuandopor falta
existadeuna potencia.
diferencia Supongamos,
subyacenteendeeldicha caso magnitud
más general, que se
recordando
pretende asignarque
distinto β) = 1 - aβambas
Φ(z1-tamaño , se sigue que n2|=μkn−1, μdonde
muestras k es un número positivo prefijado.
2 |
A partir de laambos
entre fórmula de la potencia
tratamientos. z1− β con
= − zn12−α=/ 2kn+1, y recordando
1
, que Φ(z1–β) = 1 – β, se sigue que
1 1
σ | μ −+μ |
z1− β = − z1−α / 2 + n1 1 kn 2
1 ,
Como ilustra el ejemplo anterior, en el diseñoσde un 1 estudio 1 es importante determinar
+
n1 kn1
de donde
a priori puede despejarse
qué tamaño muestral serán1 para obteneren cada grupo
necesario de comparación para evitar la
de donde puede despejarse n1 para obtener
de dondedepuede
obtención despejarse
resultados n1 para obtener
no concluyentes
que corresponde al tamaño necesario 1por
(k + en z1falta
)( la −primera
de potencia.
α / 2 + z 1−muestra
β ) σ
2 2 Supongamos, en el caso
y n2 = kn1 al de la segunda
n1 = 2
,
másmuestra.
general,En que k ( μtamaño
1 − μ 2 )a ambas 2 muestras n2 = kn1, donde
el se pretende
caso asignar
particular de que distinto
(k + 1)( z1−α / 2 + z1− β ) 2 σ tamaño
se desee un mismo muestral en ambos
que corresponde al tamaño necesario n 1 = en la primera muestra ,
y n = kn1 al de la segunda muestra.
k esgrupos kde( μla μ 2 ) 2 de la 2potencia
1 −fórmula 2 = kn1k
con ngrupos
En eluncaso
número
= 1,positivo
kparticular prefijado.
de que
éste vendrá se desee A partir
determinado un mismo
por tamaño muestral en ambos , y= 1, éste
vendrá determinado por 11
recordando que Φ(z1-β) = 1 - β, se sigue que
2( z1−α / 2 + z1− β ) 2 σ 2 11
n1 = n 2 = 2
.
( μ| μ1 −−μμ2 ) |
z1− β = − z1−α / 2 + 1 2
,
La asignación de igual tamaño a ambas muestras 1 es,1 en general, más eficiente ya que da
lugar aLaunasignación
menor tamaño totaltamaño
de igual del estudio.
a ambas Noσ obstante,
muestras
n1 kn
+ es, hayensituaciones
general, más prácticas en ya
eficiente lasque
que es
1
preferible seleccionar muestras de distinto tamaño, aun cuando ello conlleve un aumento de la
muestra totalapara
da lugar alcanzar
un menor la misma
tamaño totalpotencia;
del estudio. tal esNo el caso
obstante,de loshay estudios donde la
situaciones disponibilidad
prácticas en
de sujetos
de donde puede despejarse
o los costes difierenn1 entre
para obtener
los grupos, o cuando se requieren estimaciones más precisas
en uno de los
las que grupos. Además
es preferible de estas
seleccionar consideraciones,
muestras de distinto en el cálculo
tamaño, del tamaño
aun cuando ellomuestral
conlleve para
la comparación de medias es necesario determinar previamente los siguientes elementos:
(k + 1)( z1−α / 2 + z1− β ) 2 σ 2
un aumento de la muestra
yy El nivel de significación total para alcanzar
n1 =α del contraste bilateral, la misma potencia;
,
que tal es ellacaso
representa de los
probabilidad de
k (μ − μ ) 2
rechazar erróneamente la hipótesis nula1 y se2establece usualmente en α = 0,05.
estudios donde la disponibilidad de sujetos o los costes difieren entre los grupos, o
yy La potencia 1 – β del contraste, que determina la probabilidad de detectar hipótesis
alternativas
cuando ciertasestimaciones
se requieren y se fija habitualmente
más precisas en en 1 –uno β =de 0,80 losógrupos.
0,90. Además de estas 11
yy La varianza poblacional σ . En la determinación del tamaño muestral suele asumirse que
2

consideraciones, en el cálculo
la varianza es común para ambosdel tamaño
grupos, muestral
ya que para la comparación
generalmente de medias
se carece es
de información
previa suficiente para determinar una varianza específica en cada uno de los grupos.
necesario determinar previamente los siguientes elementos:
yy La diferencia mínima detectable |μ1 – μ2|. El tamaño muestral será tanto mayor cuanto
menor sea la diferencia que se pretende detectar. La magnitud de esta diferencia debe ser
• El nivel de significación α del contraste bilateral, que representa la probabilidad

de rechazar erróneamente la hipótesis nula y se establece usualmente en α = 0,05.


Pastor-Barriuso R. 145

• La potencia 1 - β del contraste, que determina la probabilidad de detectar


β = 0,80 para detectar posibles diferencias de dicha magnitud. Asumiendo que se
potencia suficiente para detectar una diferencia subyacente de 5 mm Hg en la
pretende
Determinación asignar
del tamaño el mismo
muestral número de pacientes a ambos brazos del ensayo
presión arterial sistólica media de los hipertensos bajo monoterapia y tratamiento
clínico, un nivel de significación α = 0,05 y una desviación típica σ = 20 mm Hg
combinado, se planea realizar un nuevo ensayo clínico que tenga una potencia 1 -
un valor plausible basado en conocimientos previos, o bien relevante desde el punto de
similar
vista a la del
clínico estudio anterior, el tamaño muestral necesario en cada uno de los
β = 0,80 parao detectar
epidemiológico.
posibles diferencias de dicha magnitud. Asumiendo que se
grupos
Ejemplo sería
9.4  Dado que elnúmero estudiodedescrito en aelambosejemplo anterior carecía de potencia
pretende asignar el mismo pacientes brazos del ensayo
suficiente para detectar una diferencia subyacente de 5 mm Hg en la presión arterial
sistólica
clínico, unmedianiveldede2(los hipertensos
zsignificación
0 , 975 + z 0 ,80 ) σ
2
αbajo
2
= 0,05 2monoterapia
(1,y96una ,84)y2 20
+ 0desviación tratamiento
2
típica σcombinado,
= 20 mm Hg se planea
n
realizar un = n
1 nuevo 2 = =
ensayo clínico2 que tenga una potencia 2 1 – β==250,88
0,80 para≈ 251,
detectar posibles
(μ 1 − μ 2 ) 5
diferencias
similar a la de deldicha
estudio magnitud.
anterior,Asumiendo
el tamaño muestral que se pretende
necesario asignar
en cadael uno
mismo número de
de los
pacientes a ambos brazos del ensayo clínico, un nivel de significación α = 0,05 y una
desviación
para
gruposunasería
muestra σ = de
típica total 20 251mm+Hg 251similar= 502 apacientes.
la del estudio Supongamos, anterior,porel el
tamaño muestral
necesario en cada uno de los grupos sería
contrario, que el tratamiento combinado con el nuevo 2fármaco es muy costoso y
2( z 0,975 Para ) 2 σ 2 2el(1problema,
+ z 0,80concretar ,96 + 0,84)supongamos 20 2 que se dispone de n pares de observac
n1 = n2 = 2
= = 250,88 ≈ 251,
que se decide estudiar( μla1 mitad − μ 2 ) de sujetos bajo tratamiento 52 combinado que bajo
de una variable aleatoria continua. En cada pareja de datos dependientes, una
9.3.2 Tamaño muestral para la comparación de medias en dos muestras
para una muestra
monoterapia total esto
estándar; de 251 es, +n2251 = 0,5n = 5021. En pacientes.
tal caso, Supongamos,
el tamaño muestral por el contrario, que
para
el una muestra
tratamiento totalobservación
combinado de 251 con +el251 x1=corresponde
nuevo 502
fármacopacientes.esamuy
laSupongamos,
primera
costosomuestra porse
y que yella otra observación
decide estudiar x2 a la segu
dependientes
la mitad de
necesario ensujetos
el grupo bajo de tratamiento
monoterapiacombinado sería que bajo monoterapia estándar; esto es,
9.3.2 Tamaño
ncontrario,
= 0,5n . muestral
que
En el
tal caso, para
tratamiento
muestra.
el lacombinado
tamañocomparación
El muestral
objetivo con se de medias
elcentra
nuevo
necesario enen en
el dos
fármaco
comparar
grupo muestras
es muy
las
de costoso
medias
monoterapia y sería
poblacionales μ1 y μ2 a par
Supongamos
2 1
que se planea seleccionar n parejas de datos dependientes procedentes de
dependientes
que se decide estudiarestas la 5 +dos
(0,mitad 1)(1de
,96sujetos
muestras ) 2 20tratamiento
+ 0,84dependientes.
bajo 2
combinado que bajo
n =
dos poblaciones para contrastar la hipótesis
1 2 nula H :=μ376,32
= μ ≈ 377a la hipótesis
frente
0,5 ⋅ 5 0 1 2
Supongamos
monoterapia queestándar;
se planeaesto seleccionar
Los n2 = 0,5n
es,procedimientosn parejas de caso,
datos el
1. En desarrollados
tal dependientes
tamaño procedentes
en el muestral
Apartado 6.3 nodepueden aplicarse a est
y en el grupo de tratamiento
alternativa bilateral H1: μ1 ≠ μ2. Como se discutió combinado n 2 = 0,5∙376,32
en el Apartado 6.4, la media de las total
= 188,16 ≈ 189. El número
de pacientes
dosynecesario
en el grupo
poblaciones en elnecesarios
degrupo
para tratamiento
contrastar
de para el estudio
combinado
la hipótesis
monoterapia
situación, ya quesería lassería
nnula entonces
= 0,5⋅376,32
2 mediasH0: μde μ2=377
1 =ambas + 189
188,16
frente a la
muestras = no
≈ 189.566;sonesindependientes
El
hipótesis decir, 64 por proven
pacientes más de los requeridos en el caso
diferencias en cada pareja d se distribuirá de forma aproximadamente normal N(0, de igual tamaño muestral para alcanzar una
misma potencia.
número
alternativa total de pacientes
bilateral H1: μobservaciones
1≠μ necesarios
2. Como se para el2 estudio
correlacionadas.
discutió en sería
Sin entonces
2 el Apartado embargo, 377
6.4, la + 189
lamedia de=las se simplifica notabl
comparación
( 0,5 + 1 )(1 ,96 + 0 , 84 ) 20
σ d2 /n) bajo H0 y N(μ1n1- =μ2, σ d2 /n) bajo 0 ,5 ⋅
H12, donde σ d2= es
5
376,32 ≈ 377 de las diferencias.
la varianza
566;
diferenciases decir, 64
en muestral pacientes
cada pareja si se
d se más de
calculan loslas requeridos
diferencias
distribuirá de forma end el
= caso
x - x
aproximadamente de
2 enigual tamaño
cadanormal las n observaciones empar
unadependientes
deN(0,
9.3.2  Tamaño para la comparación de medias en1 dos muestras
Para un nivelpara
muestral de significación
alcanzarPor unaun α preestablecido,
misma
lado, potencia. el contraste arrojará un resultado
Supongamos
σ d2 y/n)enbajo que
H0 yseN(
el grupo deplanea
1 - μ2,seleccionar
μtratamiento
σ d2 /n) bajocomo
combinado nlas
nHparejas
1, donde
distintas
deσ datos
2 parejas
d es la varianza
2 = 0,5⋅376,32
no están
dependientes
= 188,16 de relacionadas
procedentes
las
≈ 189. diferencias.
El deentre
dos sí, estas diferen
poblaciones para contrastar la hipótesis nula H0: μ1 = μ2 frente a la hipótesis alternativa bilateral
H1significativo
: μ1 número
≠ μ . Como cuando
total
la media
se discutió son deApartado
las diferencias
en independientes.
el 6.4, el
la estudio
Pormedia de
otro lado, lasladiferencias
media de377 en+diferencias
las cada
189pareja
= 13 d se coincide con la
Para un2 nivel de de pacientes
significación necesarios para
α preestablecido, sería
el contraste entonces
arrojará un resultado
distribuirá de forma aproximadamente normal N(0, σd /n) bajo H0 y N(μ1 – μ2, σd /n) bajo H1,
2 2

donde σd2 esesladecir,


566;
significativo varianza
cuando ddiferencia
lademedia
las
64 pacientes ≤diferencias.
-z
más
de α/2de
1-las σde /medias
dlos Para dmuestrales,
ó un
nrequeridos
diferencias ≥nivel
z1-en σdcaso
α/2de
el significación
/ n de α preestablecido, el
. igual tamaño
contraste arrojará un resultado significativo cuando la media de las diferencias
muestral para alcanzar una misma potencia. 1 nμ , la potencia
1 n
Por tanto, asumiendo como d ≤en− zel apartado anterior que μ
1−α/2σ d / n ó d ≥ z1−αd/2σ =d1 /< n2d. i =  ( x i1para− x i 2detectar
)
n i =1 n i =1
Por tanto, asumiendo como μen anterior que μ1 igual < μ2n, ala potencia 13 una
una diferencia de medias 1 -el
μ2apartado
será aproximadamente para detectar
Por tanto, 1
queaμ=1 < μ2,xla 1 n
diferencia deasumiendo
medias μ1 –como enaproximadamente
μ2 será el apartado anterior igual  i1 −potencia
 xi 2para= x1detectar
− x2
n i =1 n i =1
una diferencia1de = P( d μ≤1 −- μ
− βmedias z12−αserá / n | H1 )
/2 σ d aproximadamente igual a
 dy,−en( μconsecuencia,
1 − μ2 ) − z1d−α / es n − ( μ 1 −insesgado
d / estimador
2 σun μ2) de la diferencia de medias
= P ≤ H1 
1 - β = P(d ≤σ-zd 1-/α/2σ n d / n | H1) σd / n 
 
poblacionales μ1 - μ2. Así, el problema de la comparación de medias en dos mues
 | μ − μ |
= Φ d− z−1−(αμ/ 12 −+ μ 2 )1 − 2z1−α ./ 2σ d / n − ( μ 1 − μ 2 ) 
= P dependientes σ 
≤/ n reducido
queda a una simple H1 
inferencia sobre la media de una única
 σ / n d  σd / n 
 d 
muestra de n diferencias independientes.
146 Pastor-Barriuso R.  | μ 1 − μ 2 | 
= Φ − z1Los +
−α / 2 métodos del Apartado . 6.2.1 para la media de una muestra pueden entonces
 / n que
Como por definición Φ(z  1-β) = 1 - β,σsed sigue
utilizarse para calcular un intervalo de confianza al 100(1 - α)% para μ1 - μ2 com
 | μ − μ 2 | 
= Φ − z1−α / 2 + 1 .
 σ d / n 
 Tamaño muestral para la comparación de medias
( z1−α / 2 + z1− β ) 2 σ d2
n= .
Como por definición Φ(z1-β) = 1 - β, se sigue μ 2) 2
( μ 1 −que
Como por definición Φ(z1–β) = 1 – β, se (sigue + z1− β ) 2 σ d2
z1−α / 2que
n= .
En la práctica, resulta difícil determinar − μ 2) 2
( μ 1 directamente
| μ − μ 2 | la varianza de las diferencias
z1− β = − z1−α / 2 + 1 ,
σd / n
σ dEnyalaque
2
los datos
práctica, de una
resulta misma
difícil pareja están
determinar correlacionados.
directamente Asumiendo
la varianza igual
de las diferencias
de donde puede despejarse n para obtener el número mínimo de parejas que serán necesarias
parade2 donde puede
detectar
σvarianza σuna
2 despejarse
endiferencia nmisma
para obtener
subyacente y μun el número
μestán
1 –coeficiente
mínimo
2 concorrelacionados.
unadepotencia de
1 –parejas
β,ρ entreque losserán
d ya que los datos
ambas depoblaciones
una pareja correlación Asumiendo igual
valores de
2 2
( z1−α / 2 + z1− β ) σ d
necesarias
una misma 2para detectar
pareja, la una diferencia
varianza de n =
las subyacente
diferencias μ1 -determinada
viene μ. 2 con una potencia
según los β,
1 -resultados
varianza σ en ambas poblaciones y un ( μ − μ ) 2 de correlación ρ entre los valores de
coeficiente
1 2

dellaApartado
En
una práctica,
misma 3.4
pareja,por
resulta difícil determinar
la varianza directamente
de las diferencias vieneladeterminada
varianza de según
las diferencias σd2 ya que
los resultados
En la
los datos depráctica,
una mismaresulta difícil
pareja determinar
están directamente
correlacionados. la varianza
Asumiendo igualdevarianza
las diferencias
σ en ambas
2

poblaciones
del Apartadoy un3.4
coeficiente
por deσ correlación
2 2 ρ entre los valores de una misma pareja, la varianza
2 2 2 14
d = σ + σ - 2σ ρ = 2σ (1 - ρ ).
de las
σ d2 diferencias viene de
ya que los datos determinada
una mismasegúnparejalos resultados
están del Apartado
correlacionados. 3.4 por igual
Asumiendo
2 2 2 2 2
σ d = σ + σ − 2σ ρ = 2σ (1 − ρ ).
Así, el número
2 de parejas necesarias también puede
varianza σ en ambas poblaciones y un coeficiente de correlación expresarse como
ρ entre los valores de
Así, el número de parejas necesarias también puede expresarse como
Así, misma
una el número de parejas
pareja, necesarias
la varianza de 2las también
( z1diferencias puede
viene
2 2expresarse
determinada como
según los resultados
−α / 2 + z1− β ) σ (1 − ρ )
n=
(μ 1 − μ 2 ) 2
del Apartado 3.4 por
2( z1−α / 2 + z1− β ) 2 σ 2 (1 − ρ )
que, además de los parámetros n=
descritos en de la correlación
ensayo
que, ademásclínico
de emparejado
los parámetros donde, enel μapartado
(lugar − de ) 2anterior,
μ 2 asignar depende
distintos pacientes a ambos entre
σ 2 =descritos
σ 2 + σno
cada pareja de datos. Si el emparejamiento d
2 en1 el 2apartado
- es
2σefectivo,
ρ = 2σ de 2 anterior, depende de la
(1tal
- ρforma
). que ρ está próximo a 0, el
número de parejas
grupos, cada necesarias
paciente espara un estudio
sometido a laSiemparejado
monoterapiaserá aproximadamente
estándar durante igual al número
un primer
correlación
que, además
de sujetos entre
de
por grupo cada
lospara unpareja
parámetros
estudio de datos.
descritos
con enelelemparejamiento
muestras apartado anterior,
independientes no es efectivo,
depende
(notar =de0,tal
que sideρ la la fórmula
Así,
anterior el número
se reduce de parejas necesarias también puede expresarse como
periodo de 4a semanas
la obtenida y alentratamiento
el caso de muestras
combinado independientes
con el nuevodel mismodurante
fármaco tamaño). Si, por
forma queelρ entre
correlación
el contrario, está próximo
cada pareja
emparejamiento a 0,es elefectivo,
de número
datos. Sideel parejas
los necesarias
emparejamiento
datos de cada parejanopara un estudio
es efectivo,
estarán de tal
correlacionados
positivamente
un segundo y, enperiodo
consecuencia,
de igualelduración.
2número
( z1−α / 2 de
+Sezparejas
asume será
(1 −substancialmente
que laρ )desviación típica inferior
de la al número
1− β ) σ de
2 2
emparejado
de forma
sujetos que ρ será
requeridos aproximadamente
en cadaagrupo
está próximo 0,n el deigual
= número al número
un estudio
de sujetos bajo
independiente
parejas necesarias por
para grupo
las
un para un
mismas
estudio estudio
condiciones.
(μ1 − μ 2 ) 2
presión arterial sistólica bajo ambos tratamientos es 20 mm Hg, y que el
conEjemplo
muestrasserá
emparejado independientes
9.5  Con objeto (notar
aproximadamente que sialρla
igual
de asegurar =comparabilidad
0, la de
número fórmula
sujetos anterior
por sepacientes
grupo
de los reduce
para un a hipertensos
la
estudio
que,bajo monoterapia
coeficiente
además dedelos y tratamiento
correlación
parámetros entre combinado, en el se
las determinaciones
descritos decide diseñar
apartado tomadas
anterior, undepende
ensayo
en clínico
un mismo emparejado
de lasujeto
obtenida
condonde, en
muestras el caso
en lugar de muestras
de asignar (notar
independientes independientes
distintos del
si ρ = 0, alaambos
quepacientes mimo
fórmula tamaño).
grupos,
anterior Si,
cada por el
se paciente contrario,
reduce aes la sometido
a la monoterapia
con un intervalo
correlación entre cada estándar
de 4pareja
semanas durante un primer
es aproximadamente
de datos. periodo
Si el emparejamiento de
0,50. Para 4 semanas
no esdetectar y al
unade tal
efectivo, tratamiento
el emparejamiento
combinado
obtenida casoeles
en el con efectivo,
denuevo
muestrasfármacolos datos
durante
independientesde cada pareja
un segundo
del mimo estarán
periodo
tamaño). correlacionados
de igual
Si, porduración.
el contrario,Se asume
que
forma la desviación
diferencia subyacente
que ρ está típica
próximode de la
5 mm
a 0, presión
Hg en de
el número arterial
la presiónsistólica
parejas arterial bajo
necesarias ambos
sistólica
para un tratamientos
media al final de20 mm
estudio es
positivamente y, en
Hg, y que el coeficiente
el emparejamiento consecuencia,
es efectivo, el
de correlación número
los datos deentre de
cada lasparejas será substancialmente
determinaciones
pareja tomadas en
estarán correlacionados inferior
un mismo
sujeto con un
ambos tratamientos
emparejado intervalo de 4
con una potencia
será aproximadamente semanas
igual de es aproximadamente
0,80 y undenivel
al número sujetos 0,50.
de significación
por grupo paraPara
deun detectar
estudiouna
0,05,
al número de sujetos
diferencia subyacente
positivamente requeridos
de 5 mm Hg
y, en consecuencia, en cada grupo
en la presión
el número de un
de parejas estudio
arterial independiente
serásistólica bajo
media al final
substancialmente las
de ambos
inferior
con tratamientos
elmuestras
número de con una potencia
sujetos necesarios
independientes (notarende 0,80
que este y un nivel
si ρestudio de
= 0, laemparejadosignificación
fórmula anterior de 0,05,
sería se reduce a lael número de
mismas
al número condiciones.
parejas necesarias sería
de sujetos requeridos en cada grupo de un estudio independiente bajo las
obtenida en el caso de muestras
2(1,96 + independientes
0,84) 2 20 2 (1 − 0del
,50)mimo tamaño). Si, por el contrario,
mismas condiciones. n = = 125,44de≈ los
126;pacientes
Ejemplo 9.5 Con objeto de asegurar 52 la comparabilidad
el emparejamiento es efectivo, los datos de cada pareja estarán correlacionados
es decir, la mitad
hipertensos
Ejemplo 9.5bajo
Condemonoterapia
los sujetos
objeto que serían
y tratamiento
de asegurar necesarios en de
combinado,
la comparabilidad cada
selosuno
decidedediseñar
los grupos
pacientes un de un
es decir,nolaemparejado
positivamente
diseño mitad de los(Ejemplo
sujetos el
y, en consecuencia, que serían de
número
9.4). necesarios en cada
parejas será uno de los grupos
substancialmente de
inferior
hipertensos bajo monoterapia y tratamiento combinado, se decide diseñar un
al un diseño
Lanúmero de no
determinación emparejado
sujetos tamaño (Ejemplo
del requeridos
muestral 9.4).
en cada grupo
para de un estudio
la comparación de independiente
medias en más bajo lasmuestras
de dos 15
dependientes o independientes sigue argumentos similares a los descritos en este apartado. No
mismas condiciones.
La determinación del tamaño muestral para la comparación de medias en más de dos 15 Pastor-Barriuso R. 147

muestrasEjemplo
dependientes o independientes
9.5 Con siguelaargumentos
objeto de asegurar similares
comparabilidad a los
de los descritos en
pacientes
aproximación
en el Apartadonormal
9.2.2, alas
la fórmulas
distribución muestral
descritas de una proporción
a continuación y, en consecuencia,
se fundamentan en la

serán válidas
aproximación
Determinación siempre
del tamaño muestralque
normal π(1 - π) ≥ 5 muestral
a landistribución en ambosdegrupos de comparación.
una proporción En las
y, en consecuencia,

referencias de siempre
serán válidas este temaque
pueden
nπ(1 -consultarse otros métodos
π) ≥ 5 en ambos alternativos
grupos de de cálculo
comparación. En las del
obstante, para preservar la incertidumbre global del proceso de inferencia, es necesario utilizar
tamaño muestral
referencias particularmente
de este tema pueden útiles para laotros
consultarse comparación
métodos de proporciones muy del
técnicas de corrección por las múltiples comparaciones que se alternativos de cálculo
pretendan realizar en el análisis
(por ejemplo, un ensayo clínico en el que se comparan varios tratamientos frente a placebo). Estos
extremas
tamaño en muestras
muestral reducidas. útiles para la comparación de proporciones muy
particularmente
métodos pueden consultarse en los libros de tamaño muestral referenciados al final del tema.
extremas
9.4.1 en muestras
Tamaño muestral reducidas.
para la comparación de proporciones en dos muestras
9.4  TAMAÑO MUESTRAL PARA LA COMPARACIÓN DE PROPORCIONES
independientes
9.4.1 Tamaño muestral para la comparación de proporciones en dos muestras
En esta sección se aborda el problema de la determinación del tamaño muestral en estudios
observacionales
El o ensayos
propósito se
independientes centra enclínicos donde
contrastar se pretende
la hipótesis nulacontrastar diferencias
de igualdad entre proporciones
de proporciones
a partir de dos muestras dependientes o independientes. Al igual que en el Apartado 9.2.2, las
fórmulas descritas
poblacionales
El propósito Ha0centra
se : continuación
π1 = en
π2 frentesea fundamentan
contrastarla la
hipótesis
hipótesis en la aproximación
alternativa
nula Hnormal
bilateral de
de igualdad : π1 ≠ πa2laa partir
1proporciones distribución
de
muestral de una proporción y, en consecuencia, serán válidas siempre que nπ(1 – π) ≥ 5 en
ambos
dos grupos deindependientes
muestras
poblacionales comparación. En
delas
H0: π1 = π2 frente a referencias
tamaños n1 y nde
la hipótesis este tema bilateral
pueden
2. Del Apartado
alternativa 7.3consultarse
π1 ≠ π2otros
se1:desprende
H quemétodos
lade
a partir
alternativos de cálculo del tamaño muestral particularmente útiles para la comparación de
proporciones
diferencia muy
de
dos muestras extremas enmuestrales
proporciones
independientes muestras
de tamaños reducidas.
p1 -np12yseguirá
n2. Delaproximadamente una distribución
Apartado 7.3 se desprende que la

normal N(0,deπmuestral
diferencia
9.4.1  Tamaño (1 - π)(1/npara
proporciones 1 + 1/n
la2)) bajo H
muestrales
comparación p10 -ypN( π1 -proporciones
π2, aproximadamente
2 seguirá
de π1(1 - π1)/n en1 + π2(1
dos - πdistribución
una 2)/n2) bajo
muestras
independientes
Hnormal
1, donde π =π(n
N(0, (11-π1π)(1/n
+ n2π12+ 1/n
)/(n 1+ 2) es H
2))nbajo y N(π1 - π2,combinada
la0proporción π1(1 - π1)/nque π2(1
1 + se - π2)/n
asume 2) bajo
común a
El propósito se centra en contrastar la hipótesis nula de igualdad de proporciones poblacionales
Hπ11, =
H0:ambos π =bajo
πgrupos
donde
2 frente (na1πla
H1+ nEl2πcontraste+ n2resultará
2)/(n1 alternativa
0.hipótesis ) es la proporción Hcombinada
significativo
bilateral 1: πpara
1 ≠ π un que
2 anivelseαasume
partir cuando
de doscomún a
lamuestras
independientes de tamaños n1 y n2. Del Apartado 7.3 se desprende que la diferencia de
proporciones
diferencia
ambos grupos de bajo Hp0.1 El
muestrales
proporciones – pcontraste
2 seguirá aproximadamente
muestrales resultará significativo una distribución
para un nivelnormal N(0,laπ(1 – π)
α cuando
(1/n1 + 1/n2)) bajo H0 y N(π1 – π2, π1(1 – π1)/n1 + π2(1 – π2)/n2) bajo H1, donde π = (n1π1 + n2π2)/
n2) es la proporción
(n1 +diferencia de proporcionescombinada que se asume común a ambos grupos bajo H0. El contraste
muestrales
p - p
resultará significativo para un nivel α cuando
1 2 ≤ -z 1-α /2 π (la π )(1 / n1 +de
1 −diferencia n2 )
1 /proporciones muestrales

p1 − p2 ≤ − z1− α /2 π (1 − π )(1 / n1 + 1 / n 2 )
o
o
o
p1 − p2 ≥ z1−α /2 π (1 − π )(1 / n1 + 1 / n 2 ) .

Así, asumiendo sin pérdida de


p1generalidad π (1π−1 <
- p2 ≥ z1-α/2 que π21, /lan1potencia
π )( + 1 / n 2 ) para
. detectar una diferencia
Así, asumiendo sin pérdida de generalidad que π
de proporciones subyacente π1 – π2 vendrá determinada por
1 < π 2 , la potencia para detectar una

Así, asumiendo
diferencia1de = sin
P( ppérdida
− βproporciones de generalidad
subyacente π1 - πque π1 < πdeterminada
2 vendrá 2, la potenciapor
para detectar una
1 − p2 ≤ − z1 − α /2 π (1 − π )(1 / n1 + 1 / n 2 ) | H1 )


diferencia de proporciones psubyacente
1 − p 2 − (π π
1 1−-ππ22 )vendrá determinada por
= P
 π (1 − π ) / n + π (1 − π ) / n
 1 1 1 2 2 2

17
− z1−α / 2 π (1 − π )(1 / n1 + 1 / n 2 ) − (π 1 − π 2 ) 
≤ H1 
α / 2

π 1 (1 − π 1 ) / n1 + π 2 (1 − π 2 ) / n 2  17

 | π − π 2 | − z1−α / 2 π (1 − π )(1 / n1 + 1 / n 2 ) 
= Φ 1 .
 π 1 (1 − π 1 ) / n1 + π 2 (1 − π 2 ) / n 2 
 

148 Si las limitaciones


Pastor-Barriuso R. prácticas determinan de antemano el tamaño muestral disponible

para un estudio o si el estudio ya ha sido llevado a cabo, la fórmula anterior permitirá


Tamaño muestral para la comparación de proporciones

Si las limitaciones prácticas determinan de antemano el tamaño muestral disponible para un


estudio o si el estudio ya ha sido llevado a cabo, la fórmula anterior permitirá calcular la potencia
estadística que tendría dicho estudio con la muestra disponible para detectar diferencias de una
determinada magnitud.

Ejemplo 9.6  Se planea realizar un estudio de cohortes para evaluar la asociación entre
el =
uso de anticonceptivos
0,00750. Aplicando laorales
regla ydeellariesgo de cáncer
probabilidad de (véase
total mama Apartado
en mujeres2.4),
entre la 40 y 49
años. Para ello, se dispone de una cohorte de 6.000 mujeres en este rango de edad sin
evidencia
relaciónbasal
entrede cáncer
esta de mama,combinada
probabilidad que serán seguidas
de cáncerdurante
de mamaun en
periodo decohorte
toda la 5 años para
determinar casos incidentes de la enfermedad. Se estima que un 40% de estas mujeres han
utilizado regularmente específicas
y las probabilidades anticonceptivos oralesdeyexposición
por grupo que la tasavendrá
de incidencia
dada porde cáncer de
mama en este grupo de edad es de I = 150 casos por 100.000 personas-año. Para un nivel
de significación α = 0,05, ¿cuál sería la potenciacde este estudioc
para detectar un hipotético
π = P(D) = P(E)P(D|E) + P(E )P(D|E )
aumento del riesgo de cáncer de mama del 50% entre las usuarias de anticonceptivos
orales?
= 0,40π 1 + 0,60π 2 = 0,40⋅1,50π 2 + 0,60π 2 = 1,20π 2 ,
Asumiendo una tasa delaincidencia
= 0,00750. Aplicando regla de laconstante
probabilidaden los 5 años
total (véasedeApartado
seguimiento,
2.4),lalaincidencia
acumulada o probabilidad de desarrollar un cáncer de mama en esta cohorte durante los
ya queentre
próximos
relación se
5 estima
años que aproximadamente
estasería un 40% de
probabilidad las mujeres
combinada π de son
= IA usuarias
5 = 0,00150∙5
cáncer de mama de anticonceptivos
=
en0,00750. Aplicando la
toda la cohorte
regla de la probabilidad total (véase Apartado 2.4), la relación entre esta probabilidad
orales
combinada
y las y que
de cáncer
probabilidades de mamaπ1por
la probabilidad
específicas endetoda
padecer
grupo ladeun cáncer
cohorte y las
exposición devendrá
mama dada
entrepor
probabilidadeslasespecíficas
usuarias es por
grupo de exposición vendrá dada por
un 50% superior a la probabilidad π2 entre clas no usuarias.c
Así, la probabilidad de
π = P(D) = P(E)P(D|E) + P(E )P(D|E )
desarrollar un cáncer
= 0,40πde mama en los 5 años de seguimiento sería π2 = π/1,20 =
1 + 0,60π 2 = 0,40⋅1,50π 2 + 0,60π 2 = 1,20π 2 ,

ya0,00750/1,20
que se estima=que un 40%
0,00625 de las mujeres
entre sonyusuarias
no usuarias deπanticonceptivos
π1 = 1,50 2 = 1,50⋅0,00625orales
= y que
la que se estimaπ1que
yaprobabilidad de padecer
un 40% un de cáncer de mama
las mujeres entre lasde
son usuarias usuarias es un 50% superior a
anticonceptivos
la 0,00938
probabilidad π
entre las
2 entre
usuarias de anticonceptivos orales. Como se espera que un
las no usuarias. Así, la probabilidad de desarrollar n1 =cáncer de
mama
orales en los la
y que 5 años de seguimiento
probabilidad sería πun
π1 de padecer π/1,20 de
2 = cáncer = 0,00750/1,20
mama entre las = 0,00625
usuariasentre
es las
usuarias y =π12.400
no0,40⋅6.000 = 1,50π = 1,50∙0,00625
mujeres
2 = 0,00938 entre las usuarias de anticonceptivos
de la muestra sean usuarias de estos anticonceptivos y
orales. Como se espera que n1 = 0,40∙6.000 = 2.400 mujeres de la muestra sean usuarias
un 50% superior a la probabilidad π2 entre las no usuarias. Así, la probabilidad de
delas
estos anticonceptivos
restantes y las restantes
n2 = 0,60⋅6.000 = 3.600 non2 usuarias,
= 0,60∙6.000 = 3.600denoeste
la potencia usuarias,
estudiolasería
potencia
de este estudio sería
desarrollar un cáncer de mama en los 5 años de seguimiento sería π2 = π/1,20 =
 | 0,00938 − 0,00625 | −1,96 0,00750(1 − 0,00750)(1 / 2.400 + 1 / 3.600) 
1 − β = Φ= 0,00625 entre las no usuarias y π1 = 1,50π2 = 1,50⋅0,00625 =
0,00750/1,20 
 0,00938 (1 − 0, 00938 ) / 2 .400 + 0, 00625(1 − 0, 00625) / 3. 600 
 
0,00938 entre las usuarias de anticonceptivos orales. Como se espera que n1 =
 0,00313 − 1,96 ⋅ 0,00227 
= Φ  = Φ(− 0,56) = 0,287;
 0,00237
0,40⋅6.000 = 2.400 mujeres de la muestra  sean usuarias de estos anticonceptivos y
es decir, la probabilidad de detectar un hipotético incremento del riesgo de cáncer de
las restantes n = 0,60⋅6.000 = 3.600 no usuarias, la potencia de este estudio sería
mama del 50%2 entre las usuarias y no usuarias de anticonceptivos orales sería únicamente
es decir, la probabilidad de detectar un hipotético incremento del riesgo de cáncer
del 28,7% a partir de una cohorte de 6.000 mujeres seguidas durante 5 años.
 | 0,00938 − 0,00625 | −1,96 0,00750(1 − 0,00750)(1 / 2.400 + 1 / 3.600) 
1de- βmama
= Φdel 50% entre las usuarias y no usuarias de anticonceptivos orales sería 

La expresión anterior de,00938
0 la potencia
(1 − 0, permite
00938 ) / asimismo
2 .400 + 0, determinar
00625 (1 − 0, a priori) /la3.muestra
00625 600 
mínima
 
que seráúnicamente
necesaria endelcada uno de
28,7% los grupos
a partir de unapara alcanzar
cohorte una potencia
de 6.000 mujeres preestablecida
seguidas durante 1 –5β en
la detección de una diferencia subyacente de proporciones π1 – π2. En general, si se prevé asignar
 0,00313 − 1,96 ⋅ 0,00227  sigue a partir de la fórmula de la potencia que
distinto años.
tamaño= Φaambas muestras n2 = kn1, se = Φ(-0,56) = 0,287;
 0,00237 

La expresión anterior de la potencia permite asimismo determinar a priori laPastor-Barriuso


muestra R. 149
es decir, la probabilidad de detectar un hipotético incremento del riesgo de cáncer
mínima que será necesaria en cada uno de los grupos para alcanzar una potencia
de mama del 50% entre las usuarias y no usuarias de anticonceptivos orales sería
2 | π 1 − π 2 | − z1−α / 2 π (1 − π ) +  2 1
 n1 kn1 
π2. Endegeneral, z1- β = asignar distinto tamaño a ambas muestras n = kn , se sigue a
si sedeprevé
partir la fórmula la potencia que π 1 (1 − π 1 ) π 2 (1 − π 2 ) 2 1
Determinación del tamaño muestral +
n kn1
partir de la fórmula de la potencia que 1
1 1 
| π 1 − π 2 | − z1−α / 2 π (1 − π ) + 
(k + 1)π (1n−1 π ) kn1 
z1- β = | π 1 − π 2 | − z1−α / 2 1 1 
| π 1 − π 2π|1−(1z−
1−απ /12) π π(12− (kn
1π−)1π 2 ) + 
= +  n1 kn , 1 
z1−β = kπ 1 (1 −nπ1 1 ) + π 2 (1 −kn π12 )
π 1 (1 − πkn 1) π 2 (1 − π 2 )
1 +
n1 kn
(k + 1)π (11 − π )
| π 1 − π 2 | − z1−α / 2
de tal forma que el tamaño muestral requerido será
= | π −π | −z (k + 1kn
)π1(1 − π ) ,
1
kπ 1 (1 − π 1 ) + π 2 (1 −kn
2 1−α / 2
π 21 )
= ,
( z1−α / 2 (k + 1)π (1kπ−1π(1) −+πz1kn 1 π kπ(11 −
1)− β+ (1π − π
) 1 ) + π 2 (1 − π 2 ) )
2

n1 = 2 2

k (π 1kn−1π 2 ) 2
de tal forma que el tamaño muestral requerido será
de en
tal la
forma que muestra
el tamaño y nmuestral requerido será
primera 2 = kn1 en la segunda muestra, donde la proporción combinada
de tal forma que el tamaño muestral requerido será
( z1−α / 2 (k + 1)π (1 − π ) + z1− β kπ 1 (1 − π 1 ) + π 2 (1 − π 2 ) ) 2
en ambas muestrasn1 = viene dada por π = (n1π1 + n2π2)/(n + n2) = (π1 + kπ2)/(1 + k). En el
k (π 1 − π 2 ) 2 1
( z1−α / 2 (k + 1)π (1 − π ) + z1− β kπ 1 (1 − π 1 ) + π 2 (1 − π 2 ) ) 2
en caso de asignar
la primera n1 =
igualytamaño
muestra n2 = kna1 ambos grupos de
en la segunda comparación k = 1, el tamaño muestral
k (π 1 muestra,
− π 2 ) 2 donde la proporción combinada en
ambas muestras viene dada por
en la primera muestra y n2 = kn1 en la π = (n π + n
1 1segunda π )/(n
2 2 muestra,1 + n2) donde= (π1 +lakπ 2)/(1 + k). combinada
proporción En el caso de
en cada
asignar una
igual de las amuestras
tamaño ambos grupos se reduce a
de comparación k = 1, el tamaño muestral en cada una de
las en
muestras
enambas se
la primera reduce
muestra
muestras a
viene 2 = kn
y ndada 1 en
por π la
= segunda
(n1π1 + nmuestra,
2π2)/(n1 +donde n2) = la(π1proporción
+ kπ2)/(1 +combinada
k). En el
( z1−α / 2 2π (1 − π ) + z1− β π 1 (1 − π 1 ) + π 2 (1 − π 2 ) ) 2
en ambas
caso muestras
de asignar n 2 viene
n1 =igual =tamaño dada por π =grupos
a ambos (n1π1 +den2comparación
π2)/(n1 + n2) =k =(π1, π2)/(1
1 +elktamaño k). En el
, + muestral
(π 1 − π 2 ) 2
caso
en cadade una
asignar
de lasigual tamañoseareduce
muestras ambosagrupos de comparación k = 1, el tamaño muestral
donde la proporción combinada es π = (π1 + π2)/2. Como se comentó anteriormente, la asignación
de donde
igual tamaño a las dos
la proporción muestras
combinada es es
π =más
(π + eficiente
π2)/2. Como al requerir un menor
se comentó tamaño total
anteriormente, la del
en cada una de las muestras se reduce a 1
estudio para alcanzar una (misma z1−α / 2 potencia.
2π (1 − π )Sin
+ zembargo,
1− β π 1 (1 en
− πel1 )diseño
+ π 2 (1de
− πdeterminados
2) )
2 estudios
(verasignación
ejemplos de n1igual
= n 2 tamaño
= la aselección
posteriores), de muestras
las dos muestras es más de2 eficiente
distinto altamaño
requerir un, menor
puede resultar más
factible en términos de coste 1 −π 2)
(π pacientes.
( z1o−αdisponibilidad de En cualquier caso, 2la determinación
/ 2 2π (1 − π ) + z1− β π 1 (1 − π 1 ) + π 2 (1 − π 2 ) )
deltamaño
tamañototal n1 =estudio
muestral
del npara
2 = lapara
comparación
alcanzar unade proporciones
misma potencia. en muestras
Sin embargo, en ,el diseñoprecisa
independientes
(π 1 − π 2 ) 2
de los
dondesiguientes elementos:
la proporción combinada es π = (π1 + π2)/2. Como se comentó anteriormente, la
de determinados estudios
yy El nivel de significación (ver ejemplos
α del posteriores),
contraste bilateral, que la selección de muestras
suele establecerse pordeconvenio en
donde
asignaciónla proporción
α = 0,05. combinada
de igual tamaño dosπ muestras
a las es = (π1 + πes 2)/2.
más Como se comentó
eficiente anteriormente,
al requerir un menor la
distinto tamaño puede resultar más factible en términos de coste o disponibilidad de
yy La potencia 1 – β para detectar hipótesis alternativas ciertas. La mayoría de los estudios
asignación
tamaño totalde
deligual tamaño
estudio paraaalcanzar
las dos muestras
una misma es potencia.
más eficiente al requerirenunelmenor
Sin embargo, diseño
se diseñan con una potencia 1 – β = 0,80 ó 0,90.
ydey Las
tamaño proporciones poblacionales
total del estudios
determinados estudio para π1 una
(ver alcanzar
ejemplos π2misma
yposteriores),
. A diferencia de Sin
potencia. la comparación
la selección embargo, en de
de muestras medias, no
eldediseño
es suficiente con determinar la diferencia de proporciones que se pretende detectar, sino
deque
distinto estamaño
necesario
determinados especificar
estudios
puede (verla
resultar magnitud
ejemplos
más aproximada
posteriores),
factible lade
en términos esta
costeproporción
selección
de o de en cada
muestras
disponibilidad grupo
de de 20 de
comparación, para contar así con un valor aproximado de las varianzas poblacionales
π1) y π2(1
π1(1 – tamaño
distinto – π2).resultar más factible en términos de coste o disponibilidad de
puede

Ejemplo 9.7  Como se vio en el ejemplo anterior, una cohorte de 6.000 mujeres carece
de potencia suficiente para detectar un hipotético incremento del 50% en la incidencia
20
acumulada de cáncer de mama en 5 años entre las mujeres usuarias y no usuarias de
anticonceptivos orales. Según los cálculos del ejemplo anterior, la incidencia acumulada
20
en este periodo en una cohorte de mujeres entre 40 y 49 años será aproximadamente
π = 0,00750, siendo π1 = 0,00938 y π2 = 0,00625 las respectivas incidencias acumuladas

150 Pastor-Barriuso R.
años será aproximadamente π = 0,00750, siendo π1 = 0,00938 y π2 = 0,00625 las
mujeres usuarias de estos anticonceptivos y n2 = 1,5⋅10.202,55 = 15.303,82 ≈
respectivas incidencias acumuladas en usuarias y no usuarias. Como se prevé que
Tamaño muestral para la comparación de proporciones
15.304 no usuarias. Así, para detectar un aumento subyacente del riesgo de cáncer
la cohorte esté compuesta de un 40% de mujeres usuarias de anticonceptivos
de mama del 50% entre las usuarias de anticonceptivos orales con una potencia de
en usuarias
orales y no de
y un 60% usuarias. Comosesetiene
no usuarias, prevé que
que n2 la cohorte
= 1,5n esté compuesta
1. Asumiendo de de
un nivel un 40% de
0,80, se precisaría de una cohorte inicial de 25.507 mujeres seguidas durante untiene que
mujeres usuarias de anticonceptivos orales y un 60% de no usuarias, se
nsignificación
2 = 1,5n1. Asumiendo
α = 0,05 un nivel
y una de significación
potencia α =se0,05
1 - β = 0,80, y una potencia 1 – β = 0,80, se
necesitarían
necesitarían
periodo de 5 años.
(1,96 2,5 ⋅ 0,00744 + 0,84 1,5 ⋅ 0,00929 + 0,00621 ) 2
n1 =
El tamaño necesario de la cohorte se reduciría si el seguimiento del estudio se
1,5(0,00938 − 0,00625) 2
extendiera, por ejemplo, hasta
= 10.202,55 los 10 años, ya que el número esperado de eventos
≈ 10.203
mujeres usuarias de estos anticonceptivos y n2 = 1,5∙10.202,55 = 15.303,82 ≈ 15.304 no
aumentaría considerablemente.
usuarias. Así, Siguiendo
para detectar un aumento argumentos
subyacente similares
del riesgo a los del
de cáncer deejemplo
mama del 50%
entre las usuarias de anticonceptivos orales con una potencia de 0,80, se precisaría21de una
anterior, la incidencia
cohorte inicial acumulada
de 25.507 mujeresen toda ladurante
seguidas cohorteun
durante 10 de
periodo años sería π =
5 años.
El tamañoy necesario
0,01500, de la cohorte
las incidencias se reduciría
acumuladas si elentre
específicas seguimiento del estudio
las usuarias se extendiera,
y no usuarias
por ejemplo, hasta los 10 años, ya que el número esperado de eventos aumentaría
considerablemente.
de Siguiendo
anticonceptivos orales argumentos
serían similares
π1 = 0,01875 y π2 =a 0,01250,
los del ejemplo anterior, la incidencia
respectivamente. La
acumulada en toda la cohorte durante 10 años sería π = 0,01500, y las incidencias
acumuladas
cohorte específicas
necesaria entreentonces
consistiría las usuarias
en y no usuarias de anticonceptivos orales serían
π1 = 0,01875 y π2 = 0,01250, respectivamente. La cohorte necesaria consistiría entonces en

(1,96 2,5 ⋅ 0,01478 + 0,84 1,5 ⋅ 0,01840 + 0,01234 ) 2


n1 =
1,5(0,01875 − 0,01250) 2

= 5.061,27 ≈ 5.062
usuarias de anticonceptivos orales y n2 = 1,5∙5.061,27 = 7.591,90 ≈ 7.592 no usuarias; es
decir, 12.654 mujeres seguidas a lo largo de 10 años.
usuarias de anticonceptivos orales y n2 = 1,5⋅5.061,27 = 7.591,90 ≈ 7.592 no
de la población de referencia, la proporción de utilización de anticonceptivos
Ejemplo es
usuarias; 9.8 decir,
Dado que la
12.654 realización
mujeres seguidasde una loestudio
largo de prospectivo
10 años. requeriría de una gran
cantidad de personas-año de seguimiento para obtener un númeroπ2suficiente
orales entre las mujeres del grupo control será aproximadamente = 0,40. Ade casos de
de la población
cáncer de mama,deresultará
referencia,
máslaviable
proporción
llevar adecaboutilización
un estudio de anticonceptivos
de casos y controles. En tal
partir de la expresión del odds ratio en estudios de casos
caso, el propósito se centrará en seleccionar un número suficiente de y controles (véase
casos y controles
Ejemplo
para 9.8 las
oralesdetectar
entre Dado queratio
unmujeres
odds ladel
realización
grupo
de de
deun
control
cáncer estudio
será
mama ω =prospectivo
aproximadamente
1,50 entre las requeriría
πusuarias
2 = deyAuna
0,40. no usuarias
Apartado 7.6.2), se tiene que
de anticonceptivos orales con una potencia 1 – β = 0,80. Si los controles seleccionados
gran
partircantidad
constituyen de personas-año
una muestra
de la expresión de seguimiento
representativa
del odds ratio para
de la población
en estudios obtener
de casos un número
ydecontroles
referencia, suficiente
la proporción de
(véase
utilización de anticonceptivos P( E | Dorales
) P( E c | entre
D c ) las π 1 (1mujeres
− π 2 ) del grupo control será
de casos de cáncer
aproximadamente πde =mama,
ω
Apartado 7.6.2), se 2tiene que =
0,40. resultará
A partir demás
la viable=
expresión llevar
del aodds , ratio
cabo un estudio de de casos y
en estudios
P( E | D c ) P( E c | D) π 2 (1 − π 1 )
controles (véase Apartado 7.6.2), se tiene que
casos y controles. En tal caso, el propósito se centrará en seleccionar un número
P( E | D) P( E c | D c ) π 1 (1 − π 2 ) ,
de donde puede despejarse ω = la proporción =
π1 de mujeres que han usado
suficiente de casos y controles | D c detectar
P( Epara ) P( E c | Dun) odds 1 − π 1de
π 2 (ratio ) cáncer de mama ω =
anticonceptivos
de donde puede orales entre la
despejarse losproporción
casos de cáncer
π1 de de mamaque
mujeres comohan usado anticonceptivos
1,50 entre las usuarias y no usuarias de anticonceptivos orales con una potencia 1
orales entre
de donde los casos
puede de cáncer
despejarse de mama πcomo
la proporción 1 de mujeres que han usado

- β = 0,80. Si los controles ωπ 2


seleccionados 1,50 ⋅ 0,40 una muestra representativa
constituyen
π 1 =entre
anticonceptivos orales = cáncer = 0,50.
1 + ( ω − 1)π 2 1 + 0,50de
los casos de ⋅ 0,mama
40 como
22
ωπ2 1,50 ⋅ 0,40
π1 =
Para un nivel de significación estándar =α = 0,05 y asumiendo
= 0,50.la selección del
1 + (ω − 1)π 2 1 + 0,50 ⋅ 0,40
mismo número de casos que controles, de tal forma que la proporción combinada
Para un nivel de significación estándar α = 0,05 y asumiendo la selección del
Pastor-Barriuso R. 151
π = (π1 + π2)/2 = (0,50 + 0,40)/2 = 0,45, el número necesario de casos y controles
mismo número de casos que controles, de tal forma que la proporción combinada
Para un nivel de significación estándar α = 0,05 y asumiendo la selección del

mismo
Determinación del número de casos
tamaño muestral que controles, de tal forma que la proporción combinada

π = (π1 + π2)/2 = (0,50 + 0,40)/2 = 0,45, el número necesario de casos y controles


Para un nivel de significación estándar α = 0,05 y asumiendo la selección del mismo
número de casos que controles, de tal forma que la proporción combinada π = (π1 + π2)/2
sería
= (0,50 + 0,40)/2 = 0,45, el número necesario de casos y controles sería
(1,96 2 ⋅ 0,45(1 − 0,45) + 0,84 0,50(1 − 0,50) + 0,40(1 − 0,40) ) 2
n1 = n2 =
(0,50 − 0,40) 2
= 386,90 ≈ 387,
para una muestra total de 774 mujeres.
Supongamos
para que,total
una muestra dadadela774
bajamujeres.
incidencia de cáncer de mama, la disponibilidad de casos
incidentes de esta enfermedad en la población es limitada y, por tanto, se decide reclutar el
doble de controles
Supongamos que de
que, dada lacasos. Así, n2 = 2n
baja incidencia de1 ycáncer
la proporción combinada
de mama, será π = (π
la disponibilidad de1 + kπ2)/
(1 + k) = (0,50 + 2∙0,40)/3 = 0,43. La muestra necesaria estaría entonces compuesta por
casos incidentes de esta enfermedad en la población es limitada y, por tanto, 2se
(1,96 3 ⋅ 0,43(1 − 0,43) + 0,84 2 ⋅ 0,50(1 − 0,50) + 0,40(1 − 0,40) )
n1 = 2
decide reclutar el doble de controles 2que de −casos.
(0,50 0,40)Así, n2 = 2n1 y la proporción
= 289,17 ≈ 290
combinada será π = (π1 + kπ2)/(1 + k) = (0,50 + 2⋅0,40)/3 = 0,43. La muestra
casos de cáncer de mama y n2 = 2∙289,17 = 578,33 ≈ 579 controles libres de la enfermedad.
necesaria
El tamaño estaría entonces
total sería compuesta
290 y+ pores decir, 95 mujeres más de las requeridas en un
casos de cáncer de mama n579 = 869;
2 = 2⋅289,17 = 578,33 ≈ 579 controles libres de la
estudio con el mismo número de casos que controles.
enfermedad. El tamaño total sería 290 + 579 = 869; es decir, 95 mujeres más de
9.4.2 Tamaño muestral para la comparación de proporciones en dos muestras dependientes
las requeridas en un estudio con el mismo número de casos que controles. 23
Supongamos que se pretende contrastar la hipótesis nula H0: π1 = π2 frente a la hipótesis alternativa
bilateral H1: π1 ≠ π2 a partir var( pde n parejas de datos dependientes. Para simplificar la exposición,
b - pc ) = var( pb ) + var( pc) - 2 cov( pb , pc )
supondremos además que se trata de un estudio de casos y controles emparejados uno a uno,
9.4.2 Tamaño
donde muestrallas
π1 y π2 representan para la comparación
respectivas de proporciones enexpuestos
dos muestras
πproporciones
b (1 − π b ) πpoblacionales
c (1 − π c ) 2de
πb πc a un determinado
factor antecedente entre casos y controles. = Como+las parejas concordantes + reflejan una misma
dependientes
exposición en caso y control, la hipótesis nulan de igualdad de n proporciones n en un diseño emparejado
es equivalente a H0: πb = πc, donde πb es la proporción de parejas discordantes con el caso expuesto
Supongamos que se pretende contrastar
y πc es la proporción de parejas discordantes (π bla+ hipótesis
π ) − (π nula
− π H )
con el control expuesto.
c b c 0
2
: π 1=π 2 frente
Según la anotación
la hipótesis
de la Tabla
= ,
7.6, las proporciones muestrales de ambos tipos de n pares discordantes serán pb = b/n y pc = c/n.
alternativa
Estas proporciones H1: π1 obviamente
bilateralestarán ≠ π2 a partir correlacionadas,
de n parejas de datos de taldependientes.
forma que el valor Para esperado de la
diferencia será E(pb – pc)negativa
= πb – πcentre
y su varianza (véase Apartado 3.4) , p ) = -π π /n. Así, la
donde la
simplificar lacovarianza
exposición, supondremospbademás y pc viene que dada pordecov(p
se trata b
un estudioc
de bcasos
c
y
var( pb − pc ) = var( pb ) + var( pc) − 2cov( pb , pc )
diferencia en la proporción muestral de parejas discordantes pb - pc seguirá
controles emparejados uno a uno, donde π bπ(11 −
y ππ2 )representan
b π c (1 − π c las
) respectivas
2π π
= + + b c
n (πb +nπc)/n) nH y N(π - π , {(π +
aproximadamente
proporciones una distribución
poblacionales de expuestos a un N(0,
normal determinado factor
2
bajo
antecedente
0 b entre
c b
(π + π c ) − (π b − π c )
2 = b ,
π ) - ( π - π
casosc y controles.
b c) }/n) bajo H .
Como las 1parejas concordantesnreflejan una misma exposición en
dondeParala covarianza
un nivel negativa
de entre pbαy, pelc viene
significación dadaarrojará
contraste por cov(pun , pc) = – πbπsignificativo
/n. Así, la diferencia
caso y control, la hipótesis nula de igualdad de proporciones enb resultado
un diseño cemparejado
en la proporción muestral de parejas discordantes pb – pc seguirá aproximadamente una
donde la covarianza N(0, (π negativa
+ πc)/n)entre pbHy pyc viene
N(πb –dada por cov(p
πc, {(π b, pc) = -πb2πc/n. Así, la
distribución
cuando normal bajo b + πc) – (πb – πc) }/n) bajo H1.
es equivalente a H0: πb = πcb, donde πb es la proporción
0
de parejas discordantes con el
Para un nivelen
diferencia delasignificación α, el contraste
proporción muestral arrojará
de parejas un resultado
discordantes pb - psignificativo
c seguirá
cuando
caso expuesto y π pbc −espla proporción (π bde+ parejas
π c ) / n discordantes
ó pb − pc ≥ z1−con el
(π control expuesto.
c ≤ − z1− α /2 α /2 b +π c)/n .
aproximadamente una distribución normal N(0, (πb + πc)/n) bajo H0 y N(πb - πc, {(πb +
Según la notación de la Tabla 7.6, las proporciones muestrales de ambos tipos de pares
152 Asumiendo
Pastor-Barriuso πc)2pérdida
πc) - (πR.b - sin }/n) bajodeHgeneralidad
1. que πb < πc, la probabilidad del segundo evento
discordantes serán pb = b/n y pc = c/n. Estas proporciones estarán obviamente
Para un nivelbajo
será despreciable la hipótesis α
de significación , el contraste
alternativa y laarrojará
potencia unpodrá
resultado significativo
entonces aproximarse
correlacionadas, de tal forma que el valor esperado de la diferencia será E(p - p ) = π -
Asumiendo sin pérdida de generalidad que πb < πc, la probabilidad del segundo evento
Tamaño muestral para la comparación de proporciones

será despreciable bajo la hipótesis alternativa y la potencia podrá entonces aproximarse

mediante sin pérdida de generalidad que πb < πc, la probabilidad del segundo evento será
Asumiendo
despreciable bajo la hipótesis alternativa y la potencia podrá entonces aproximarse mediante

1 − β = P( pb − pc ≤ − z1−α / 2 (π b + π c ) / n | H1)

 p b − p c − (π b − π c ) − z1−α / 2 (π b + π c ) / n − (π b − π c ) 
= P ≤ H1 
 {(π + π ) − (π − π ) 2 } / n {(π b + π c ) − (π b − π c ) 2 } / n 
 b c b c 

 | π b − π c | − z1−α / 2 (π b + π c ) / n 
= Φ .
 {(π + π ) − (π − π ) 2 } / n 
 b c b c 

A partir de esta expresión, se sigue que el número total de parejas necesarias para alcanzar una
potencia 1 – β es
A partir de esta expresión, se sigue que el número total de parejas necesarias para
( z1−α / 2 π b + π c + z1− β (π b + π c ) − (π b − π c ) 2 ) 2
n =
alcanzar una potencia 1 - β es ,
(π − π ) 2
b c

para cuyo cálculo se precisa de una idea aproximada de las probabilidades de obtener ambos
paradecuyo
tipos cálculo
parejas se precisa de
discordantes πb una
y πcidea aproximada
. Aunque losprobabilidades
de las
son pocos de obtener
diseños emparejados donde se
cuenta con información a priori de estas probabilidades, las siguientes consideraciones generales
pueden
ambos resultar útiles
tipos de parejas práctica. Si elπbemparejamiento
en ladiscordantes y πc. Aunque sonnopocos fueralos
efectivo,
diseñospongamos por
ejemplo un estudio de casos y controles donde las variables de emparejamiento no estuvieran 25
asociadas
emparejadoscon la exposición
donde se cuenta principal, el nivel ade
con información exposición
priori de estas sería entonces virtualmente
probabilidades, las
independiente entre caso y control, de tal forma que la proporción esperada de parejas con el
caso expuestoconsideraciones
siguientes y el control no expuesto
generalessería
pueden π1(1 – útiles
πb =resultar π2) y con
en laelpráctica.
control expuesto
Si el y el caso
no expuesto πc = π2(1 – π1), para una proporción total de pares discordantes πb + πc = π1(1 – π2)
+ πemparejamiento
2(1 – π1). En tal no caso,
fuera puede
efectivo,probarse
pongamosquepor el ejemplo
número un necesario
estudio de casos
parejasy coincidiría
aproximadamente con el número de sujetos por grupo en un estudio de casos y controles
independientes;
controles donde resultado esperable
las variables siempre que seno
de emparejamiento empareje
estuvieranporasociadas
características
con lairrelevantes.
Por el contrario, si el emparejamiento fuera efectivo, esto es, si los factores pronósticos
empleados
exposición en principal,
el emparejamiento
el nivel deestuvieran
exposiciónasociados con la exposición
sería entonces virtualmentea independiente
estudio, los casos y
controles se asemejarían en su nivel de exposición, induciendo así una correlación positiva en
entre caso ydecontrol,
la exposición de taldeforma
cada pareja caso que la proporción
y control. Las parejasesperada de parejas
discordantes con entonces
serían el caso menos
probables πb + πc < π1(1 – π2) + π2(1 – π1) y, en consecuencia, para obtener un número suficiente
de expuesto
pares discordantes para
y el control noelexpuesto
análisis, sería πb = πtotal
el número π2parejas
1(1 -de ) y con habría de ser
el control superiory al
expuesto el número
de sujetos por grupo en un estudio independiente. En general, la comparación de proporciones
en caso
muestras emparejadas
no expuesto πc = πtiene menor
2(1 - π potencia
1), para que la comparación
una proporción total de pares cruda de proporciones
discordantes πb + πc en
muestras independientes, pero mayor validez interna al controlar los posibles sesgos derivados
de =losπ1factores
(1 - π2) +deπconfusión utilizados en el emparejamiento.
2(1 - π1). En tal caso, puede probarse que el número necesario de parejas

Ejemploaproximadamente
coincidiría 9.9  En el estudiocondeel casos
número y de
controles
sujetos independientes
por grupo en undel ejemplo
estudio anterior,
de casos
cabría esperar que la edad media de los casos sea superior a la de los controles ya que la
incidencia
y controles de cáncer de mama
independientes; aumenta
resultado con la edad.
esperable Además,
siempre como
que se la edadpor
empareje está inversamente
relacionada con el uso de anticonceptivos orales, esta variable podría provocar una
confusión negativa
características en la asociación
irrelevantes. a estudio,
Por el contrario, si elde tal forma que elfuera
emparejamiento oddsefectivo,
ratio obtenido de la
esto es,
comparación cruda de casos y controles independientes tendería a infraestimar el potencial
efecto
si los nocivo
factores del uso deempleados
pronósticos anticonceptivos orales en el riesgo
en el emparejamiento de cáncerasociados
estuvieran de mama.con la

exposición a estudio, los casos y controles se asemejarían en su nivel de exposición,


Pastor-Barriuso R. 153
induciendo así una correlación positiva en la exposición de cada pareja de caso y

control. Las parejas discordantes serían entonces menos probables πb + πc < π1(1 - π2) +
Determinación del tamaño muestral

Para evitar esta posible confusión, se decide diseñar un estudio de casos y controles
emparejados, donde cada caso de cáncer de mama se empareja aleatoriamente con un
control de su misma edad. Como consecuencia de este emparejamiento por edad, se
induciría un cierto grado de correlación positiva en la utilización de anticonceptivos de
cada pareja. Así, la proporción esperada de pares discordantes sería inferior a π1(1 – π2) +
π2(1 – π1) = 0,50(1 – 0,40) + 0,40(1 – 0,50) = 0,50, donde π1 = 0,50 y π2 = 0,40 son las
proporciones poblacionales de usuarias de anticonceptivos orales entre casos y controles
obtenidas del ejemplo anterior. Asumiendo una correlación moderada, podría establecerse
a priori una proporción aproximada de parejas discordantes πb + πc = 0,40. Para un
hipotético odds ratio de cáncer de mama ω = πb/πc = 1,50, se esperaría entonces una
proporción de parejas
necesarias para condicho
detectar el control
efectousuario depotencia
con una 1 - β = 0,80
anticonceptivos orales y elnivel
y un caso de
no usuario
πc = (πb + πc)/(ω + 1) = 0,40/2,50 = 0,16, y con el caso usuario y el control no usuario
b = ωπc = 1,50∙0,16
πsignificación = 0,24.
α = 0,05 sería Así, el número total de parejas necesarias para detectar dicho
efecto con una potencia 1 – β = 0,80 y un nivel de significación α = 0,05 sería

(1,96 0,24 + 0,16 + 0,84 (0,24 + 0,16) − (0,24 − 0,16) 2 ) 2


n=
(0,24 − 0,16) 2
= 487,64 ≈ 488,
con lo que se tendrían aproximadamente 0,40∙488 = 195 pares discordantes para el análisis.
Notar que el número de parejas requeridas para este estudio sería mayor que los 387 casos
yconcontroles
lo que senecesarios en el correspondiente
tendrían aproximadamente estudio
0,40⋅488 independiente
= 195 (Ejemplo
pares discordantes para9.8). No
obstante, el análisis emparejado de casos y controles de igual edad eliminaría la posibilidad
de sesgos por
el análisis. diferencias
Notar de edadde
que el número entre casos
parejas y controles.
requeridas para este estudio sería

El cálculo del tamaño


mayor que los 387 muestral puede extenderse
casos y controles a laen
necesarios comparación de tres oestudio
el correspondiente más proporciones
en muestras dependientes o independientes. Aunque las fórmulas se derivan siguiendo
procedimientos similares
independiente a los 9.8).
(Ejemplo aquí descritos, suelen
No obstante, emplearse
el análisis métodos de
emparejado de casos
corrección
y del nivel
de significación α para preservar la probabilidad global de obtener un resultado significativo
entre las múltiples
controles comparaciones
de igual que selapretendan
edad eliminaría realizar
posibilidad (ver referencias
de sesgos bibliográficas).
por diferencias de edad

9.5 REFERENCIAS
entre casos y controles.
1. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The Design and
ElAnalysis
cálculo of
delCohort
tamañoStudies.
muestralLyon: International
puede extenderse Agency for Research
a la comparación on Cancer,
de tres o más 1987.
2. Cochran WG. Sampling Techniques, Third Edition. New York: John Wiley & Sons, 1977.
proporciones
3. Desu MM, enRaghavarao
muestras dependientes o independientes.
D. Sample Size Methodology. Aunque
Boston: las fórmulas
Academic se 1990.
Press,
4. Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley &
derivan siguiendo procedimientos similares a los aquí descritos, suelen emplearse
Sons, 1986.
5. FleissdeJL,
métodos Levin B, del
corrección MC.deStatistical
Paiknivel Methods
significación forpreservar
α para Rates andlaProportions,
probabilidadThird Edition.
global
New York: John Wiley & Sons, 2003.
6. Lemeshow
de obtener S, Hosmer
un resultado DW, Klar J,entre
significativo Lwanga SK. Adequacy
las múltiples of Sampleque
comparaciones Sizese
in Health Studies.
New York: John Wiley & Sons, 1990.
pretendan
7. realizar
Levy PS, (ver referencias
Lemeshow S. Samplingbibliográficas).
of Populations: Methods and Applications, Third Edition.
New York: John Wiley & Sons, 1999.
8. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999.
9.5 REFERENCIAS
9. Silva LC. Diseño Razonado de Muestras y Captación de Datos para la Investigación
Sanitaria. Madrid: Díaz de Santos, 2000.
1. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The
154 Pastor-Barriuso R.
Design and Analysis of Cohort Studies. Lyon: International Agency for Research

on Cancer, 1987.
TEMA 10

CORRELACIÓN Y
REGRESIÓN LINEAL SIMPLE

10.1 INTRODUCCIÓN

En el Tema 6 se discutieron las técnicas estadísticas adecuadas para comparar los niveles medios
de una variable continua en dos grupos de sujetos definidos según la presencia o ausencia de
una determinada característica dicotómica; esto es, la dependencia entre una variable continua
y otra dicotómica. Asimismo, en el Tema 7 se presentaron distintos procedimientos para
determinar la existencia o no de asociación entre dos variables dicotómicas. Queda pendiente,
por tanto, describir los métodos necesarios para evaluar la relación entre dos variables continuas.
En este tema se presentan el coeficiente de correlación y la regresión lineal simple como las
dos técnicas estadísticas más utilizadas para investigar la relación entre dos variables continuas
X e Y. Como veremos más adelante, ambos procedimientos están estrechamente relacionados,
aunque obedecen a estrategias de análisis un tanto diferentes. Por un lado, el coeficiente de
correlación determina el grado de asociación lineal entre X e Y, sin establecer a priori ninguna
direccionalidad en la relación entre ambas variables. Por el contrario, la regresión lineal simple
permite cuantificar el cambio en el nivel medio de la variable Y conforme cambia la variable X,
10.2 COEFICIENTE
asumiendo implícitamenteDE X es la variable explicativa o independiente e Y es la variable
queCORRELACIÓN
respuesta o dependiente.
Como ya se anticipó en el Apartado 3.4, el parámetro más utilizado para medir la
10.2  COEFICIENTE DE CORRELACIÓN
asociación lineal entre dos variables aleatorias X e Y es el coeficiente de correlación
Como ya se anticipó en el Apartado 3.4, el parámetro más utilizado para medir la asociación
poblacional
lineal ρxy, que sealeatorias
entre dos variables define como
X e Y es el coeficiente de correlación poblacional ρxy, que
se define como
cov( X , Y ) E{( X − μ x )(Y − μ y )}
ρ xy = = ,
σx σ y σx σy

donde μx y μy son las respectivas medias poblacionales de X e Y y σx y σy son sus correspondientes


desviaciones
donde μx ytípicas
μy son poblacionales. El numerador
las respectivas medias del coeficiente
poblacionales de X e Y de
y σcorrelación
x y σy son sus cov(X, Y) =
E{(X – μx)(Y – μy)} es la covarianza poblacional entre ambas variables y se define como la
esperanza del producto
correspondientes de las desviaciones
desviaciones de cada variable
típicas poblacionales. respecto de del
El numerador su media. Así, sidevalores
coeficiente
altos (o bajos) de X tienden a asociarse con valores altos (o bajos) de Y, el producto de las
desviaciones
correlación(xcov(X, – μ=y)E{(X
– μx)(yY) tenderá
- μxa)(Y
ser-positivo
μy)} es lay la covarianzapoblacional
covarianza será positiva. Por ambas
entre el contrario,
si valores altos de una variable se relacionan con valores bajos de la otra variable, el producto
de variables
las desviaciones tenderá
y se define comoa laseresperanza
negativo dely laproducto
covarianza serádesviaciones
de las negativa. Nodeobstante,
cada resulta
complicado determinar el grado de asociación lineal entre dos variables a partir de la magnitud
de variable
la covarianza, ya que
respecto de suésta depende
media. Así, de las unidades
si valores de bajos)
altos (o medidadedeX las variables.
tienden a asociarse
Al dividir la covarianza por el producto de las desviaciones típicas de X e Y, el coeficiente de
con valores
correlación poblacional carecededeY,unidades
altos (o bajos) el producto de las desviaciones
y permanece - μx)(y
inalterable(xante - μy) tenderá
cambios a o
de origen
escala en cualquiera de las dos variables. Puede comprobarse, además, que la covarianza entre
X eser positivo
Y es y lavalor
menor en covarianza
absolutoseráquepositiva. Por de
el producto el contrario, si valores
sus desviaciones altosy,de
típicas en una
consecuencia,

variable se relacionan con valores bajos de la otra variable, el producto de las


Pastor-Barriuso R. 155

desviaciones tenderá a ser negativo y la covarianza será negativa. No obstante, resulta


comprendido entre -1 y 1. En el caso extremo de que ρxy = 1, las variables
Correlación y regresión lineal simple
estandarizadas Zx = (X - μx)/σx y Zy = (Y - μy)/σy verifican que (véase Apartado 3.4)
comprendido entre -1 y 1. En el caso extremo de que ρxy = 1, las variables
el coeficiente de var(Z x - Zy) =
correlación var(Zx)está
siempre + var(Z y) - 2cov(Z
comprendido x, Zy)– 1
entre = 2(1 ρxyel) =caso
y 1. -En 0; extremo de que
ρxy estandarizadas
= 1, las variables (X - μx)/σx y ZyZ=x =
Zx =estandarizadas (Y(X- μ–y)/μσxy)/σ
verifican que (véase Apartado 3.4)
x y Zy = (Y – μy)/σy verifican que (véase
Apartado 3.4)
es decir, Zx - Zy es una variable aleatoria degenerada (constante) en su valor esperado, Zx
var(Zx − Zy ) = var(Zx ) + var(Zy ) − 2cov(Zx , Zy ) = 2(1 − ρ xy ) = 0;
- Zy = E(Zx - Zy) = 0, lo que implica que las variables X e Y presentan una relación lineal
es decir, Zx – Zy es una variable aleatoria degenerada (constante) en su valor esperado, Zx – Zy =
es
x – Zy) =
E(Zpositiva Z0, Zy que
x - lo
decir, perfecta, esYuna μvariable
=implica quealeatoria degenerada
las variables X e Y (constante)
presentan una en su valor esperado,
relación Zx
lineal positiva
y + σy/σx(X - μx). De igual forma, si ρxy = -1, se cumple que
perfecta, Y = μy + σy/σx(X – μx). De igual forma, si ρxy = – 1, se cumple que
- Zy = E(Zx - Zy) = 0, lo que implica que las variables X e Y presentan una relación lineal
var(Zx + Zy ) = var(Zx ) + var(Zy ) + 2cov(Zx , Zy ) = 2(1 + ρ xy ) = 0
positiva
y, por Z + Z esY una
tanto,perfecta, = μyvariable
+ σy/σx(X - μx). De
aleatoria igual forma,
constante igual si ρxyvalor
a su = -1,esperado,
se cumpleZque + Z = E(Z
x y x y x
+ Zy, por tanto, Zx + Zsey es
y) = 0, de donde
una variable
deduce que lasaleatoria
variablesconstante igual a su
X e Y presentan unavalor linealZxnegativa
esperado,
relación + Zy
– σy/σ
perfecta, Y = μy var(Z (XZy–) =μxvar(Z
x x+ ). Cuando ρxy =y) 0,
x) + var(Z se dicex, que
+ 2cov(Z Zy) =las2(1
variables
+ ρxy) = están
0 linealmente
= E(Zx + Zy) = 0, ya
incorrelacionadas de que
donde noseexiste
deduce que laslineal
relación entreXambas
variables e Y presentan unaNotar
variables. relación
que si dos
variables son estadísticamente independientes, en el sentido de que el conocimiento del valor
y,toma
por negativa
tanto, + Zyno
Zx perfecta,
esaporta
una
Y =variable
μninguna aleatoria
(X - μx).constante igual a sudevalor esperado, Zentonces
x + Zy
quelineal una variable y - σy/σxinformación sobreρ
Cuando el = 0,
xy valorse dice que
la otra las variables
variable,
están incorrelacionadas; pero que la incorrelación no implica necesariamente independencia, ya
E(Zvariables
=las
queestán x + Zy) = 0, de donde se deduce que las variables X e Y presentan una relación
incorrelacionadas
podrían
linealmente presentar una dependencia no lineal
ya que no existe aun cuando
relación ρxy =ambas
lineal entre 0.
El coeficiente
lineal negativa de correlación
perfecta, μypermite,
- σy/σson
Y =variables por
- μtanto, cuantificar = 0,elsegrado
x). Cuando ρxy independientes,
x(X estadísticamente
de asociación
dice que lineal
laselvariables
variables. Notar que si dos
entre dos variables, de tal forma que cuanto más próximo esté el coeficiente de correlación a 1 en sentido
ó – 1,
estánmayor será la dependencia
linealmente incorrelacionadaslineal positiva
ya queunanoovariable
negativa
existe entre lineal
relación las variables. Este hecho se
entre información
ambas
de que el conocimiento del valor que toma no aporta ninguna
ilustra en los diagramas de dispersión de la Figura 10.1, donde se representan los valores de
la variable
variables. X en el eje
Notar quehorizontal
si dos y los correspondientes
variables son estadísticamente de Y en el eje vertical.
valoresindependientes, en la A medida
el sentido
sobre el valor de la otra variable, entonces están incorrelacionadas; pero
que los puntos del diagrama de dispersión se desvían de una línea recta perfecta con pendiente que
positiva
de queo elnegativa, el coeficiente
conocimiento de que
correlación sevariable
aleja de no 1 óaporta
– 1. Aunque la interpretación de
incorrelación no implicadel valor
necesariamente toma una
independencia, ya que lasninguna
variablesinformación
podrían
la magnitud del coeficiente de correlación depende del contexto particular de aplicación, en
términos
sobre el generales
valor deselaconsidera que una
otra variable, correlación
entonces están es baja por debajo depero
incorrelacionadas; 0,30que
en valor
la absoluto,
presentar una dependencia no lineal aun
moderada entre 0,30 y 0,50, y alta por encima de 0,50. cuando ρ xy = 0.
incorrelación
Notar, no implica
por último,
El coeficiente deque ennecesariamente
permite, independencia,
la interpretación
correlación pordel coeficiente
tanto, ya que las variables
de elcorrelación
cuantificar grado podrían
hay dos errores
de asociación
frecuentes que deben ser evitados:
presentar una dependencia notal
lineal aunque
cuando ρxymás= 0.próximo esté el coeficiente de
ylineal entre dos
y El coeficiente variables, de
de correlación forma
entre cuanto
X e Y no es una medida de la magnitud de la pendiente
de la recta de regresión entre ambas variables. El coeficiente de correlación determina el
El coeficiente
correlación de correlación permite, por tanto, cuantificar oelnegativa
grado deentre
asociación
grado de aaproximación
1 ó -1, mayor de serálos
la dependencia lineal
puntos del diagrama positiva
de dispersión a una laslínea recta,
independientemente de cuál sea la magnitud de la pendiente de dicha recta. Como se
lineal entreEste
dos variables, de tal formadiagramas
que cuanto más próximo esté laelFigura
coeficiente de
variables.
ilustra en los hecho
panelesseailustra Figura 10.2, el de
y b deenlalos dispersión
coeficiente de decorrelación 10.1,
es mayor en el
panel a, a pesar de que la pendiente de la recta de regresión es mayor en el panel b. La
correlación
donde a 1 ó -1, mayor
se representan será ladedependencia
losdevalores la Xlineal positiva o negativa
y losentre las
pendiente de la recta regresión novariable
se determina en el eje horizontal
mediante el coeficiente de correlación,
sino mediante las técnicas de regresión lineal simple que se discutirán en la segunda parte
variables. Este hecho se ilustra en los diagramas de dispersión de la Figura 10.1,
de este tema. valores de Y en el eje vertical. A medida que los puntos del diagrama
correspondientes
y El
yde
donde coeficiente de correlación
se representan
dispersión los de
se desvían valores no la
de
una línea esrecta
unaperfecta
medida
variable deeje
X en con
el la idoneidad
horizontal
pendiente ydel
losmodelo
positiva lineal.
o negativa, el El
coeficiente de correlación sólo determina la existencia de una componente lineal en la
relación entre
correspondientes
coeficiente dos variables,
valores
de correlaciónde independientemente
seYaleja
en eldeeje1 vertical. delalainterpretación
A medida
ó -1. Aunque forma
que subyacente
los puntos demagnitud
del
de la dicha relación.
diagrama
Así, por ejemplo, el coeficiente de correlación es mayor en el panel d que en el panel c de
deladispersión
Figura 10.2, aun cuando
se desvían de una la relación
línea subyacente
recta perfecta entre las variables
con pendiente positiva o del d es
panel el
negativa, 3
claramente no lineal (en este caso, cuadrática). Por ello, antes de analizar el grado de
asociacióndelineal
coeficiente entre se
correlación dosaleja
variables,
de 1 ó -1.es Aunque
aconsejable inspeccionardelalanaturaleza
la interpretación magnitud de la
relación mediante un diagrama de dispersión.
3
156 Pastor-Barriuso R.
Coeficiente de correlación

(a) ρxy = 0,70 (b) ρxy = 0,50 (c) ρxy = 0,30

x x x
(d) ρxy = -0,70 (e) ρxy = -0,50 (f) ρxy = -0,30

Figura 10.1
Figura 10.1  Diagramas de dispersión entre dos variables aleatorias X e Y con coeficientes de correlación
positivos ρxy = 0,70 (a), 0,50 (b) y 0,30 (c), así como con coeficientes de correlación negativos ρxy = – 0,70 (d),
– 0,50 (e) y – 0,30 (f).

(a) ρ xy = 0,70 (b) ρxy = 0,50

x x
(c) ρxy = -0,70 (d) ρxy = -0,80
Figura 10.2

Figura 10.2  Diagramas de dispersión, coeficientes de correlación y rectas de regresión entre dos variables
aleatorias X e Y con distintas pendientes de la recta de regresión (paneles a y b) y distintas formas de la
relación subyacente (paneles c y d).

Pastor-Barriuso R. 157
Una vez descritas las propiedades e interpretación del coeficiente de correlación

poblacional, en este apartado se presentan los métodos para estimar el coeficiente de


Correlación y regresión lineal simple
AS DE TENDENCIA CENTRAL
correlación entre dos variables X e Y a partir de los valores observados de ambas
de tendencia central informan acerca de cuál es el valor más representativo
variables
10.2.1  (xi, yi) ende
Coeficiente una n sujetos de
muestra demuestral
correlación Pearson independientes, i = 1, ..., n.
mutuamente
minada variableUnao, dicho
vez de forma las
descritas equivalente,
propiedades estos estimadores indican
e interpretación del coeficiente de correlación
El estimador muestral más utilizado para evaluar la dependencia lineal entrepoblacional,
dos
en este apartado se presentan los métodos para estimar el coeficiente de correlación entre dos
qué valor se agrupan
variables los Xdatos
eXYeaobservados. losLas medidas de tendenciaambas variables (x , y ) en una muestra de
variables Ypartir
es el de valores
coeficiente de observados
correlación de muestral de Pearson, que i i se denota por
n sujetos mutuamente independientes, i = 1, ..., n.
muestra sirven tanto para resumir los resultados observados como para
rEl
xy,estimador
o simplemente
muestral r, y se
por más define para
utilizado comoevaluar
la covarianza muestrallineal
la dependencia X e Ydos
entreentre dividida
variables X
Y esparámetros
encias acerca dee los el coeficiente de correlación
poblacionales muestral de Pearson,
correspondientes. A que se denota por rxy, o simplemente
porpor r, yel se
producto
define de sus la
como desviaciones
covarianzatípicas muestrales,
muestral entre X e Y dividida por el producto de sus
se describen losdesviaciones
principales típicas muestrales,
estimadores de la tendencia central de una
1 n n

 i
n − 1 i =1
( x − x )( y i − y )  ( x i − x )( y i − y )
r= = i =1
,
sx s y n n

aritmética  ( xi − x ) 2  ( y i − y ) 2
i =1 i =1

mética, denotada por x ,ysesxdefine


donde son lacomo
mediala ysuma de cada uno
la desviación muestral de X y y y sy son la media y la
de los
típica
donde xtípica
desviación y sx son la media
muestral y la
de Y. desviación
Así, típicademuestral
el coeficiente de Xmuestral
correlación y y y syde
son la media
Pearson y
se define
trales dividida por el número
de forma análogade observaciones
al coeficiente realizadas. Si denotamos
de correlación poblacional, reemplazando la covarianza y las
desviaciones
la desviación típicas poblacionales
típica muestral de Ypor suselcorrespondientes
. Así, estimadores
coeficiente de correlación muestrales.
muestral de Al igual
quexielelcoeficiente
ño muestral y por valor observado de correlación
para el sujeto i-ésimo, iel= coeficiente
poblacional, 1, ..., n, de correlación muestral siempre
toma valores
Pearson se entre 1 yforma
define– de 1, de análoga
tal formaal que cuanto más
coeficiente se aproxime
de correlación a 1 ó – 1, mayor será la
poblacional,
dría dada por dependencia lineal positiva o negativa entre las variables.
reemplazando la covarianza y las desviaciones típicas poblacionales por sus
Ejemplo 10.1  En la Figura 10.3 se presenta el diagrama de dispersión entre el índice de
1 n x + x 2 + ... + x n

masa x i corporal,
x =correspondientes
n i =1
= 1 medida de. obesidad
estimadores
n
queAl
muestrales. se igual
obtienequedeeldividir el peso
coeficiente deencorrelación
kilogramos por la

poblacional, el coeficiente de correlación muestral siempre toma valores entre -1 y 1, de


es la medida de tendencia central
2,25 más utilizada y de más fácil
tal forma que cuanto más se aproxime a 1 ó -1, mayor será la dependencia lineal
n. Corresponde al “centro de gravedad”
2 de los datos de la muestra. Su
positiva o negativa entre las variables.
itación es que está muy influenciada por los valores extremos y, en este
Colesterol HDL (mmol/l)

no ser un fiel reflejo de laEjemplo


1,5 10.1
tendencia En lade
central Figura 10.3 se presenta el diagrama de dispersión entre el
la distribución.

índice de masa corporal, medida de obesidad que se obtiene de dividir el peso en


o 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
1

án los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 5

“European Study on Antioxidants,


0,5 Myocardial Infarction and Cancer of

ast“ (EURAMIC), un estudio


0,25multicéntrico de casos y controles realizado

991 y 1992 en ocho países Europeos e20Israel para evaluar


24 el efecto de
28 los 32 36

Indice de masa corporal (kg/m²)


5
Figura 10.3  Diagrama de dispersión entre el índice de masa corporal y el colesterol HDL en el grupo con-
Figura 10.3
trol del estudio EURAMIC.

158 Pastor-Barriuso R.
que indica una asociación lineal negativa moderada entre el índice de masa
controles del estudio EURAMIC con valores para ambas variables. A simple
corporal y el colesterol HDL.
vista, se aprecia un cierto grado de dependencia lineal negativa entre ambas
Coeficiente de correlación

variables; esto es, el colesterol HDL tiende a decrecer conforme aumenta el índice
altura en metros al cuadrado,
[Figura y10.3
el colesterol HDL enaquí]
aproximadamente los 533 controles del estudio
de masa corporal.
EURAMIC Esta apreciación
con valores para ambasvisual se confirma
variables. A simple mediante
vista, seelaprecia
cálculoundelcierto grado
de dependencia lineal negativa entre ambas variables; esto es, el colesterol HDL tiende a
coeficiente
decrecer de de
El coeficiente correlación
conforme aumentamuestral
correlación elríndicede
dePearson,
masa
de Pearson corporal.
tiene Esta apreciación
una distribución visual
muestral tantose confirma
más
mediante el cálculo del coeficiente de correlación muestral de Pearson,
1 533 esté la correlación subyacente ρ del valor 0. Cuando ρ
asimétrica cuanto más distante
 ( xi − x )( y i − y ) − 0,285
532 i =1
está relativamenterpróximo
= a 1 ó -1, las estimaciones
= muestrales del coeficiente de
= − 0,276,
sx s y 3,50 ⋅ 0,295
correlación
que indicatenderán por fuerza
una asociación a desviarse
lineal negativamás moderada entre el ρíndice
del parámetro en la de
cola que corporal
masa no está y el
que indicaHDL.
colesterol una asociación lineal negativa moderada entre el índice de masa
limitada por el rango [-1, 1] de valores posibles de r, resultando en una distribución con
El coeficiente
corporal y eldecolesterol
correlación r de Pearson tiene una distribución muestral tanto más asimétrica
HDL.
un marcado
cuanto sesgoesté
más distante negativo o positivo.
la correlación Por ello, el
subyacente ρ cálculo
del valorde0.unCuando
intervalo de confianza
ρ está relativamente
próximo a 1 ó – 1, las estimaciones muestrales del coeficiente de correlación tenderán por fuerza
y un test más
a desviarse de hipótesis para ρρno
del parámetro ensuele
la cola realizarse
que no está a partir de la por
limitada distribución
el rango muestral r,
[– 1, 1] dedevalores
posibles de r, resultando en[Figura 10.3 aproximadamente
una distribución con un marcado aquí]sesgo negativo o positivo. Por
ello,sino mediante
el cálculo delauntransformación
intervalo de confianzaz de Fishery un test de hipótesis para ρ no suele realizarse a
partir de la distribución muestral de r, sino mediante la transformación z de Fisher
El coeficiente de correlación r de Pearson tiene una distribución muestral tanto más
1 1 + r 
z = log ,
asimétrica cuanto
del modelo másydistante
normal el tamaño estémuestral 2no es
la correlación − r pequeño,
 1muy
subyacente ρ del n > 50, ρla
valor 0. Cuando
típicamente
cuya distribución muestral presenta una mayor simetría para cualquier valor de ρ. Puede
estátransformación
relativamente
que si laszpróximo
de Fishera 1seódistribuye
-1,poblacionales
las estimaciones muestrales del
X coeficiente de mucho del
probarse
cuya distribución distribuciones
muestral presenta una de forma
mayor de aproximadamente
las
simetría variables e Ynormal
para cualquier no con
de ρmedia
distan
valor . Puede
modelo normal y el tamaño muestral no es muy pequeño, típicamente n > 50, la transformación
zcorrelación
delog{(1 tenderán
ρque
Fisher+se
probarse )/(1
distribuyeporde
ρ)}/2
si- las yfuerza
forma a desviarse
varianza
distribuciones 1/(n - 3),más del
aproximadamente
poblaciones
parámetro
normal
de las conρ media
variables
en la cola que+no
X e Y log{(1
no distan
está– ρ)}/2 y
ρ)/(1
mucho
varianza 1/(n – 3),
limitada por el rango [-1, 1] de valores posibles de r, resultando en una distribución con 6
z→ ~ N  1 log 1 + ρ , 1  .
un marcado sesgo negativo o positivo. Por  2 ello,

 1el ρ  n − de
 − cálculo 3  un intervalo de confianza

Notar quedelahipótesis
y un test de z es
varianza para inversamente
ρ no proporcional
suele realizarse al la
a partir de tamaño muestral
distribución e independiente
muestral de r, de
Notar que lasubyacente
la correlación varianza deρ. z es inversamente proporcional al tamaño muestral e
sino mediante la transformación z de Fisher
independiente
Ejemplo 10.2  de laLas
correlación y (b)ρ.muestran las distribuciones del coeficiente de
subyacente
Figuras 10.4(a)
correlación r de Pearson y de la transformación z de Fisher entre el índice de masa corporal
y el colesterol HDL en 1000 muestras 1  1 + r  simples de tamaño 50 obtenidas a partir
z = logaleatorias ,
 muestran
de Ejemplo 10.2 del
los controles Lasestudio
FigurasEURAMIC.
10.4(a)
2 y (b) 1 La las distribuciones
− r distribución
 muestral de rdel coeficiente
presenta un leve
sesgo positivo ya que el percentil 75 (– 0,18) está ligeramente más alejado de la mediana
de correlación
(– 0,28) r de Pearson
que el percentil y de la
25 (– 0,36). Para corregir esta zleve
transformación de Fisher entrelaeltransformación
asimetría, índice de z
de Fisher aumenta la dispersión de los valores de r más distantes de 0 (colaρ.inferior
cuya distribución muestral presenta una mayor simetría para cualquier valor de Puede de la
masa corporal
distribución) y el colesterol
y mantiene HDL constantes
virtualmente en 1000 muestras aleatorias
los valores simples
próximos de tamaño
a 0 (cola superior),
probarse que si las distribuciones poblaciones de las variables
dando lugar así a una distribución sensiblemente más simétrica. X e Y no distan mucho
50 obtenidas a partir de los controles del estudio EURAMIC. La distribución
En este ejemplo, la distribución muestral del coeficiente de correlación r de Pearson 6
presenta unade
muestral leve asimetríaunyaleve
r presenta quesesgo
la correlación
positivo subyacente – 0,276 en
ya que el percentil 75 todos losestá
(-0,18) controles
del estudio EURAMIC es moderadamente baja. En otras situaciones donde la correlación
subyacente
ligeramenteρ seamásalta, la distribución
alejado de la medianamuestral r será
(-0,28)deque notablemente
el percentil asimétrica
25 (-0,36). Para y, en
consecuencia, el efecto normalizador de la transformación z de Fisher será mucho más
marcado.
corregir esta leve asimetría, la transformación z de Fisher aumenta la dispersión

de los valores de r más distantes de 0 (cola inferior de la distribución) y Pastor-Barriuso


mantiene R. 159

virtualmente constantes los valores próximos a 0 (cola superior), dando lugar así a
Correlación y regresión lineal simple

20 20
Frecuencia relativa (%)

15 [Figura 10.4 aproximadamente


15 aquí]

10 10
En base a la distribución muestral de la transformación z de Fisher, el intervalo de
5 5
confianza al 100(1 - α)% para el parámetro log{(1 + ρ)/(1 - ρ)}/2 viene dado por
0 [Figura 10.4 aproximadamente0 aquí]
1
-0,8 -0,6 -0,4 (z1, z2)0= z ±0,2z1−α / 2 -0,8 , -0,6 -0,4 -0,2
-0,2 0 0,2
n − 3
En base a la distribución muestral de la transformación z de Fisher, 1 elintervalo
1+ r  de
(a) r (b ) z = log  
2 1− r 
confianza
donde z1-α/2ales
100(1 - α)% para
el percentil 1 - αel/2parámetro
de la distribución ρ)/(1 - estandarizada.
log{(1 +normal ρ)}/2 viene dado
Así,por
el
Figura 10.4  Distribución muestral del coeficiente
[Figura de correlación r deaquí]
10.4 aproximadamente Pearson (a) y de la transformación
z deintervalo
Fisher (b)de
entre el índice de masa corporal y el colesterol
confianza al 100(1 - α)% para el coeficiente HDL en 1000 muestraspoblacional
aleatorias simples
ρ de
tamaño 50 obtenidas a partir de los controles del estudio 1 deLas
EURAMIC.
correlación
líneas verticales en trazo discon-
(z1, z2) = z ± z1−α / 2 ,
tinuo representan los parámetros subyacentes ρ = – 0,276 y log{(1
n−3 + ρ)/(1 – ρ)}/2 = – 0,284.
se obtiene
En basedea aplicar el inverso
la distribución de la transformación
muestral de la transformación z dea Fisher,
de Fisher ambos ellímites del Figura
intervalo de 10.4

intervalo,
confianza
donde
En base z1-aα/2al 100(1
laes - α)%muestral
el percentil
distribución para
1 - αel/2parámetro
de
de la log{(1 +normal
la distribución
transformación ρ)/(1 ρ)}/2 viene
z de- estandarizada.
Fisher, dado
Así,por
el intervalo el confianza
de
al 100(1 – α)% para el parámetro log{(1 + ρ)/(1 – ρ)}/2 viene dado por
intervalo de confianza al 100(1  exp(- α)%
2 z1para
) − 1 elexp( 2 z )1− 1 de correlación poblacional ρ
coeficiente
 (z1 , z2 ) = z ± ,z1−α / 2 2 , .
 exp( 2 z ) +
se obtiene de aplicar el inverso de la transformación de Fisher
1 1 exp( 2 z 2 n) −+ 3
1  a ambos límites del
donde z1–α/2 es el percentil 1 – α/2 de la distribución normal estandarizada. Así, el intervalo de
intervalo,
confianza
donde
Este zal
1-α100(1
intervalo/2 es para α)%
el–percentil
ρ espara 1el- más
tanto αcoeficiente
/2 de de correlación
la distribución
asimétrico alrededor normaldepoblacional ρ sepuntual
laestandarizada.
estimación obtiene
Así, elr de aplicar
el inverso de la transformación de Fisher a ambos límites del intervalo,
intervalo
cuanto de confianza
mayor al 100(1
sea r en valor absoluto- α)%
 exp( 2 zy1para− 1 elexp(
)menor coeficiente
sea2el ) − 1 de correlación
z 2 tamaño poblacional
muestral. Asimismo, el ρ
 ,  .
se obtienededelaaplicar
contraste el inverso
hipótesis nula H de la2 ztransformación
 exp( 1 ) + 1 exp( 2 z 2 ) de+ Fisher
1 a ambos límites del
0: ρ = ρ0 frente a la hipótesis alternativa bilateral H1: ρ ≠
Este intervalo para ρ es tanto más asimétrico alrededor de la estimación puntual r cuanto mayor
seaρ intervalo,
r0 en
Este valor absoluto
se intervalo
realiza para ρyesmenor
mediante eltanto sea
máselasimétrico
estadístico tamaño muestral.alrededor Asimismo, el contraste
de la estimación de la
puntual r hipótesis
nula H0: ρ = ρ0 frente a la hipótesis alternativa bilateral H1: ρ ≠ ρ0 se realiza mediante el estadístico
cuanto mayor sea r en valor absoluto  exp(2 zy1 )menor sea el tamaño muestral. Asimismo, el
 1 + ρ20z 2 ) − 1  .
1 − 1 ,exp(
 exp(z2−z1 2) +log1 exp(
1 − ρ2 z 2 ) + 1 
contraste de la hipótesis nula H0: ρ = ρ0 frente  a la0hipótesis
 alternativa bilateral H1: ρ ≠
,
1
ρEste
0 se intervalo para ρ eseltanto
realiza mediante estadístico
más asimétrico n − alrededor
3 de la estimación puntual r
que bajo H0 sigue aproximadamente una distribución normal estandarizada. El valor P del
cuanto mayor sea r en valor absoluto y menor sea el tamaño muestral. Asimismo, el
contraste
que bajo se Hcalcula,
0 sigue por tanto, como el una
aproximadamente área  1 +laρcurva
bajo
1 distribución 0  normalnormal estandarizadaElpara
estandarizada. valoraquellos
P
z − log  
valores tanto o más distantes de 0 que el valor observado del estadístico.
ρ 0hipótesis
contraste de la hipótesis nula H0: ρ = ρ20 frente  1 −a la  alternativa bilateral H : ρ ≠
del contraste se calcula, por tanto, como el área bajo la , curva normal estandarizada1 para
1
Ejemplo 10.3  A partir de 533 controles del estudio EURAMIC, la estimación puntual del
ρ0 se realiza
aquellos valores
mediante el estadístico
tanto o másentre
distantes nque
de 0de −masa
3 el corporal
valor observado del estadístico.
coeficiente de correlación el índice y el colesterol HDL fue r = – 0,276.
La transformación z de Fisher de esta correlación es z = log{(1 – 0,276)/(1 + 0,276)}/2 = – 0,284.
quePara
bajoobtener
H0 sigueuna estimación por una
aproximadamente intervalo  1 +deρla
1 distribución correlación subyacente ρ entre ambas
0  normal estandarizada. El valor P
Ejemplo 10.3 A partir de 533zcontroles − log del estudio  EURAMIC, la estimación
2 1 − ρ0 
del contraste se calcula, por tanto, como el área bajo la , curva normal estandarizada para
160 puntual
Pastor-Barriuso R. del coeficiente de correlación1entre el índice de masa corporal y el
aquellos valores tanto o más distantes de 0nque − 3 el valor observado del estadístico.
8
referencia del estudio EURAMIC, se calcula en primer lugar el IC al 95% para el
1
− 0,284 ± z 0,975 = -0,284 ± 1,96⋅0,043 = (-0,369; -0,199)
intervalo de la correlación533
subyacente
− 3 ρ entre ambas variables en la población de
parámetro log{(1 + ρ)/(1 - ρ)}/2 como Coeficiente de correlación

referencia del estudio EURAMIC, se calcula en primer lugar el IC al 95% para el


y, a continuación, se aplica el 1 inverso de la transformación de Fisher a ambos
− 0,284 ± z 0,975 = -0,284 ± 1,96⋅0,043 = (-0,369; -0,199)
parámetro
variables en log{(1 + ρ)/(1 de
la población ρ)}/2
-533 como del estudio EURAMIC, se calcula en primer lugar
referencia
− 3
límites
el IC al del95%intervalo
para el parámetro log{(1 + ρ)/(1 – ρ)}/2 como
asociación lineal subyacente entre ambas variables. Además, las inferencias basadas en
y, a continuación, 1 inverso de la transformación de Fisher a ambos
− 0,284exp{ ±2(zse−
0 ,0
aplica el
,
975369 )} − 1 exp{ = − 0,284
2(−de 0,199± 1,96
)} −⋅0,043 = (− 0,369; − 0,199)
1  muestral
la transformación  de Fisher del 533coeficiente
− ,3 correlación asumen que las
 = (-0,353; -0,196).
exp{
límites del intervalo 2 ( − 0 , 369 )} + 1 exp{ 2 ( − 0 ,199 )} + 1 
y, a continuación, se aplica el inverso de la transformación de Fisher a ambos límites del
variables se distribuyen de forma aproximadamente normal y que el tamaño muestral es
intervalo
y, a continuación, se aplica el inverso de la transformación de Fisher a ambos
Notar que elexp{
suficientemente intervalo
2(−0,En
grande. resultante
369 )} − 1 exp{
aquellas es ligeramente
2(−0,199)} asimétrico
− 1 respecto aevidencia
la
límites delintervalo , situaciones dondeexista una
= (− 0,353; clara
− 0,196). en
exp{2(−0,369)} + 1 exp{2(−0,199)} + 1 
 puntual
estimación
contra de la normalidad, r =o-0,276.
bien cuando Para contrastar
la muestralasea hipótesis
muy pequeña,de ausencia estasde inferencias
Notar que el intervalo resultante es ligeramente asimétrico respecto a la estimación
asociación
puntual
Notar
pueden que r =ellineal
resultar
exp{
– 0,276.
intervalo
engañosas
(−0Para
2entre ,369ambas
resultante
y es
− 1variables
)}contrastarexp{2la(−H
preferible
0,199
hipótesis
, es ligeramente
utilizar
−de
)}0,
0: ρ =métodos
1se ausencia
 calcula
asimétrico elde
respecto
= (-0,353; estadístico
no paramétricos.asociación
a la En este
-0,196). lineal entre
 exp{ 2 ( − 0 ,369 )} + 1 exp{ 2 ( − 0 ,199 )} + 1
ambas variables  H0: ρ = 0, se calcula el estadístico 
apartado se presenta elrcoeficiente
estimación puntual = -0,276. Para contrastar la
de correlación
−0,284 533 − 3 =de
hipótesis
los rangos
− 6,53,
dede ausencia
Spearman de como un
Notar que el intervalo resultante es ligeramente asimétrico respecto a la
asociación
que corresponde
procedimiento lineal aentre
no paramétricoun valorambas P variables
parabilateral
detectar Hla
bajo0: ρ la=distribución
0, se calcula
existencia de una elrelación
normalestadístico
estandarizada
monótona 2P(Z ≤
que corresponde a un valor P bilateral bajo la distribución
estimación puntual r = -0,276. Para contrastar la hipótesis de ausencia de moderada pero
– 6,53) = 2F(– 6,53) < 0,001. En conclusión, existe una normal
asociación estandarizada
lineal
significativa
(creciente entre el índice
o decreciente, aunquede nomasa corporal y ellineal)
necesariamente colesterol HDL con un coeficiente de
-0,284 533 − 3 = -6,53, entre dos variables
correlación
≤ -6,53) de =– 0,28
2 Φ (IC al 95%
asociación lineal entre ambas variables H0: ρ = 0, seexiste
2P(Z (-6,53) < 0,001.– 0,35
En a – 0,20;
conclusión, P < 0,001).
calculaunaelasociación
estadísticolineal
cualesquiera, que pueden ser variables continuas con distribuciones subyacentes no
moderada
10.2.2 que corresponde
Coeficiente pero de un valor Pentre
significativa
a correlación el índice
bilateral
de los bajo de
rangos masa
la de corporal
distribución
Spearman y el colesterol
normal estandarizada HDL
normales o incluso variables cualitativas -0,284 533 − 3 = -6,53,
ordinales.
Al igual
conqueun la media
coeficiente y la dedesviación
correlación
2P(Z ≤ -6,53) = 2Φ(-6,53) < 0,001. En conclusión, típica
de muestral,
-0,28 (IC alel 95%
coeficiente
existe -0,35
una ade-0,20;
correlación
asociación de Pearson es
P < 0,001).
lineal
sensible a la presencia de valores extremos en alguna
Si se desea determinar el grado en que dos variables se relacionan de forma de las variables, que podrían distorsionar la
que
estimación corresponde
resultante, a un valor
no siendo entonces P bilateral bajo la distribución normal estandarizada
moderada pero significativa entre eluníndice
buen reflejo
de masa decorporal
la asociación lineal subyacente
y el colesterol HDL entre
ambas variables.
monótona Además,
sin realizar las inferencias
ninguna asunción basadas
sobre la en la transformación de Fisher del coeficiente
10.2.2 Coeficiente
2P(Z ≤ -6,53) de
= 2correlación
Φ (-6,53) < de los En
0,001. rangos dedistribución
conclusión, Spearman
existe
poblacional de ambas
una asociación lineal
de correlación muestral asumen
con un coeficiente de correlación que lasdevariables
-0,28 (ICseal distribuyen
95% -0,35 ade forma
-0,20; P <aproximadamente
0,001).
normal y que
variables, el tamaño
basta con muestral
utilizar el es suficientemente
orden de las grande.
observaciones En aquellas
de cada situaciones
variable en donde
lugar exista
Al igual que la media
moderada pero y la desviación
significativa entre típica
el muestral,
índice de el coeficiente
masa corporal y de
el correlación
colesterol de de
HDL
una clara evidencia en contra de la normalidad, o bien cuando la muestra sea muy pequeña, estas
inferencias puedenvalores. resultar Así, engañosas ysujeto
es preferible utilizar losmétodos
rangos noyparamétricos. En este
sus verdaderos
Pearson
10.2.2 conesunsensible
Coeficiente
coeficiente a lacorrelación
de presencia
de
a cada
correlacióndede valores
los
de
se
rangos
-0,28
le de
extremos
(IC
asignanen alguna
Spearman
al 95% -0,35 de
a lasri variables,
-0,20;
si en función
P < que de
0,001).
apartado se presenta el coeficiente de correlación de los rangos de Spearman como un procedimiento
no la
paramétrico
posición para
que detectar
ocupan suslarespectivos
existencia valoresde una observados
relación monótona xi eunyi de (creciente
dentro de la omuestra
decreciente,
podrían
Al igual distorsionar
que la media layestimación
la desviación resultante,
típica no siendo
muestral, el entonces
coeficiente buen reflejo
correlación dedela
aunque no necesariamente lineal) entre dos variables cualesquiera, que pueden ser variables
continuas
10.2.2 conascendentemente
Coeficiente
ordenada distribuciones
de correlación subyacentes
por de Y. no
Xdeevalores
los normales
rangos
En dede
elextremos
caso o que
incluso
Spearman variables
existan cualitativas ordinales.
Pearson es sensible a la presencia en alguna devarias observaciones
las variables, que
Si se desea determinar el grado en que dos variables se relacionan de forma monótona 9 sin
Al igual
con que
el mismola
realizar distorsionar media
ninguna asunción valor y de la desviación
una variable
sobre la típica muestral,
(empates),
distribución se el
asignacoeficiente
poblacional a cada
deun de
una
ambas correlación
de ellas la de
media de con
podrían la estimación resultante, no siendo entonces buen variables,
reflejo de la basta
utilizar el orden de las observaciones de cada variable en lugar de sus verdaderos valores. Así,
Pearson
a cada es sensible
los rangos
sujeto se a la presencia
correspondientes.
le asignan los rangos Elde valores
ri y si enextremos
coeficiente enlaalguna
de correlación
función de rs dedeSpearman
posición las variables,
que ocupan se sus que
calcula
respectivos
valores observados xi e yi dentro de la muestra ordenada ascendentemente por X e Y. En 9el caso
podrían distorsionar
de simplemente
que existan como
varias laobservaciones
estimación
el coeficiente resultante,
de correlación
con el mismono siendo entonces
de Pearson
valor un buen(empates),
de unareemplazando
variable reflejo
los de la asigna a
valores
se
cada una de ellas la media de los rangos correspondientes. El coeficiente de correlación rs de
observados
Spearman (xi, yi)simplemente
se calcula por sus correspondientescomo el coeficiente rangos (r si),
dei, correlación de Pearson reemplazando
9
los valores observados (xi, yi) por sus correspondientes rangos (ri, si),
n

 (r
i =1
i − r )( s i − s )
rs = ,
n n

 (r
i =1
i − r)2  (s
i =1
i − s)2

Pastor-Barriuso R. 161

10
monótona creciente
yi < yj; es que
verifican decir,
xi <losxde perfecta.
j,valores
De igual forma,
observados si rs de
de valores = -1,
las variables Xlose rangos verifican
Y presentan que si =orden
una relación
Y preservan n+
cálculo
álculo del coeficientedel
decoeficiente
correlación desus correspondientes
correlación
Spearman desimplifica
se Spearman la variable
se simplifica
notablemente notablemente
ya que la yadicho
que la
- ri,j;yde
1ymonótona
i<y
donde se
creciente deduce que
perfecta. losigual
De valores
dede
laslas
forma, si variables eXYrangos
rs = -1, Xlos Y presentan
e presentan unauna
verifican relación
que si = n +
Correlación
varianza de losvarianza
rangos de es
es losdecir,
regresión loses
lineal
rangos valores
simple observados variables relación

monótona
1 - ri, de donde
monótona decreciente
creciente se deduce perfecta.
perfecta. queDe losCuando
valores
igual rsde
forma, = 0, silos
las rangos X
rvariables
s = -1, los
estáne Y incorrelacionados
rangos presentan
verificanunaque si y=no
relación n+
1 21 1 21
n n n n
donde  (ri − r monótona
losrelación
rangos =  (son
)medios r 2
− (rs)i =−=sentre)= (n si − s )Elde
+ (valores
1)/2. 2
coeficiente de correlación de Spearman
1existe
monótona
- r−i,1de
n decreciente
donde se
n − deduce
1 n − 1
i alguna
perfecta.
que los Cuando
valores
n − 1 los rsde = 0, laslos rangos
variables ambas evariables.
están
X incorrelacionados
Y presentan una relación y no
siempre toma valores entre – 1 y 1. Si rs = 1, los rangos son necesariamente idénticos si = ri, de
i =1 i =1 i =1 i =1
2 n 2
tal existe
forma
En el que
caso si dedos que observaciones
1perfecta.
no haya
n
 valores +cualesquiera
nentre 1 idénticos (n0,+n1los
nvalores +de
) 1de
(empates)la ambasvariable
n(ennestán 1) Xincorrelacionados
+variables.
ninguna verifican
de las que xi < xel
variables, , sus
monótona relación
correspondientes valores
monótona
decreciente =
n −de
 alguna
1 i =la1
 i −
variable
Cuando
=  
los
= r s
2n −1Yi =preservan
 =
i −
1  12 2 
rangos
 =
dicho orden 12 yi < yj; es decir, los valores
y noj
observados
cálculo
En el
existe de
del
caso
relación las variables
coeficienteque nodehaya
demonótona X e Y
alguna presentan
correlación
valores de una
losSpearman
entreidénticos relación
valores monótona
deseambas
(empates) simplifica
envariables.
ninguna creciente
notablemente
de lasperfecta.ya que
variables, De el
igual
la
forma, si rs = – 1, los rangos verifican que si = n + 1 – ri, de donde se deduce que los valores de
y su
y su covarianza es covarianza deXes Yrangos
las variables
varianza
cálculo
En eldel caso ede
los presentan
que noes
coeficiente dehaya unavalores
correlación relación demonótona
idénticosSpearman (empates) decreciente
se simplificaen ninguna perfecta. Cuando
notablemente
de las yarque
variables, s = 0,
la los
el
rangos están incorrelacionados y no existe relación monótona alguna entre los valores de ambas
1 nvariables.varianza
cálculo 1 del den coeficiente
los rangos 1 1es den correlación 1 2 de n
Spearman se simplifica notablemente ya que la
 i  i i  ( ri − r ) = ( s1{(
n n
( r − r )( s − s )( r
= − r )( s − s ){(= r − r ) + i − ri s−)(2rs)−2−(+rsi )(− 2s is−
2 2
i ) s}) − (ri − s i ) 2 }
i
n − 1 i =1 En elncaso − 1 i =de1 que 2(non −nhaya 
1−) 1i =1valores 2(n −
i
2

1) i =n1 − 1 (empates) en ninguna de las variables, el cálculo
idénticos i

delvarianza de los rangos es i =nde 1 i =1


coeficiente de correlación
n(n + 11) 1n(n +2n1) se
Spearman 1 simplifica
1nn 2 n notablemente ya que la varianza de los
 i )  i
2 2 2
rangos es = − =( r − r ) = ( r
− 1
− s ) (
.
 s − n s
( r+) 1−  s ) n. ( n + 1)
12n − 1 i =21(n − 112 = i −(1n
i =1 n 2
i
i−
i
− i  i=
=11) i =1
1 n n − 1
1 i =n1  n 2 2 12
n − 1 i =1
 i ( r − r ) 2
=
= n −1 
1   i n +1( s
i =1  i −
− s ) 2

 =
n(n + 1)
Aplicando
Aplicando ambos resultados, ambos resultados, el
el coeficiente decoeficiente
correlaciónde nde −correlación
1Spearman
i =1  2sedereduce
Spearman a se reduce a
12
y su covarianza es 1 n  n +1
2
n(n + 1)
=   i − 2  = 12
n − 1n i =1 
y su covarianza 6 n
6
rs1= 1n−es 2 rs = 1 −(ri − 2s i )12 , n(ri − s i ) 2 ,2
y su covarianza es ni(n − 1)i i =1 s )n=(n − 1) i =
( r − r )( s − {( ri − r ) + ( s i − s ) 2 − (ri − s i ) 2 }
n − 1 i =1 2(n − 1) 1i =1
y su covarianzanes
1 1 n

 = n(n + 1)  {( r1i − r ) 2 +(r( s−i −


n
(ri − r )( s i − s ) = s) 2).2 − (ri − s i ) 2 }
fórmula
órmula que sólo puedeque sólo
n −puede
emplearse 1 i =cuando
1 emplearse
no haycuando empates.2(n12 no − 1hay −
) i =1empates.
n 2( n − 1) i =1
 i i s
1 n 1
 (ri − r )( s i − s ) = n(n + 1)  {( r1i − r ) 2n + ( s i − s )2 2 − (ri − s i ) 2 }
1 i =1 En la Tabla 10.1= se
n −10.4 − 1) −
2(npresentan  (ri − si ) .
Ejemplo 12 i =1 2(los 1) i =1 de α-tocoferol y β-
n − niveles
Aplicando ambos resultados, el coeficiente n(n + 1) de correlación
1 n de Spearman se reduce a
Aplicando Ejemplo
caroteno ambos 10.4
en resultados,
En laadiposo
tejido Tabla en =una
el coeficiente
10.1 se 12 de −correlación
presentan
muestra los
aleatoria 
niveles
2(n − 1) i =1
de
de (r10de− controles
iSpearman
2
sα-tocoferol
i ) . 11sedel reduce
β- a 11
yestudio
Aplicando ambos resultados, el coeficiente 6 de correlación
n de Spearman se reduce a
EURAMIC,
caroteno en tejido junto con adiposo r
los rangos
s = 1 −
en unacorrespondientes
nmuestra
(n 2 − 1)aleatoria
 ( r i − s
ade )
ilos
2
10,valores
controles de ambas
del estudio
Aplicando ambos resultados, el coeficiente de correlación i =1
de Spearman se reduce a
6 n
hay
2
fórmula que sóloApuede
variables.
EURAMIC, junto emplearse
partir de estos
con los rrangos 1 − correspondientes
=cuando
srangos, elno coeficiente (ri de
empates. − ascorrelación
) ,valores de Spearman
ilos ambas se
n(n 2 − 1) i =1
fórmula que sólo puede emplearse cuando 6 no hay n empates.
calcula
variables. como A partir de
Ejemplo 10.4  En la Tabla 10.1 se presentanestos r s = 1
rangos, − el 2coeficiente
n(n − 1) i =1
 (ri de
los
2
scorrelación
−niveles
i ) , de a-tocoferol de Spearman se
y b-caroteno en
tejidoque
fórmula adiposo
sólo en una emplearse
puede muestra aleatoria cuando de no10 haycontroles
empates.del estudio EURAMIC, junto con
calcula
los rangos como correspondientes a los valores de ambas variables. A partir de estos rangos, el
1 10
coeficiente
fórmula que sólo de correlación
puede emplearse  rSpearman
9 i =1
de ( r )( s i −no
i −cuando s ) calcula
se hay empates. como
5,06 11
rs = 1 10 = = 0,552,
1 10  (ri −2 r )( 1 s10i − s ) 3,03 ⋅ 3,03
rs = 9 i =1 i =1
 i 9( r − r )  i
9 i =1
( s − s ) 2

=
5,06
= 0,552,
11
1 10 1 10 3,03 ⋅ 3,03

9 i =1
( ri − r ) 2

9 i =1
(si − s ) 2 11
o de forma equivalente mediante la fórmula simplificada en ausencia de empates
o de forma equivalente mediante la fórmula simplificada en ausencia de empates
o de forma equivalente 6 mediante la fórmula simplificada en6 ausencia ⋅ 74 de empates
2 2
rs = 1 − {( 7 − 3 ) + ... + ( 6 − 6 ) } = 1 − = 0,552,
10(10 2 − 1) 10(10 2 − 1)
6 6 ⋅ 74
que refleja rs = 1una − fuerte {(7 − 3) 2 + ... + (6 − 6) 2 } = 1 −
2 relación monótonamente creciente entre2 los niveles de a-tocoferol
= 0,552,
10(10 − 1) 10(10 − 1)
yque refleja unaCabe
b-caroteno. fuerte destacar
relación quemonótonamente
esta estimacióncreciente no esta influenciada entre los niveles por elde valor
α- extremo
1,46 mg/g de b-caroteno ya que el rango de esta observación continuaría siendo 10 para
cualquier
que reflejayvalor
tocoferol una arbitrariamente
fuerte relación
β-caroteno. Cabe destacar mayor que
monótonamente que esta los demás.creciente entre
estimación no esta niveles de α-por
los influenciada

162 tocoferol
el valor
Pastor-Barriuso y β-caroteno.
R. extremo Cabe
1,46 μg/g dedestacar queya
β-caroteno esta
queestimación noesta
el rango de estaobservación
influenciada por

el valor extremo
continuaría siendo 10 μg/g
1,46 de β-caroteno
para cualquier valorya que el rango de
arbitrariamente esta observación
mayor que los demás.
Coeficiente de correlación

Tabla 10.1  α-tocoferol y β-caroteno en tejido adiposo en una muestra aleatoria


de 10 controles del estudio EURAMIC.
α-tocoferol β-caroteno
Control Valor (μg/g) Rango (ri) Valor (μg/g) Rango (si)
rs
1 163,8 t= 7 0,14 3
2 331,9 − rs2
110 0,45 8
3 125,1 n 4− 2 0,07 1
4  42,9 1 0,44 7
5 211,0 8 1,46 10
sigue aproximadamente
6 distribución t de Student
una115,9 2 con n - 2 grados
0,18 de libertad,4
7 128,6 5 0,37 5
siempre que el 271,0 sea n > 10. Así,
8 tamaño muestral 9 el valor P bilateral
0,66 del contraste puede
9
9 118,8 3 0,11 2
10 128,7 6 0,40
aproximarse mediante el área bajo la distribución t para valores tanto o más alejados6
n-2

de Al
0 queigual que otros
el valor procedimientos
observado del estadístico no t.
paramétricos,
Aparte del mínimo el coeficiente de correlación
requerimiento muestral,de los
rangos de Spearman permite contrastar la hipótesis nula de ausencia de asociación monótona
entre dos variables.
este contraste tiene Bajo esta hipótesis
la ventaja adicionalnula, se ha aplicarse
de poder comprobado que el coeficiente
a cualquier distribución de correlación
rs de Spearman tiende a distribuirse de forma normal o, más concretamente, que el estadístico
subyacente de las variables X e Y, a diferencia del rs contraste paramétrico basado en el
t=
1 − rs2
coeficiente de correlación de Pearson que requiere de distribuciones poblacionales
n−2
sigue aproximadamente
aproximadamente una distribución t de Student con n – 2 grados de libertad, siempre que
normales.
el tamaño muestral
sigue aproximadamentesea n > 10.
unaAsí, el valor P bilateral
distribución t de Studentdel contraste
con n - 2 puede
gradosaproximarse
de libertad, mediante
el área bajo la distribución tn–2 para valores tanto o más alejados de 0 que el valor observado del
estadístico t.que
Ejemplo
siempre Aparte
10.5 del
Como
el tamaño mínimo requerimiento
las distribuciones
muestral sea n > 10. muestral,
subyacentes
Así, el valor este
delPcontraste
bilateraltiene
α-tocoferol la
el ventaja
β-
delycontraste adicional
puede
de poder aplicarse a cualquier distribución subyacente de las variables X e Y, a diferencia del
contraste paramétrico
caroteno
aproximarse (Figura
mediante basado
4.3) áreaen
el son el coeficiente
marcadamente
bajo de tcorrelación
asimétricas
la distribución de Pearson
en los controles delque requiere de
estudio
n-2 para valores tanto o más alejados
distribuciones poblacionales aproximadamente normales.
de EURAMIC,
0 que el valorelobservado
contraste bilateral de la hipótesis
del estadístico t. Apartede delnomínimo
asociación entre ambas
requerimiento muestral,
Ejemplo 10.5  Como las distribuciones subyacentes del a-tocoferol y el b-caroteno
variables
este(Figura a tiene
4.3)
contraste partir deventaja
son la los 10 controles
marcadamente de
de la
asimétricas
adicional Tabla
poder 10.1
enaplicarse
los haade
controles realizarse mediante
del estudio
cualquier el
EURAMIC,
distribución el
contraste bilateral de la hipótesis de no asociación entre ambas variables a partir de los 10
estadístico
controles
subyacente debasado
de la Tabla
las en10.1
la correlación
variables Xhae de de losmediante
Y, realizarse
a diferencia rangos deelSpearman
del contraste estadístico basado
paramétrico en la correlación
basado en el
de los rangos de Spearman
coeficiente de correlación de Pearson rs que requiere0,552 de distribuciones poblacionales
t= = = 1,87,
2 2
aproximadamente normales. 1 − rs 1 − 0 ,552
n−2 8
que bajo la distribución t de Student con 8 grados de libertad corresponde a un valor
Ejemplo 10.5
aproximado de PComo= 2P(tlas ≥distribuciones
1,87) = 0,098. subyacentes
Así, aunque el α-tocoferol
del coeficiente β-
ydeelcorrelación de
que bajo la distribución t8de Student con 8 grados de libertad corresponde a un
Spearman rs = 0,55 estima una fuerte relación monótonamente creciente entre los valores
caroteno de
observados (Figura 4.3) sony marcadamente
a-tocoferol b-caroteno, estaasimétricas
asociaciónennolosllega
controles del estudio
a ser estadísticamente
valor aproximado de P = 2P(t 8 ≥ 1,87) = 0,098. Así, aunque el coeficiente de
significativa, probablemente debido a la escasa potencia del test para detectar cualquier
EURAMIC, el contraste
asociación bilateral de la hipótesis de no asociación entre ambas
correlaciónsubyacente
de Spearman conr tan
s
reducido
= 0,55 estimatamaño muestral.
una fuerte relación monótonamente
variables a partir de los 10inferior
controles de laaTabla
10, la10.1 ha de realizarse mediante el
Cuando el tamaño
creciente muestral
entre los valoresesobservados o de
igual
α-tocoferol y β-caroteno,t de
distribución estaStudent no es una
buena aproximación a la distribución muestral del estadístico t y, en consecuencia, el contraste
estadístico basado en la correlación de los rangos de Spearman
asociación no llega a ser estadísticamente significativa, probablemente debido a la
Pastor-Barriuso R. 163
rs 0,552
t= = = 1,87,
1 − rs2 1 − 0,552 2
dada por 1/n!. Haciendo uso de este resultado, es posible derivar la distribución bajo la

hipótesisynula
Correlación dellineal
regresión coeficiente
de correlación de Spearman, cuyos percentiles en
simple
10.3 REGRESIÓN LINEAL SIMPLE
muestras de tamaño n ≤ 10 se presentan en la Tabla 10 del Apéndice. Para un contraste
Lasbasarse
debe técnicasendelaregresión evalúan
distribución la relación
exacta entre dosde
del coeficiente variables siguiendo
correlación una
de Spearman bajo la
bilateral con
hipótesis nula.unSinivel de significación
no existe α preestablecido,
ninguna relación la hipótesis
monótona entre de no asociación
las variables, y los rangos seri de la
estrategia
X se de análisis distinta a cualquier
la correlación. Mientrass ,que el coeficiente de correlación
variable asumen constantes, permutación 1 ..., sn de los rangos de la variable Y
rechazará
es si elprobable
igualmente coeficiente
y su correlación rviene
deprobabilidad s de Spearman
dada por es inferior
1/n!. uso de α
al percentil
Haciendo /2 oresultado,
este
determina el grado de asociación lineal entre X e Y tratando ambas variables
es posible derivar la distribución bajo la hipótesis nula del coeficiente de correlación de forma de
Spearman, 1 - α/2 deendicha
cuyos percentiles
superior al percentil tabla. de tamaño n ≤ 10 se presentan en la Tabla 10 del
muestras
Apéndice. Para un contraste bilateral conlaun
simétrica,
10.3 la
REGRESIÓN regresión lineal
LINEAL estudia
SIMPLE variación
nivel deen el nivel medio
significación de la variablela hipótesis
α preestablecido,
de no asociación se rechazará si el coeficiente de correlación rs de Spearman es inferior al
percentil α/2 Yo asuperior
respuesta
LasEjemplo
técnicas
medida
10.6 alque
El valor
de regresión
cambia
percentil
evalúan
la– variable
laPα/2
exacto 1de para
de el
relación
explicativa
contraste
dicha tabla.
entre
X, estableciendo
bilateral
dos variables de así una
la hipótesis
siguiendo una de no
direccionalidad en laelrelación entreydichas
α-tocoferol variables. Aunque en ocasiones la elección
asociación
estrategia
Ejemplo entre
de10.6 
análisis
Eldistinta deβ-caroteno
el
a la correlación.
valor exacto el viene
P paraMientras dadoel
que
contraste por
coeficiente
bilateral de ladehipótesis
correlación
de no
asociación entre el a-tocoferol y el b-caroteno viene dado por
entre la variable respuesta y explicativa es un tanto arbitraria (por ejemplo, en la
determina el grado de asociación
P = P(r ≥ 0,552|H )lineal
+ P(rentre X e Y tratando
≤ − 0,552|H ) = 2P(rambas variables
≥ 0,552|H ), de forma
s 0 s 0 s 0

asociación
ya que laentre
simétrica, el α-tocoferol
distribución
regresión H
bajoestudia
lineal β-caroteno),
y eldel variaciónlaen
lacoeficiente direccionalidad
de nivel mediodesuele
elcorrelación establecerse
deSpearman
la variable de
es simétrica
0
ya que la distribución
alrededor de 0. Utilizando bajo laH0Tabla
del coeficiente
10 del Apéndicede correlación
para n = de10,Spearman
se tiene quees el percentil
forma natural
rs;0,95 = Y0,552,por el propio
de loque diseño
cualcambia
se deduce del estudio o la naturaleza
que P =explicativa
2P(rs ≥ 0,552|H de las variables (porEste valor
respuesta a medida la variable 0) ≥ 2⋅0,05 así
X, estableciendo = 0,10.
una
simétrica
exacto de alrededor
P es similar de 0.al Utilizando la Tabla mediante
valor aproximado 10 del Apéndice para n =t 10,
la distribución de se tiene en el
Student
ejemplo, los cambios
ejemplo anterior.
direccionalidad medios en el colesterol HDL conforme aumenta
en la relación entre dichas variables. Aunque en ocasiones la elección el índice de masa
que el percentil rs;0,95 = 0,552, de lo cual se deduce que P = 2P(rs ≥ 0,552|H0) ≥
corporal).
entre la variable respuesta y explicativa es un tanto arbitraria (por ejemplo, en la
10.3  2⋅0,05
REGRESIÓN = 0,10. Este LINEAL SIMPLE
valor exacto de P es similar al valor aproximado mediante la
El modelo
asociación entrede regresión linealy asume
el α-tocoferol que la media
el β-caroteno), de la variable suele
la direccionalidad respuesta Y cambiade
establecerse
Las técnicas de regresión
distribución evalúan
t de Student en ellaejemplo
relaciónanterior.
entre dos variables siguiendo una estrategia de
linealmente
análisis con lacorrelación.
variable explicativa X; esto es, para un de valor fijo x de la variable el grado
forma natural por el propio diseño del estudio coeficiente
distinta a la Mientras que el o la naturaleza correlación determina
de las variables (por
de asociación lineal entre X e Y tratando ambas variables de forma simétrica, la regresión lineal
explicativa,
estudia el valor
la variación en elesperado de la variable
nivel medio respuesta es Y a medida que cambia la variable
ejemplo, los cambios medios en elde la variable
colesterol HDLrespuesta
conforme aumenta el índice de masa
explicativa X, estableciendo así una direccionalidad en la relación entre dichas variables.
Aunque en ocasiones la elección entreE(Y|x)
corporal). la variable
= β0 +respuesta
β1x, y explicativa es un tanto arbitraria
14
(por ejemplo, en la asociación entre el a-tocoferol y el b-caroteno), la direccionalidad suele
establecerse
El modelo de forma natural lineal
de regresión por elasume
propioque diseño del estudio
la media o la naturaleza
de la variable respuestadeYlas variables
cambia
donde β
(por ejemplo, 0 y β
los son la constante y la pendiente de la recta de regresión
1 cambios medios en el colesterol HDL conforme aumenta el índice de masa , respectivamente.
corporal).
linealmente con la variable explicativa X; esto es, para un valor fijo x de la variable
La constante β0 determina la media de Y cuando X = 0, E(Y|0) = β0 + β10 = β0, y la
El modelo de regresión lineal asume que la media de la variable respuesta Y cambia
explicativa,
linealmente conellavalor esperado
variable de la variable
explicativa X; esto es,respuesta
para un es valor fijo x de la variable explicativa,
pendiente β corresponde al cambio
el valor esperado de la variable respuesta es
1 en el valor medio de Y por cada aumento de una

unidad en X, E(Y|x + 1) - E(Y|x) = βE(Y|x) = β 0 + β 1 x,


0 + β1(x + 1) - (β0 + β1x) = β1. La especificación del
donde β0 y β1 son la constante y la pendiente de la recta de regresión, respectivamente. La
modelo
donde ββse
constante completa
β1 son la asumiendo
determina
00 y la media de
constante yque
la los valores
Y pendiente
cuando = individuales
X de 0,la E(Y|0) de la variable
= βregresión
recta de 0 + β10 =, β
respuesta se
0, y la pendiente β1
respectivamente.
corresponde al cambio en el valor medio de Y por cada aumento de una unidad en X, E(Y|x + 1)
distribuyen
– E(Y|x) = β0 + de
La constante ββ forma
1(x + 1) normal
– (β0 +laβalrededor
0 determina 1x) = βde
media delcuando
1. La
Y valor esperado
especificación definido
del
X = 0, E(Y|0) = β0 por
modelo la0 recta
= β0, de
+seβ1completa y asumiendo
la
que los valores individuales de la variable respuesta se distribuyen de forma normal alrededor
delregresión. Así,
valor esperado
pendiente β ladefinido
estructura
porgeneral
la rectadel
demodelo
regresión.de regresión lineal esgeneral del modelo de
Así, la estructura
1 corresponde al cambio en el valor medio de Y por cada aumento de una
regresión lineal es
unidad en X, E(Y|x + 1) - E(Y|x) = β0Y+=ββ10(x++β 1) - (εβ,0 + β1x) = β1. La especificación del
1x +

donde el término de error aleatorio ε, que representa la desviación de cada respuesta individual
modelo se completa asumiendo que los valores individuales de la variable respuesta se
Y respecto de la recta de regresión β0 + β1x, se distribuye de forma normal con media150 y
distribuyen de forma normal alrededor del valor esperado definido por la recta de
164 Pastor-Barriuso R.
regresión. Así, la estructura general del modelo de regresión lineal es

Y = β + β x + ε,
individual Y respecto de la recta de regresión β0 + β1x, se distribuye de forma normal

con media 0 y varianza σ 2. Por tanto, la regresión lineal establece que para Regresión
un valor fijosimple
lineal

x de la variable explicativa, la variable respuesta Y sigue una distribución normal con


varianza σ 2. Por tanto, la regresión lineal establece que para un valor fijo x de la variable
2
media E(Y|x)
explicativa, = β0 + respuesta
la variable β1x + E(ε)Y=sigue
β0 + una
β1x distribución
y varianza var(Y|x)
normal=con
var( ε) = σE(Y|x)
media , = β0 + β1x +
E(ε) = β0 + β1x y varianza var(Y|x) = var(ε) = σ ,2

Y|x ~ N(β 0 + β 1 x, σ 2 ),
de donde se derivan las siguientes asunciones:
de donde se derivan las siguientes asunciones:
yy Linealidad: El valor esperado de la variable respuesta Y es una función lineal de la variable
explicativa X, de tal forma que cambios de magnitud constante a distintos niveles de X se
• Linealidad: El valor esperado de la variable respuesta Y es una función lineal de
asocian con un mismo cambio en el valor medio de Y.
yy Homogeneidad de la varianza:
la variable explicativa Laforma
X, de tal varianza
que de la variable
cambios respuesta
de magnitud Y es la misma
constante a para
cualquier valor de la variable explicativa X; es decir, a diferencia de la media, la varianza
de Ydistintos
no está relacionada
niveles de Xcon X.
se asocian con un mismo cambio en el valor medio de Y.
yy Normalidad: Para un valor fijo de la variable explicativa X, la variable respuesta Y sigue
• Homogeneidad
una de la varianza: La varianza de la variable respuesta Y es la
distribución normal.
Las asunciones subyacentes
misma para cualquieralvalor
modelo
de ladevariable
regresión lineal se X;
explicativa representan
es decir, agráficamente
diferencia de en
la la
Figura 10.5. Estas asunciones facilitan el proceso de inferencia sobre la recta de regresión y su
idoneidadmedia,
debe ser evaluadade
la varianza utilizando
Y no estátécnicas diagnósticas,
relacionada con X. algunas de las cuales se presentan
al final de este tema.
Normalidad
En •regresión lineal: simple
Para unsevalor fijo la
estudia dedistribución condicionalX,de
la variable explicativa la una
variable respuesta
variable respuesta
continua en función de una única variable explicativa. Esta variable explicativa puede ser tanto
continua Ycomo
siguecategórica
una distribución
ya que normal.
el modelo de regresión lineal no establece ninguna asunción
respecto a su distribución. La extensión de estos modelos al análisis de regresión lineal múltiple,
Lasse
donde asunciones
consideransubyacentes al modelo
simultáneamente dos odemás
regresión lineal
variables se representan
explicativas, gráficamente
se tratará en el Tema 11.

en la Figura 10.5. Estas asunciones facilitan el proceso de inferencia sobre la recta de

regresión y su idoneidad debe ser evaluada utilizando técnicas diagnósticas, algunas de

las cuales se presentan al final de este tema.


Recta de regresión:
E(Y|x) = β0 + β1x
β0 + β1x4
[Figura 10.5
β0 +aproximadamente
β1x3 aquí]
β0 + β1x2
Y Enβregresión
0 + β1x1 lineal simple se estudia la distribución condicional de una variable

respuesta continua en función de una única variable explicativa. Esta variable

explicativa puede ser tanto continua como categórica ya que el modelo de regresión

16

x1 x2 x3 x4
X
Figura 10.5
Figura 10.5  Asunciones estadísticas subyacentes al modelo de regresión lineal simple.

Pastor-Barriuso R. 165
mutuamente independientes. Intuitivamente, se trataría de identificar la línea recta que

más se
Correlación aproxime
y regresión linealal conjunto
simple de todos los puntos del diagrama de dispersión entre

ambas variables. Para formalizar esta idea, es preciso calcular la distancia de cada punto
10.3.1  Estimación de la recta de regresión
observado (xi, yi) respecto al punto correspondiente (xi, ŷ i ) = (xi, b0 + b1xi) sobre la
El primer objetivo de la regresión lineal es obtener estimaciones puntuales b0 y b1 de la constante
β0 yrecta
la pendiente β1 deestimada
de regresión la recta de
enregresión que mejor
xi. Esta distancia, se se
que ajuste a los valores
representa 10.6, (xi, yi)
observados
en la Figura
de las variables explicativa y respuesta en una muestra de n sujetos mutuamente independientes.
Intuitivamente,
viene dada por se trataría
el errordedeidentificar
estimaciónlaen línea recta que
la variable más se aproxime
respuesta ei = yi - ŷali =conjunto
yi - b0 - de
b1xtodos
i.
los puntos del diagrama de dispersión entre ambas variables. Para formalizar esta idea, es
preciso
Así, calcular
la recta dela distancia
regresiónde cada determinada
vendrá punto observado (xi, yi) respecto
por aquellos valoresalb0punto
y b1 que correspondiente
hagan
(xi, ŷ i) = (xi, b0 + b1xi) sobre la recta de regresión estimada en xi. Esta distancia, que se representa
en laeste
Figura
error10.6, viene
lo más dada por
pequeño el error
posible de estimación
para en la variable o,
todas las observaciones respuesta ei = yi – ŷ i =que
equivalentemente, yi – b0
– b1xi. Así, la recta de regresión vendrá determinada por aquellos valores b0 y b1 que hagan este
error lo más pequeño
minimicen la sumaposible para todas
de cuadrados laserror
del observaciones o, equivalentemente, que minimicen
la suma de cuadrados del error
n n n
SSE = e
i =1
2
i =  ( y i − yˆ i ) 2 =  ( y i − b0 − b1 x i ) 2,
i =1 i =1

también llamada suma de cuadrados residual. Notar que los errores se elevan al cuadrado
paratambién
evitar llamada
que se compensen los errores
suma de cuadrados positivos
residual. Notaryque
negativos. Este
los errores procedimiento
se elevan al para
estimar los parámetros de la recta de regresión se conoce como el método de mínimos
cuadrados.
cuadrado para evitar que se compensen los errores positivos y negativos. Este

procedimiento para estimar los parámetros de la recta de regresión se conoce como el

método de mínimos cuadrados.

[Figura 10.6 aproximadamente aquí] (xi, yi)

ei = yi − yˆ i

17
y ( xi , yˆ i ) = ( xi , b0 + b1 xi )

Recta de regresión estimada:


yˆ = b0 + b1 x

Figura 10.6  Error o desviación del valor observado de la variable respuesta respecto a su valor estimado
Figura 10.6
por la recta de regresión.

166 Pastor-Barriuso R.
Para obtener los valores
1
b0 yi =b11 que minimizan
i =1
la suma de cuadrados del error, se

calculan
cuya las derivadas parciales de SSE respecto a b y b1 y se igualan a cero,
solución resultando
Para obtenereslos valores b0 y b1 que minimizan la0suma de cuadrados delRegresión
error, selineal simple

el sistema de ecuaciones lineales


calculan las derivadas parciales denSSE respecto a b0 y b1 y se igualan a cero, resultando
Para obtener los valores b0 y b1 que i n=1
x i − x )( y i −
(minimizan la ysuma ) de
s y cuadrados del error, se calculan
las el sistema de
derivadas ecuaciones
parciales de∂SSE brespecto
lineales 1= an b0 y bn 1 y se igualan =r ,a cero, resultando el sistema de
= −2 ei = −2 ( y2 i − b0 − sbx1 x i ) = 0,
i =1 
ecuaciones lineales ∂b0 ( x i −i =1x )
i =1
antioxidantes en 1.2elMEDIDAS
riesgo
∂SSEde desarrollar DE TENDENCIA
n
un primern CENTRAL
infarto agudo de miocardio en
1.2 MEDIDAS
antioxidantes ∂en SSE ∂elb0riesgo
=
DE − 2 
TENDENCIA
n de e = − 2 
desarrollar un primer
i n ( y −
CENTRAL
i b0 − binfarto 1 x i ) = 0, agudo de miocardio en
hombres adultos. Los
Las medidas valores =
∂b1 de tendencia
− 2  i =1 b0 = yi =1- b1 x .
obtenidos
i =1
x e
i i = − 2
fueron
centrali =1
x (
i0,89,y i − b
1,58,0 −
informan acerca de cuál
b0,79,
1 x i ) 1,29,
= 0, 1,42, 0,84,
es el valor más representativo
hombres adultos.
∂ SSE
Las medidas de= tendenciaLos valores n obtenidos n fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84,
central informan
1,06, 0,87, 1,96 −2 Laxvariable
i e i = −2  y i − b0acerca
x i (niveles x ide
− b1colesterol) =cuál 0, es el valor más representativo
La pendiente deyuna
estimada 1,53 bb1mmol/l.
1 de la recta
∂determinada i =1
media
de de
regresióno,
i =1
losdicho es igual
de del
formaal producto
equivalente, HDL
del en estimadores
coeficiente
estos de indican
cuya solución
1,06,de es
0,87, 1,96 y 1,53 mmol/l. La media
una determinada variable o, dicho de forma equivalente, estos estimadores indicande los niveles del colesterol HDL en
cuya estos 10 participantes
correlación
solución r dealrededor
es Pearson esde porqué el cociente
valor se entre agrupan las los desviaciones
datos observados. típicas muestrales
Las medidas de Ydeytendencia
estos
cuya solución 10 participantes
alrededor
es es
de qué valor nse agrupan los datos observados. Las medidas de tendencia
X. Así, aunque central los signos
1 de 10 la b10,y89rcoinciden,
demuestra ( x i − xtanto )( y −para
1,58 + ... +lai 1,magnitud
+sirven
y)
53 resumir de la pendiente b no sólo
s y los resultados 1observados como para
x =
central de la
10
 x
muestra =
1i b101 = sirven
i =1
n 0,n89
tanto
10 + 1,58 para =
+=1,53
+ ...resumir
1,223
r los , mmol/l.
resultados observados como para
depende del coeficiente realizarxinferencias
i = 1

=de correlación
10 i =1  (
x i =acerca r, sino
de
x i (−xxi )( los
− yx10 también
2parámetros
i) − y )
de s x =poblacionales
las 1,223 mmol/l.correspondientes.
desviaciones típicas sy y sx A
realizar inferencias s
b1 =acerca i =1 i =1de los parámetros poblacionales correspondientes. A y
=r ,
de las variables.continuación
Una vez estimada se describen la pendiente,
n
los principales la constante estimadores
s b0 = y -de b1lax tendencia
corresponde central de una
La media aritmética presenta las siguientes
continuación se describeni =los  b 0 (=xpropiedades:
y−−xb) 1 x . 2 x
principales estimadores de la tendencia central de una
i
La media aritmética presenta las siguientes 1
−propiedades:
La simplemente
pendiente al valor
variable.
estimada que
b de fuerza
la a
recta la recta
de de regresión
regresión es igual a atravesaral producto el punto ( xcoeficiente
deldatos , y) de
• Cambio de origen (traslación). 1 Si se suma una constante a cada uno de los
correlación variable.
r de Pearson por el de Ydatos
y X.
• Cambio
La pendiente de origen
estimada decociente
b1(traslación).
la recta de entre
bSi =seylassuma
0 regresión - desviaciones
b1 xuna es. igual constante altípicas a cada
producto muestrales
unocoeficiente
del de los deAsí,
correspondiente a la media
bMedia muestral de ambas variables. Si la relación subyacente entre
aunque
de unalosmuestra,
signos1.2.1 de 1 y r de
la media coinciden,
aritmética
la muestra la resultante
magnitud es deigual la pendiente
a la media b1inicial
no sólo más depende
la del
coeficiente de
correlación de correlación
una 1.2.1 Media
muestra,
r de Pearson r,
la sino
aritmética
media también
de la de
muestra las desviaciones
resultante es típicas
igual s
a y
la s de
media las variables.
inicial
xmuestrales de Y y más Una
la
La pendiente estimada b por de la el recta
cociente entre las desviaciones
de regresión es igual típicas
alestimadores
producto y
del coeficiente dede
vezlas variables
estimada
constante laespendiente,
La
utilizada;lineal
mediasi(asunción
yi1aritmética,
la xconstante
= de linealidad),
i + c, entonces b0 = y por
denotada –=bb0x1yx+b,corresponde
c1se.sondefine
Un cambio como simplemente insesgados
delaorigen
suma que dealcada
valor la que
uno de los
fuerza a laconstante
recta
X. Así, aunque La de utilizada;
media
regresión aritmética,asi y =
atravesar x
b1i cociente +
denotada
y ri coinciden,c
el , entonces
punto por ( x ,, yse ) = definex +
correspondiente c .
comoUn cambio
la suma
a la de de
media origen
cada
b1 no sólo que
uno
muestral de los
de
correlación
constante β rydelalos signospor
Pearson
pendiente
de el
β de la recta entre
de
la magnitud
las
regresión. desviaciones de latípicaspendiente muestrales de Y y
ambasse variables. 0 valores
Si la relaciónmuestrales
essubyacente
1 dividida de por
entre la las elvariables
número quede observaciones
esconsiste
lineal (asunción realizadas. Si denotamos
ade linealidad),
querealiza
facilitacon unafrecuencia
estimación el centrado
del valor esperado variable,
o predicho de la variable en restarrespuesta para
b0 yX.b1Así,
sonse
depende del valores
estimadores
coeficiente
realiza con muestrales
insesgados
dedecorrelación
frecuencia dividida
der el la centrado por
constante
r, sino la el número
deβmagnitud
también y variable, de
la pendiente observaciones
de las βconsiste realizadas.
1 de la recta
desviaciones típicas Si
de regresión.
syay sxdenotamos
aunque
La valor
recta de la los signos
regresión estimada b1 yes coinciden,
viene entonces
0la
determinada de que lapor
pendiente ben restar
1 no sólo
cada de n el tamaño
pormuestra su muestral
media. La y por de
media xi el una valor variable observado centrada paraserá, el sujeto
por i-ésimo, i = 1, ..., n,
cada
La valor
recta de fijo de la variable
regresión estimada explicativa.
viene Paradeterminadacompletar lapor estimación de los
de las variables.
cada por nUna
delvalor
el
detamaño
lavez muestral
deestimada
muestra su media.la entonces
ypendiente,
porLa
r, sino
xi media
el valor deobservado
la constante unalas b0 =para
variable -elb1sujeto
y centrada x típicas i-ésimo,
corresponde
será, spor
i = 1, ..., n,
depende coeficiente correlación también de desviaciones y y sx
tanto, igual del a 0.la media vendría dada por + b1 (x − la
parámetros modelo lineal,ŷ ha = b0 +estimarse
de b1 x = y también x ),varianza σ 2 de la variable
tanto,
simplemente la media
igual
al valora vendría
0. que fuerza dada a por
la recta de regresión a atravesar (x, y)
que defacilita
las variables. Una vez del
una estimación estimadavalor la pendiente,
esperado o predicho la constante de lab0variable= yel-punto b1respuesta
x corresponde para cada
• Cambio de escala (unidades). Si se multiplica cadan uno de los datos de una
respuesta
valor fijo alrededor de dicha
de la variable explicativa. Para completar recta. A partir de 1
la suma de x +
cuadrados
la=estimación x + ...de+
del x error,
los. de esta
parámetros
n x una entre del
n
• Cambio de escala (unidades). Si se multiplica
correspondiente a la media muestral delaambas x =variables. cada +uno
Si
1
la2 +
2
de...los
relación datos
subyacente
simplemente al devalor que fuerza a la recta de 1regresión n 2 i xa1 atravesar xvariable n +elxrespuesta
punto ( x ,alrededor
y)
modelo lineal, ha estimarse
muestra por una constante, la media de lax muestra también varianza
=  x iresultante i σ
= 1 = de la n
es igual a .la media de
varianza
dicha recta. residual
A partir puede
deunala suma estimarse
de cuadrados mediante n esta varianza n residual
muestra
las variables esporlineal constante,
(asunción mediadel
delalinealidad), deerror, laib=10muestra
y b1 son resultante
estimadores es igual puede
insesgadosa la mediaestimarse
18
de la
correspondiente
mediante
inicial por la constante a la media muestral
utilizada; si yde = ambas
cx , variables.
entonces y =Si c lax relación
. subyacente entre
La media es la medida i dei tendencia central más utilizada y de más fácil
inicial por
La la constante
media es la utilizada;
SSE
medida si
1 yi regresión.
=
n
cxi, entonces y = c x . y de más fácil
constante
las variables β0 yeslalineal
pendiente
(asunción
2
s = β1 dedelalinealidad),= tendencia
recta de de  (by0i y−central
bb10 son
más
x i ) 2.utilizadainsesgados
− b1estimadores de la
• Cambio simultáneo interpretación.
de origenCorresponde ny −escala.
2 n Si − 2se ali =1multiplica
“centro decada gravedad” uno dede loslosdatos datos dede la muestra. Su
La Cambio
• recta interpretación.
de simultáneo
regresión Corresponde
de
estimada origen y escala. al “centro Si se de gravedad”
multiplica cada de unolos datos
de losdedatos la muestra.
de Su
Cabeconstante
destacar β0quey la lapendiente
suma de β1 de laviene
cuadrados rectadel entonces
de
error regresión.
se determinada
divide por n –por
2 ya que, una vez estimadas
una muestra por principal
una constante limitación y alesresultado que estáse muy le suma influenciada otra constante, por los la valores
mediaextremos y, en este
la constante unay muestra
Cabe destacar la pendiente
que la
principal por suma de la
limitación
una de recta
cuadrados
constante es que deyregresión,
aldel
está muy error
resultado lossesendivide
influenciada errores
le suma porpor ndesviaciones
ootra - constante,
los 2 valores
ya que, extremos de
una lavez
la media variable
y, en este
La
respuesta recta
respectode regresión
de la recta estimada
contienen
ŷ = viene
b n+ – b entonces
2 x grados
= y + determinada
deb libertad
(x - x ), por
(conocidos b , b y n – 2 errores,
caso, puede
de la muestra resultante es no igualser aun la fiel
0 media 1 reflejo inicial de la portendencia
1 la primera central
constante,de la distribución.
0 1 más la
los 2estimadas
erroresde restantes
lalacaso,
constante
muestra seresultante
puede derivan
ynolaser automáticamente).
pendiente
un fiel reflejo
es igual dea lala media
rectade la Asumiendo
deinicial
regresión,
tendencia por2que lalos
central sencumplen
primera errores
de olas hipótesis
laconstante,
distribución. más lade
linealidad y homogeneidad
constante; si2yi de = cla varianza, + bla varianza residual s es un estimador insesgado del
segunda 1xŷi +=c2b,0entonces 1x = yy +=bc11(xx - +xc),2.
desviaciones
parámetro poblacionalde
segunda constante;la σ
variable
.
Ejemplo respuesta
si yi1.4 = cEn 1 xi +
respecto
este c2,yentonces
en los de la yrecta
sucesivos = c1contienen + c2. n sobre
xejemplos - 2 grados de
estimadores muestrales, se
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
libertad
Ejemplo
Ejemplo (conocidos
1.510.7  En butilizarán
, bestudio
0el
Para transformar 1 y n -los
los2deerrores,
valores
la relación
valores los
del2colesterol
del errores
entre
colesterol el índice restantes
HDL
HDLdeobtenidos semmol/l
demasa derivan en
corporal losy10
a mg/dl else 18 sujetos del
primeros
colesterol
HDL, resulta1.5
Ejemplo utilizarán
natural
Paraconsiderar los valores
transformar el los del
índice colesterol
valores de masa HDL obtenidos
corporal
del colesterol como
HDLvariable deenmmol/l
los 10 primeros
explicativa
a mg/dl se ysujetos
el del
automáticamente).
colesterol
multiplica por HDL Asumiendo
como
el factor estudio devariable
conversiónque
“European se
respuesta. cumplen
Study
38,8. El
Así, on las
objetivo hipótesis
Antioxidants,
utilizando es, por de linealidad
Myocardial
tanto,
la propiedad estimar y
delInfarction
los cambios andenCancer of
18
estudio “European
multiplica por el factor de conversión 38,8. Así, Study on Antioxidants, Myocardial
2 utilizando la propiedad del
Infarction and Cancer of
homogeneidad
cambio de escala, lathe de la varianza,
media Breast“ la varianza
(EURAMIC),
del colesterol residual
HDLun enestudios
mg/dl sees un estimador
multicéntrico insesgado del
calcularía de casos y controles realizado
the
cambio de escala, la Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado
2 media del colesterol HDL en mg/dl se calcularía
parámetro poblacional
directamente a partirentre σ
de su1991 . media y 1992 en mmol/l en ocho como países 1,223 Europeos
⋅38,8 = 47,45 e Israelmg/dl. para evaluar el efecto
Pastor-Barriuso R. 167de los

directamente entre
a partir1991de y 1992
su media en ocho en mmol/l países como Europeos 1,223 e ⋅Israel
38,8 =para 47,45 evaluar
mg/dl.el efecto de los
Ejemplo 10.7 En el estudio de la relación entre el índice de masa corporal y6el 5
central de la muestra sirven tanto para resumir los resultados observados como para
1 10 0,89 + 1,58 + ...A +partir
1,53 de estos datos, las estimaciones de la pendiente y
x = 
variables
realizar inferencias =de r =de-0,276.
x iacerca
10 yi =regresión
Correlación 1
los parámetros
lineal simple10
= 1,223 mmol/l.
poblacionales correspondientes. A

continuaciónlaseconstante
describen delos
la recta de regresión
principales por elde
estimadores método de mínimos
la tendencia cuadrados
central de una son
La media aritmética presenta las siguientes propiedades:
variable. el nivel medio del colesterol HDL s y conforme 0aumenta
,295 el índice de masa corporal utilizando
un modelo de regresiónblineal
1 = r simple.
= −0,276 = -0,023
En este caso, tanto la variable respuesta como la
sx
Cambio de origen (traslación). Si se suma una constante a cada3uno
,50 de los datos
variable explicativa son continuas.
1.2.1 MediaEjemplo 10.1 se obtuvo
aritmética un coeficiente de correlación de Pearson entre ambas
En
de una muestra, la ymedia n =de
Ejemplo 533lacontroles
10.1muestra
se obtuvo del un estudio
resultante esEURAMIC,
coeficiente igual de la media
a lacorrelación
media inicial y laPearson
de desviación
más la entretípica ambas del índice de
variables
masa
La media aritmética, de r =fueron
corporal
denotada -0,276.
por xA,=se partir
26,0
define de
y sestos
como = datos,
3,50la kg/m
suma lasde 2estimaciones de la pendiente y
, y
cada los correspondientes
uno de los valores del
x
si yi = xi de
constante utilizada;colesterol
variables cr, entonces
+HDL fueron
= -0,276. b0 =deAy y= xb1+xde
-1,09
partir s1,09
cy=. estos
Un y =cambio
0,295
datos,
+método
0,023 mmol/l.
de
las origen =Además,
que deenlaelpendiente
estimaciones
⋅26,0 1,69. Ejemplo y10.1 se
la constante
obtuvo
valores muestrales de la
un coeficiente
dividida porrecta regresión
de correlación
el número por
de observaciones de elPearson de mínimos
entre
realizadas. ambas cuadrados
Si variables
denotamos desonr = – 0,276. A
partir
se realiza con frecuencia de
es estos
la constante dedatos,
el centradola recta las
de de estimaciones
la variable,
regresiónque de consiste
por la
elpendiente
método ende y mínimos
la constante
restar a de la recta
cuadrados sonde regresión
La
por n el tamaño el métodoby0de
porconstante
muestral = mínimos
por 1,69
xi elmmol/l
valor es
cuadrados una
observado
sy estimación
son para el
0,295 del
sujeto valor esperado
i-ésimo, i = 1, de...,colesterol
n,
cada valor de la muestra su media. La media b1 de= runa variable= −0,276centrada=será, -0,023 por
s xy 3 ,50
0,295 igual a 0 kg/m2, extrapolación
HDL dada
la media vendría para porun sujeto con bun=índice r de
= −0,276masa corporal = − 0,023
1
tanto, igual a 0. sx 3,50
y carece de sentido biológico. La pendiente b1 = -0,023 estima que, por cada
que
y 1 n x + x + ... + x n
Cambio de escala (unidades).
y x =  x icada
Si se multiplica = 1 uno 2de los datos . de una
incremento de 1 kg/mbn20 ien =1 y
= el−índice
b1 x =de1,09 nmasa + 0,023
corporal, ⋅26,0el=nivel1,69.medio de colesterol
muestra por una constante, la media de la b0 muestray - b1resultante
=mmol/l x una = 1,09 +es0,023
igual⋅26,0 a la media
= 1,69.
La constante
HDL disminuye b0 =en1,69 0,023 mmol/l. es En estimación
general, la del valor
pendiente esperado
puede de colesterol
utilizarse para HDL
La mediapara
es la medida
La constante de
b =tendencia
1,69 mmol/lcentral es más
una utilizada
estimación
un sujeto con un índice de masa corporal igual a 0 kg/m , extrapolación que carece
0 y de
del más
valor fácil
esperado
2 de colesterol
inicial por la constante utilizada; si yi = cxi, entonces y = c x .
de sentido
La Corresponde
constante
calcular biológico.
el efectob0 =alasociado
1,69 Lammol/l
pendiente es una
a incrementos b1 =estimación
– 0,023
delos estima
cualquier del valorque,esperado
magnitudpor cada 2 de
c en incremento
variable de 1 kg/
la colesterol
interpretación.
HDL para un sujeto “centro
con un de gravedad”
índice de masa de datos
corporal
m en el índice de masa corporal, el nivel medio de colesterol HDL disminuye en 0,023
2 de
igual la amuestra.
0 kg/m Su
, extrapolación
Cambio simultáneommol/l.
de origen Enuny general,
escala. Silasependiente multiplicapuede cada uno de los datos
utilizarse de
para acalcular 2el efecto asociado a
HDL para
explicativa,
principal limitación es que sujeto
está con influenciada
muy un índice de masa
por los corporal
valores igual
extremos 0 kg/my, en , este
extrapolación
que carece de sentido biológico. La
incrementos de cualquier magnitud c en la variable explicativa, pendiente b 1 = -0,023 estima que, por cada
una muestra por una constante y al resultado se le suma otra constante, la media
queser carece de reflejo
sentidode biológico. La pendiente b = -0,023 estima que, por cada
caso, puede incremento
no un fiel de 1 ŷkg/m (xŷ +=2 c)la−el
en
1,69tendencia
ŷ-índice
(x) = bde
0,023x, 0central
b1 (x de
+masa + c)la1−distribución.
corporal, (b0 + el bnivel
1 x) = medio
cb1 . de colesterol
de la muestra resultante es igual a la media 2 inicial por la primera constante, más la
incremento
Así, de 1 kg/m en el índice de masa corporal, el nivel
c= medio de colesterol
HDLpor ejemplo, enincrementos de una desviación típica 3,50 kg/m enpara
el índice de
2
disminuye 0,023 mmol/l. ŷ En= 1,69 general, la pendiente
- 0,023x, puede utilizarse
2
que se muestra
EjemploAsí,
segunda constante;masa en1.4por
la En ejemplo,
Figura
si yi =corporaleste y10.7.
en incrementos
c1xi + c2,seentonces Esta
los recta
sucesivos
asocian ycon de
= cuna una
regresión
ejemplos desviación
disminución puede
sobre típica c
utilizarse
estimadores = 3,50
para kg/m
muestrales,
media en el colesterol HDL de cb1 = en el
se índice
1x + c2 .
HDL disminuye
3,50(– 0,023) = en 0,023
– 0,081 mmol/l.
mmol/l. Notar Enque, general,
como laconsecuencia
pendiente puede de lac utilizarse
hipótesis para
de linealidad,
calcular el efecto asociado a incrementos de cualquier magnitud en la variable
de
que
estimarutilizarán
o predecir masa
se
losel corporal
muestra
valor
valores en
esperado
del sela asocian
Figura
del
colesterol con
10.7.
colesterol
HDL una
Esta disminución
recta
HDL
obtenidos ende función
en
esta disminución se asume constante a lo largo de todo el rango observado del índice de losmedia
regresión10 del en el
puede
índice
primeros colesterol
utilizarse
de
sujetos HDL
para
del de
calcular el efecto asociado a incrementos de cualquier magnitud c en la variable
masa
Ejemplo 1.5 Para transformar corporal;
explicativa, esto es,del
los valores el colesterol
modelo deHDL regresión
de mmol/l lineal estima
a mg/dl seuna misma reducción de
estudiocb 1 = 3,50(-0,023) = -0,081 mmol/l. Notar que, como consecuencia de masa
laofhipótesis
2
masa corporal. estimar
Por
“European o predecir
ejemplo, para
Study el
onunvalor
índiceesperado
Antioxidants, de masa
0,081 mmol/l en el colesterol HDL entre 25 y 28,5 kg/m del índice del colesterol
corporal
Myocardial de HDL
25
Infarction 2en and
kg/m función
, el Cancerdel
de índice de
corporal que
explicativa,
multiplica por el factor
entrede conversión
28,5 y 32 kg/m ŷde(x38,8.
2
+. c) Así, utilizando
- ŷpara
(x) b0de + bla propiedad
+dec) del b1x) =⋅de cbtodo
modelotheestimade
masa
un
Breast“linealidad,
corporal.
nivel medio
(EURAMIC), esta
Por disminución
ejemplo,
colesterol
un estudio se=un
HDL asume
multicéntrico índice (x
ŷ1constante
de
(25) masa - (b
=casos
1,69 -+
acorporal
0lo largo
y0,023
controles 25 25. kg/m
=1realizado
2
el rango
, el
La recta de regresión estimada del colesterol HDL sobre el índice de masa corporal es
cambio de escala, la media del colesterol ŷ (x + HDL c) - ŷen (x)mg/dl= b0 +sebcalcularía
1(x + c) - (b0 + b1x) = cb1.
entre observado
modelo
1991 y 1992 del
estima en índice
un
ocho nivelde masa
medio
países corporal;
de
Europeos colesterol
e esto
Israel es,
HDL
para el modelo
de ŷ (25)
evaluar de=efecto
regresión
1,69 de-de0,023lineal
⋅25índice
=
1,11 mmol/l. Así,
Por supuesto,
por ejemplo, los valores
incrementos observados
deŷ una = 1,69 del colesterol
desviación
− 0,023x, HDL
típica =el3,50
c difieren kg/m 2 los
en el
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl. 2
Así,
estima
que por
se unaejemplo,
misma
muestra en incrementos
reducción dede una
0,081 desviación
mmol/l típica
enregresión
el c =puede
colesterol 3,50 kg/m
HDL en25
entre el yíndice
1,11
los valores medios
de masammol/l.
predichos Por
corporal selala
por Figura
supuesto,
recta los
asocian 10.7.
de Esta
valores
conregresión.
una recta
La de
observados
disminución varianzadel
media colesterol
residual utilizarse
delHDL
en el colesterol HDL para
difieren
5
estimar o
de
de
que se muestra en la Figura 10.7. Esta recta
predecir el2 valor esperado del colesterol HDL en función del índice de regresión puede utilizarse para
de masa corporal. Por
2
de
28,5masa
ejemplo,kg/m
los1respecto
valores corporal
del
para un
medios se
índice asocian
índice de masa
de con
masa una
corporal disminución
corporal que deentre
25 media
28,5
kg/m 2 y 32
, elen el
kg/m
modelocolesterol
6 . estima HDL
undel de medio
nivel
colesterol HDL cb a la recta
= 3,50(-0,023) =predichos
de regresión
-0,081 por laesrecta
mmol/l. Notardeque, regresión. La varianza residual
como consecuencia de la hipótesis
estimar o predecir
de colesterol HDLeldevalor ŷ(25)esperado
= 1,69 –del colesterol
0,023⋅25 HDLmmol/l.
= 1,11 en función
Por del índice los
supuesto, de valores
cb
La =
recta3,50(-0,023)
observados de regresión
del533 = -0,081
estimada
colesterol aHDLmmol/l.
del Notar
colesterol
difieren de que,
HDLcomo sobre
los valores consecuencia
es a lo medios el índice dede la
masa hipótesis
colesterol
de 1
linealidad, HDL estarespecto
disminución la rectase de regresión
asume constante largo depredichos
todo el rango por la recta de
SSE
masa 1
corporal. Por ejemplo, para un índice 42,63
de masa corporal de 25 kg/m 2
, el
s2 regresión. = La varianza { y i − (residual
1,69 − 0,del 023colesterol
x i )} = HDL=respecto 0,080. a la recta de regresión es
es531 
2
=
de 531
linealidad,
corporal esta disminución se asume constante
531 a lo largo de todo el rango
observado del índicei =1
SSE de medio 1masa533 corporal; esto es, el modelo de regresión lineal
42,63
modelo estima 2ŷ (25) - 0,023⋅25 =
s2 = un nivel =  {dey i colesterol
− (1,69 − 0HDL ,023xdei )} =
= 1,69
= 0,080.
observado del índice 531 de masa
531 i =1 corporal; esto es, el modelo de regresión
531 HDL entre lineal
estimaque
Notar, por último, unadebido
misma a reducción
la hipótesisdede0,081 mmol/l en de
homogeneidad el colesterol
la varianza, la 25 y 20
1,11 mmol/l. Por supuesto, los valores observados del colesterol HDL difieren de
Notar,
estima poruna2último,
misma que debido de
reducción a la0,081
hipótesis
mmol/l de homogeneidad
en el colesteroldeHDL la2 varianza,
entre 25lay desviación
28,5
Notar, kg/m
por del
último,índiceque de masa
debido acorporal
la hipótesisque entre
de 28,5
homogeneidad y 32 kg/m .
típica
desviación típica residualdel
residual delcolesterol
colesterolHDL HDLss== 0,080 ==0,283 mmol/lseseasumevarianza,
0,283mmol/l de la constantelaalrededor
los valores2 medios predichos por la recta de regresión. La varianza 2 residual del
de
28,5cualquier
kg/m del punto
índice de de
la recta
masade regresión.
corporal que entre 28,5 y 32 kg/m .
La recta de típica
regresión estimada del colesterol HDL= sobre
0,080el=índice0,283de masa se
asume constantedesviación
alrededor
colesterol HDL
residual
derespecto
cualquiera la del
puntocolesterol
rectadedelaregresión
HDL
recta desregresión.
es
mmol/l
La recta de regresión estimada del colesterol HDL sobre el índice de masa
corporal es
asume constante alrededor de cualquier punto de la recta de regresión.
corporal ess2 = SSE = 1 42,63
168 Pastor-Barriuso R. 533

[Figura 531 
10.7 aproximadamente
531 i =1
{ y i − (1,69 − 0,023x i )}2 =
aquí] 531
= 0,080.
20
Regresión lineal simple

2,25

Colesterol HDL (mmol/l) 2

1,5

0,5

0,25

20 24 28 32 36
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en
Indice de masa corporal (kg/m²)

hombres adultos. Los


Figura
sentidovalores
10.7  obtenidos
deRecta facilitafueron
de regresión
queantioxidantes
no del el0,89,
ninguna 1,58,
encolesterol
riesgo de 0,79,
HDL sobre1,29,
desarrollar
información sobre la1,42,
el índice de 0,84,corporal
masa
unidoneidad
primer infarto en el grupo
agudo
del modelo control10.7del
de miocardio
Figura
lineal en
estudio EURAMIC.
1,06, 0,87, 1,96 para
y 1,53 mmol/l.
describir laLa media
hombres de losLos
adultos.
relación niveles
subyacente dellas
valores
entre colesterol
obtenidos HDL en0,89, 1,58,
fueron
variables explicativa 0,79, 1,29, 1,42, 0,84,
y respuesta.
sentido
10.3.2  de que nodel
Contraste facilita
modeloninguna información sobre la idoneidad del modelo lineal
estos 10 participantes es 1,06,del
La realización 0,87, 1,96 de
contrasteyderegresión
1,53 mmol/l.
regresión
lineal
seLa
simple
media
basa en eldeanálisis
los niveles
de ladel colesterol
varianza de laHDL en
En para
general, el contraste
describir de regresión
la relación subyacente lineal permite
entre evaluar explicativa
las variables si el modeloyen su conjunto explica
respuesta.
unavariable
parte
1 estos
respuesta.
10significativa 10
Unadeparticipantes
vez
la estimada
variabilidad
0,89 + 1,58 + ... + 1,53 es la recta
de la de regresión,
variable respuesta.la desviación
En el de cada
caso valor de la
particular
x =
regresión  x
lineal
La realización
10
i = simple, dellacontraste
hipótesisdenula
10
= 1,223 mmol/l.
del contraste
regresión se basaesensimplemente
el análisis deque la pendiente
la varianza de laβ1 de la
recta de iregresión
observado =1
yi respecto a la media
subyacente es 0,muestral
1ya 10que en y puede
tal caso separarse
la variable
0,89 + 1,58 + ... + 1,53 en dos componentes:
respuesta no se el
relacionará
linealmente con la única
variable respuesta. Unavariable x =
vez estimada  lai recta
explicativa x = y, ende consecuencia,
regresión, la desviación
10 i =1de la variable respuesta. 10
= 1,223
el modelode mmol/l.
lineal
cadano aportará
valor
explicación
a media aritméticaerror alguna
o desviación
presenta sobre la
del valor
las siguientes variabilidad
observado yi respecto a su valor estimado por la recta deque este
propiedades: Es importante resaltar
contraste
observado de regresión
yi respectoasume linealidad
a la media muestral y, por tanto, separarse
y puede no debe interpretarse
en dos componentes: como uneltest de
bondad del
regresión ajuste,
ŷLa en
bSi0 +
i =media
el sentido
sebsuma
1xi, y una
de que
la distancia no facilita ninguna información sobre
datos ŷ i y la media la idoneidad del
Cambio de origen (traslación). aritmética presentaentre
constante dicho
a cada
las unovalor
siguientes estimado
depropiedades:
los
modelo
errorlineal para describir
o desviación del valor la relación
observado subyacente
yi respecto entre
a sulas valorvariables
estimadoexplicativa
por la recta y respuesta.
de
Lamedia
de una muestra,muestral
la realización
y•; la
de deles,contraste
muestra
esto
Cambio de regresión
deresultante
origen es igual se
(traslación). a labasase en
Simediasumael análisis
inicialuna más de
la la varianza
constante a cada uno de la
devariable
los datos
regresión
respuesta. Unaŷ i vez
= b0estimada
+ b1xi, y la distancia entre dicholavalor
recta de regresión, estimado
desviación de ŷcada
i y la media
valor observado yi
respecto
constante utilizada; si yai la
= xmedia c, una
i +de muestral
entonces
muestra, =la xmedia
y puede c. Un
+separarsede la en dos
cambio
muestra de componentes:
origen quees igual
resultante el errora la omedia
desviación
inicialdel
más la
valor observado y respecto a su yi - y estimado
valor = ŷ i - y por + yi la
- ŷrecta
i. de regresión ŷ = b + b x , y la
muestral y ; esto i es, i 0 1 i
se realiza condistancia
frecuencia entre
es eldicho valorde
constante
centrado estimado
utilizada; siŷi yyi la
la variable, xmedia
=que i+ c, entonces
consistemuestral
en restar ax es,
y ; =esto + c. Un cambio de origen que
Elevando al cuadrado estas desviaciones y sumando sobre todas las observaciones, se
cada valor de la muestra su media. La media yi − variable
de una y = ŷ i −centrada
y + y −será, ŷ i . por
se realiza con frecuencia es el centradoi de la variable, que consiste en restar a
tiene que
Elevando al la suma deestas
cuadrado cuadrados
desviaciones total yessumando sobre todas las observaciones, se tiene que
tanto, igual a la
0. suma
Elevandode cuadrados cada valor
al cuadrado total deesladesviaciones
estas muestra su media. y sumando La media
sobrede unalas
todas variable centrada será,
observaciones, se por
n n n n
Cambio de escalatiene
(unidades). se( yde
Si
tanto,
SSTla=suma
que multiplica
igual
y )a2 0.
i −cuadrados  (total
= cadayˆuno
i − y
de
es +
) 2 los
i =1
datos
i =1
i ) + 2 ( y i − y )( y i − y i )
( y i −deyˆuna2
ˆ
i =1
ˆ
i =1
muestra por una constante,•la Cambio
media dedelaescala
muestra resultanteSiesnseigual
n(unidades). a la media
multiplica cadan uno de los datos de una
n
SST =  ( y i − y ) = i 
2 =  n
( ˆ
y − y ) 2
2 
+
( y i − y ) +i 

n
( y − yˆ i ) 2 2 = SSR + SSE,
( y i − yˆ i ) + 2 ( yˆ i − y )( y i − yˆ i )
i

i =1si yi =
inicial por la constante utilizada; cxiuna
, entonces y =lac media
x . i =1 de la muestrai =resultante
=1 =1
muestra por constante,
i =1 1 es igual a la media
Pastor-Barriuso R. 169
Cambio simultáneo de origen inicial porSilaseconstante
y escala. multiplica
n utilizada;
cada unosi yi =los
n de cxdatos de y = c x .
i, entonces
ya que ambas componentes están = incorrelacionadas
( yˆ i − y ) 2 +  ( y i − yˆ i ) 2 = SSR + SSE,
i =1 i =1
una muestra por una constante y al resultado
• Cambio se le de
simultáneo suma otrayconstante,
origen escala. Si la
semedia
multiplica cada uno de los datos de
n n
=  ( yˆ i − y ) 2 +  ( y i − yˆ i ) 2 = SSR + SSE,
i =1 i =1
Correlación y regresión lineal simple

ya que ambas
es en el riesgo de desarrollar componentes
un primer infarto están
agudoincorrelacionadas
antioxidantesde miocardio 1.2 en
en el riesgo MEDIDAS DE TENDENCIA
de desarrollar un primer infarto CENTRAL
agudo de miocardio e
ya que ambas componentes están incorrelacionadas
ultos. Los valores obtenidos fueron n 0,89, 1,58, hombres
0,79, 1,29,adultos.
n 1,42, Los0,84,
Las valores
medidas n obtenidos fueron
de tendencian 0,89, 1,58,
central 0,79,acerca
informan 1,29, 1,42, 0,84
de cuál es
 ( ˆ
y i − y )( y i − ˆ
y i ) = b 1 ( x i − x ) e i = b 1 i i x e − b1  i
x e = 0
1,96 y 1,53 mmol/l. La media de i =1 los niveles del 1,06,colesterol
0,87,i =1,96
1 HDL y 1,53
en una
de mmol/l.
i =1 La mediai =de
determinada
1 los niveles del colesterol HDL en
variable o, dicho de forma equivalente, e
según las ecuaciones de regresión derivadas del método de mínimos cuadrados. Así, la suma
rticipantes es de cuadrados total SST sededescompone
según las ecuaciones estos 10derivadas
regresión participantes
en dos términos
del es independientes:
método
alrededor de qué
de mínimos sesuma
la
valor cuadrados.
agrupande Así,
cuadrados
la observados. Las
los datos
de la regresión SSR, que representa la variabilidad de la variable respuesta explicada por la
1 10 única 0,89variable
suma +de
1,58 +independiente
cuadrados
... + 1,53 total SST delsemodelo
descomponede regresión,
en dos
1central
10 y 0la,89
términos
de suma1,58de cuadrados
+independientes:
muestra sirven
+ ... delresumir
suma
,53 lapara
+ 1tanto error los resultados
x =  x iSSE,= que corresponde a la=variabilidad 1,223 mmol/l. residual de lavariable
x = x i = respuesta que queda=sin 1,223 mmol/l.
explicar.
10 i =1 10 10 i =1 10
Conviene recordar
de cuadrados de que la recta SSR,
la regresión de regresión
que representa estimada
realizar por el procedimiento
la inferencias
variabilidad acerca de los de
de la variable mínimospoblacionales c
parámetros
cuadrados minimiza la suma de cuadrados del error, maximizando entonces la capacidad
predictiva o explicada
explicativa pordel modelo de regresión. La Figurase
continuación 10.8 ilustra
describen gráficamente
los y la esta
principales estimadores de la t
mética presenta lasrespuesta
siguientes propiedades: la única
La mediavariable
aritmética independiente
presenta lasdel modelo
siguientes de regresión,
propiedades:
descomposición.
variable.a la variabilidad
origen (traslación).suma sede cuadrados
LaSidescomposición
suma una constante della
de error
• variabilidad
Cambio
a cada SSE, deque
uno de corresponde
de la
origenlosvariable
datos respuesta
(traslación). Si se suele residual
suma representarse
una de la
constante mediante
a cada uno de los datos
la denominada tabla del análisis de la varianza (Tabla 10.2). En primer lugar, esta tabla
stra, la media de lavariable
presenta lasrespuesta
muestra sumas deque
resultante es queda
deasin
cuadrados
igual una explicar.
junto
la media susConviene
con inicial
muestra, 1.2.1 recordar
Media
lacorrespondientes
media
más la de que la
aritmética
grados
la muestra recta de es
regresión
de libertad.
resultante La suma
igual de
a la media inicial más
cuadrados de la regresión contiene únicamente 1 grado de libertad ya que, una vez conocida la
tilizada; si yi = media muestral y , =losx valores
xi + c, entonces + c. Un estimados
cambio utilizada;
constante depor
origen ymedia
la recta
sique
La i=dexiregresión
+aritmética,ŷi =
c, entonces y += bx1(xpor
denotada +i c–. Un
x ), quedan
cambio
se definede
22 origen
como que
la sum
completamente determinados por su pendiente; mientras que, como se vio en el apartado
on frecuencia esanterior, la suma
el centrado de la de cuadrados
variable, que del error
se realiza
consiste entiene
con nvalores
a– 2 grados
frecuencia
restar de libertad.
esmuestrales
el centrado de la A
dividida continuación,
por el número
variable, los
de observaciones
que consiste en restar a
términos de la varianza se obtienen de dividir las sumas de cuadrados por sus grados de libertad.
de la muestra suFinalmente, la razón
media. La media de de
unavarianzas
cada se
variable define
centrada
valor como
de la
será, el cociente
por
muestra n su
el tamaño
media.entre lamedia
varianza
muestral
La ydeporexplicada
unaxivariable
el valor por la
observado
centrada parapor
será, el s
regresión y la varianza residual, que constituye el estadístico del contraste de regresión.
a 0. tanto, igual a 0. la media vendría dada por

escala (unidades). Si se multiplica cada uno


• de
Cambio
los datos
de escala
de una(unidades). Si se multiplica cada uno
1 nde los xdatos
+ x 2de+una
... + x n
x =  xi = 1 .
r una constante, la media de la muestra resultante
muestra
es igual
por una
a laconstante,
media n n
la media de la muestra resultante es igual a la media
i =1

(xi, yi)
a constante utilizada; si yi = cxi, entonces y inicial
= c x . por la constanteLa
utilizada; yi medida
media essi la = cxi, entonces y = ccentral
de tendencia x. más utilizada

multáneo de origen y escala. Si se multiplica


• cada
Cambio
unosimultáneo interpretación.
de los datosdedeorigen ei = yi − yˆ i
Corresponde al “centro de gravedad” de los d
( x , yˆ )y escala. Si se multiplica cada uno de los datos de
i i
yi − y
a por una constante y al resultado se le suma una
otra( xmuestra
constante,
, y) principal
porlauna
media limitación
constante es queseestá
y al resultado
yˆ − y
muy otra
le suma influenciada porlalos
constante, val
media
y i

ra resultante es igual a la media inicial por lade


primera
la muestra
constante, caso,
resultante
más es puede
la igualno sermedia
a la un fiel reflejo
inicial pordelalaprimera
tendencia central de
constante, másla

nstante; si yi = c1xi + c2, entonces y = c1 x +segunda


c2 . constante; si yi = c1xi + c2, entonces y = c1 x + c2.
Recta de regresión estimada: Ejemplo 1.4 En este y en los sucesivos ejemplos sobre
yˆ = b0 + b1 x = y + b1 ( x − x )

5 Para transformar los valores del colesterol HDL


Ejemplo utilizarán
1.5 Paraa transformar
de mmol/l mg/dl se los valores
los valores del colesterol
del colesterol HDLHDL obtenidos
de mmol/l en
a mg/dl

por el factor de conversión 38,8. Así, utilizando


multiplica
la propiedad factor deestudio
por eldel “European
conversión Study
38,8. Así, on Antioxidants,
utilizando Myocardial
la propiedad del

escala, la media del colesterol HDL en mg/dlcambio


se calcularía thedel
de escala, la media Breast“ (EURAMIC),
colesterol un estudio
HDL en mg/dl multicéntrico de c
se calcularía
x
partir de suentre
⋅38,8 = 47,45amg/dl.
te a partir de su media en mmol/l como 1,223directamente 1991
media en ymmol/l
1992 en ocho1,223
como países Europeos
⋅Figura
38,8 = 47,45emg/dl.
10.8 Israel par
Figura 10.8  Descomposición de la variabilidad de la variable respuesta en la parte explicada y no explica-
da por la regresión.
6
170 Pastor-Barriuso R.
libertad ya que, una vez conocida la media muestral y , los valores estimados por la
Regresión lineal simple
recta de regresión ŷ i = y + b1(xi - x ) quedan completamente determinados por su

pendiente; mientras
Tabla que,
10.2 Tabla
Tabla 10.2 Tabla como se viodel
genérica
genérica
enanálisis
del análisis
el apartado anterior,
de laen
de la varianza varianza laensuma de cuadrados del
regresión
regresión lineal simple.* lineal
varianzasimple.*
var(b1). Así, bajo la hipótesis nula H0: β1 = 0, el cociente SSR/σ 2 es el
error tiene n - 2 grados de libertad.
Suma de A continuación, Gradoslos
de términos de la varianza
Razón dese
Suma de
cuadrados Grados de
libertad Varianza Razón de
varianzas
cuadrado de una distribución normal estandarizada,
cuadrados libertadque corresponde por definición a
varianzas
obtienen de dividir las sumas nde cuadrados por sus gradosVarianza
de libertad. Finalmente, la
SSR
una distribución SSR = con
Regresión chi-cuadrado ( yˆ i −1ygrado
) 1 2
de libertad. F = con
SSRparte, basta
Por otra 2 que se
razón de varianzas se define como
i =1
el cociente entre la varianza explicada porsla
cumplan las asunciones subyacentes
n n
al modelo lineal para que la varianza residual s2
SSE
regresión y la varianza
Error  ei = que
SSE =residual,
2
( y i constituye
i =1
− yˆ i ) 2
el
n −estadístico
i =1
2 s =del contraste de regresión.
2
n−2
sea un estimador insesgado de σ 2 y el cociente
n
Total  ( y i −10.2
SST =[Tabla
i =1
y) 2 aproximadamenten −1 aquí]
2
varianza var(b1). Así, bajo la hipótesis (n − H
nula 2) s: β = 0, el cociente SSR/σ 2 es el
2 0 1
* Coeficiente de determinación R = SSR/SST.
*  Coeficiente de determinación R = SSR/SST. 2
σ 2
Para realizar el contraste de regresión, es preciso conocer la distribución de la razón
cuadrado de una distribución normal estandarizada, que corresponde por definición a
de
siga
Paravarianzas
una
realizar bajo
distribuciónla hipótesis
el contraste de nula
chi-cuadrado H 0: βn1es
con
regresión, -=20. Por unde
grados
preciso lado, selatiene
libertad.
conocer que
Combinando
distribución ambos
de la razón de
una distribución chi-cuadrado con 1 grado de libertad. Por otra parte, basta con que se
varianzas bajo la hipótesis nula H0: β1 = 0. Por un lado, se tiene que
resultados,
varianza sebtiene quen bajolalahipótesis
hipótesis n HH
nula : β1 =0,0ella
0: 0β1 =
razón entre las
σ 2varianzas
cumplan var( 1). Así,1 bajo bal12nula b12cociente 2 SSR/ es el s2
SSR
las asunciones subyacentes modelo lineal 2 para n − 1la
(que ) s varianzab12 residual
2  2 
= ( ˆ
y i − y ) 2
= ( x i − x ) = x
= ,
explicada σ 2
y residual σ i =1 σ i =1 σ 2
var( b )
cuadrado de
sea un estimadoruna distribución
insesgado denormal σ 2 y elestandarizada,
cociente que corresponde por definición a 1

donde var(b1) = σ 2/{(n – 1)s2x} es la varianza de la pendiente estimada. Como se comprobará en


una distribución
donde var(b
el siguiente apartado, chi-cuadrado
2
1) = σ /{(n si se- cumplen con
1) s x2 }SSR
eslas1 grado
la SSR /de
varianza
asunciones σ 2libertad.
de la Por
dependiente 2 otra parte, basta con que se
la χregresión estimada. Como se
lineal simple, la pendiente
estimada b1 seguirá una distribución F = = ( n − 2 ) s~2 1

cumplan las asunciones subyacentess 2 normalal


2
/ σcon
smodelo 2 media /(βn1 −que
χ n2− 2para y2varianza
) la varianza var(b1). Así, 2bajo la
residual s normal
22 lineal
hipótesis nula en
comprobará H0:elβsiguiente
1 = 0, el apartado,
cociente siSSR/σ σ
se cumplen es ellas cuadrado
asunciones de de unaladistribución
regresión lineal
estandarizada, que corresponde por 2definición a una distribución chi-cuadrado con 1 grado de
seadistribuye
se unPor
estimador
otracomo insesgado
elestimada
cociente σ dos
de de yseelchi-cuadrado
cociente las asunciones independientes divididas
libertad.
simple,
siga una parte,
ladistribución
pendiente basta con
chi-cuadrado bque concumplan
1 seguirá nuna - 2 distribución
grados de libertad. normal con mediaalβpor
subyacentes
Combinando y sus lineal
modelo
1ambos
para que la varianza residual s sea un estimador insesgado de σ y el cociente
2 2

respectivos grados de libertad, que es una distribución F de Fisher con 1 grado de 23


resultados, se tiene que bajo la hipótesis(nnula − 2)Hs 02: β1 = 0 la razón entre las varianzas
2
libertad en el numerador y n - 2 grados de libertadσ en el denominador. El valor P del
explicada y residual
siga una distribución chi-cuadrado con n – 2 grados de libertad. Combinando ambos resultados,
se tiene que distribución
contraste
siga una bajo la hipótesis
de regresión de lanula H0: βcon
hipótesis
chi-cuadrado = n0 -laH
1 nula 2razón
: β1 =entre
0grados las varianzas
0defrente explicada
a la Combinando
libertad. hipótesis y residual
alternativa
ambos
SSR SSR / σ 2 χ 12
: βtiene
H1se F = = ~
bilateral
resultados, 1 ≠ 0 se
quecalcula
bajo laentonces scomo
hipótesis
s2 2nula2 la
/ σ H0probabilidad
: βχ1 2= 0/(la 2a) la entre
n −razón derecha
las del estadístico
varianzas
n−2

se distribuye
F como el cociente
bajo la distribución
explicada y residual F1,n-2.de dos chi-cuadrado independientes divididas por sus respectivos
grados de libertad,
se distribuye comoqueelescociente
una distribución F de Fisher con
de dos chi-cuadrado 1 grado de libertad
independientes enpor
divididas el numerador
sus
y n – 2La
grados de libertad en el denominador. El valor
tabla del análisis de la varianza suele ir 2acompañada P del contraste de regresión
del coeficiente de de la hipótesis
H0: β1 = 0 grados SSR SSR / σ χ 2
nularespectivos frente adelalibertad,
hipótesis
F = que alternativa
es
= una ~ 2 H1F:1βde
bilateral
distribución 1 ≠Fisher
0 se calcula entonces
con 1 grado de como la
probabilidad a la derecha
2 del estadístico
s 2
determinación R , que se define como la proporción Fs bajo
2
/ σ la
2
χ
distribución /( n − F2) .
n − 2de la variabilidad
1,n–2 de la variable
libertad en el numerador y n - 2 grados de libertad en el denominador. El valor P del
La tabla del análisis de la varianza suele ir acompañada del coeficiente de determinación R2,
querespuesta
se defineque
sedistribuye
comose explica
como la el por el modelo
proporción
cociente de dos de regresión,
la variabilidad
chi-cuadrado de la variable respuesta que por
se explica por
contraste de regresión de la hipótesis nula H0: β1 = 0independientes divididas
frente a la hipótesis sus
alternativa
el modelo de regresión,
respectivos grados de libertad,n que es una 2 distribución
n
F de Fisher con 1 grado de
bilateral H1: β1 ≠ 0 se calcula entonces
( yˆ i − y )como b12laprobabilidad
( x i − x ) 2 a la derecha
2
del estadístico
2 SSR i =1 i =1 2 sx 2
R =
libertad en el numerador y =n -n2 grados de =libertad n
= b1 2 = rEl. valor P del
en el denominador.
F bajo la distribuciónSST F1,n-2. sy
 ( yi − y) 2
 ( yi − y) 2

contraste de regresión de la hipótesis


i =1
nula H0:i =β1 1 = 0 frente a la hipótesis alternativa
La tabla del análisis de la varianza suele ir acompañada del coeficiente de
bilateral H1: β1 ≠ 02 se calcula entonces como la probabilidad a la derecha del estadístico
Pastor-Barriuso R. 171
determinación R , que se define como la proporción de la variabilidad de la variable 24
F bajo la distribución
respuesta F1,n-2
que se explica por. el modelo de regresión,
el cuadrado del coeficiente
observados de correlación
del colesterol HDL respecto r de aPearson
la media entre las variables
muestral explicativa
y = 1,09 mmol/l esy
lineal del10colesterol HDL sobre el índice de masa corporal en 533 controles del
Ejemplo 1 10.8 La0,Tabla 89 + 1,10.3
58 + ... + 1,53 el análisis de la varianza de la regresión
presenta
respuesta.
Correlación
estudio

x y=regresión xlineal
10 EURAMIC.
i = simple
La suma
533
10 de cuadrados
= 1,223 mmol/l.
de)las desviaciones de los valores
sobre= elíndice
2
i =1
lineal del colesterol HDL SST ( y i − de
1,09
masa=corporal
46,15, en 533 controles del
i =1
Ejemplo
observados 10.8 delLacolesterol
Tabla 10.3 HDL presenta
respecto el análisis
a la media de la varianzay de
muestral la regresión
= 1,09 mmol/l es
En el estudio
casopresenta
La media aritmética deEURAMIC.
la regresión lineal
La
las siguientes suma simple,
de cuadrados
propiedades: el coeficiente de determinación
de las desviaciones de los R 2
coincide con el
valores
que del
cuadrado sedel
lineal descompone
colesteroldeen
coeficiente la suma
sobre de
correlación
HDL cuadrados
elríndice
de Pearson
de masadeentre
lascorporal
desviaciones
en 533del
las variables colesterol
explicativa
controles y respuesta.
del
533
observados
• Cambio de origen del colesterol
(traslación). Si se suma HDL una=respecto
( y i −a1,09
constante la media
a cada
) 2 =unomuestral y = 1,09 mmol/l es
de los datos
HDL
estudio respecto
EjemploEURAMIC. a la
10.8  La Tabla recta
SST
de
10.3de
La suma

regresión
presenta ŷ
cuadrados
i =1 el = 1,69
i análisis -
de las de
46,15,
0,023 x
la varianza
desviaciones
i delos
de la regresión
valores lineal del
de una muestra,colesterol
la mediaHDL de lasobre
muestrael índice de533
resultante masa corporal
es igual a la en 533 inicial
media controles
másdel laestudio EURAMIC.
La suma de del
observados
que se
cuadrados
descompone
colesterol
en
deSST
la
las
HDL
suma 
533desviaciones
respecto
=de lademedia
( y i −a1,09
cuadrados )los
de
2 valores
las
muestral
= 46,15,
desviaciones
y = 1,09del
observados colesterol
mmol/l
del colesterol
es HDL
respecto
constante utilizada; si yai la
= xmedia
i + c , SSE =  { y i − (1,69 − 0,023x i )} = 42,63
muestral
entonces y =
= 1,09
i =x
1 + mmol/l
c . Un es
cambio de2
origen que
i =1
HDL respecto a la recta de regresión 533
ŷ = 1,692 - 0,023xi
se realiza con que se descompone en la suma decuadrados
frecuencia es el centrado de
SST la=variable,
( y i i−que
1,09consiste
) las
de en restar a del colesterol
= 46,15,
desviaciones
y la suma de cuadrados de las distancias entre los valores estimados por la recta
i =1

cada valor de que


la muestra
HDL su media.
serespecto La de
a la recta
descompone en media
la 533 de una variable centrada será, por
regresión
suma ŷ i = 1,69 -de0,023
de cuadrados las xdesviaciones del colesterol HDL
de
que regresión
se y la
descompone
SSE
media
en la
= 
suma
respecto a la recta de regresión
{ y i − (1,69
muestral de cuadrados
− 0,023x i )}2 =i 42,63
i =1 ŷi = 1,69 – 0,023xi
de las desviaciones del colesterol
tanto, igual a 0.
533
HDL respecto a la recta de 533{ y − (1,ŷ
regresión i = 1,69 - x0,023 x=i 42,63
• y la suma
Cambio de escala (unidades). Si seSSE
de cuadrados de 
= las
SSR = i
multiplicadistancias
cada
i 69
uno −de
0,los
023
entre los )}22 de
ivalores
datos
=1 (1,69 − 0,023 x i − 1,09)
estimados por la recta
= una
3,53.
i =1
muestra por unaydelaconstante,
suma deylacuadrados
regresión lamedia de533
mediademuestral
la las distancias
muestra resultanteentre los2 valores
es igual estimados por la recta de
a la media
regresión SSE
y la suma ydelacuadrados =
media muestral 
de las { y − (1
distancias
i , 69 − 0 , 023 x )} = 42,63
entre los ivalores estimados por la recta
Así, la proporción de la variabilidad
i =1 del colesterol HDL que se explica
inicial por la constante utilizada; si yi = cx533 i, entonces y = c x .
de regresión y la media muestral
SSR =de (1,69corporal 09) 2 por
x i − 1,dada
− 0,023viene = 3,53.
únicamente
y la suma con el índice
de cuadrados masa el coeficiente de
• Cambio simultáneo de origen y escala.deSilasi =1 distancias entre los valores estimados por la recta
se multiplica cada uno de los datos de
Así, la proporción de la variabilidad
determinación
533
del colesterol HDL 2 que se explica únicamente con el
una muestra porde regresión
una
índice y la
constante
Así, la de
media
y al
masa corporal
proporción SSR
resultado
viene 
muestral
=
de la variabilidad
i =1
(1
se, 69
le
dada por − 0
suma , 023 x
otra −
delelcolesterol 1, 09) de=que
constante,
coeficiente
i HDL 3,53.
la media
determinación
se explica
2
de la muestra únicamente
resultante escon igual el aíndice
la media
de533 Rinicial
masa = 3,53/46,15
por la primera
corporal viene= 0,076, constante,
dada más la
2 por el coeficiente de
Así, coincide
que la proporción
parte significativa con elde
SSR
decuadrado=  (
la variabilidad
la variabilidad
i =1
1 , 69 − 0 , 023 x
del colesterol
del coeficiente
total del
i − 1 , 09 ) = 3,53.
HDL que se
de correlación
colesterol
explica
HDL,muestral
se realizaentre
el el índice de
segunda constante; si y
determinación
que coincide = c x
con +elc , entonces
cuadrado dely = c x
coeficiente + c
masa corporal y el colesterol HDL r = (– 0,276) = 0,076. Para determinar
i 1 i 2 1 2 2 .de correlación
2 muestral entre el si esta
únicamente
variabilidad con el
explicada índice porde masa
el índicecorporal
de viene
masa dada
corporal por
es el coeficiente
una parte de
contraste
Así, la de regresión
proporción de devariabilidad
la la hipótesisdel nula H0: 2β1 =HDL
colesterol 0 mediante
2 se la
que razón entre las de la
explica
significativa
índice de masa corporal
variabilidad total del colesterol y el colesterol
R HDL,
2 HDL
se realiza
= 3,53/46,15 r = (-0,276) = 0,076.
el contraste de regresión
= 0,076, Para de la hipótesis
determinación
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se
nula H0: βexplicada
varianzas 1 = 0 mediante SSR = la razón entre las 2 varianzas explicada SSR = 3,53 y residual
sviene
únicamente
determinar con
si esta de3,53
el variabilidad
índice masa y corporal
residual
explicada por
= 42,63/531
dada de
el índice
=el0,080,
pormasa coeficiente
corporal es deuna
s = 42,63/531 = 0,080,
2
multiplica porque coincide
el factor con el cuadrado
de conversión 38,8.Rdel 2 coeficiente
Así, utilizando de
= 3,53/46,15 la correlacióndel
propiedad
= 0,076, muestral entre el
determinación F = 3,53/0,080 = 43,93. 25
2 2
índice
cambio de escala, la de
media masa delcorporal
colesterol y elHDLcolesterol
en mg/dl HDL sercalcularía
= (-0,276) = 0,076. Para
Bajo la hipótesis
que coincide con nula, este estadístico
el cuadrado del sigue una distribución F de Fisher con 1 grado de
2 coeficiente de correlación muestral entre el
Bajo la hipótesis R =grados
nula, estey estadístico 3,53/46,15
sigue = 0,076,
una distribución F de Fisherluego
con 1
directamente alibertad
determinar
partir deensusi elmedia
numerador
esta variabilidad
en mmol/l 531 explicada
como 1,223 de ⋅libertad
por38,8el2 índice en de
= 47,45 elmg/dl.
masa corporal es una el valor P
denominador,
bilateral
índice dedel masa corporalesyP(F
contraste 1,531 ≥ 43,93)
el colesterol HDL< r0,001. 2
En conclusión,
= (-0,276) las diferencias en el
= 0,076. Para
grado
índice
que de libertad
de masa
coincide en
concorporal el numerador
el cuadrado explican y 531 grados de
el 7,6% dedelacorrelación
del coeficiente libertad
variabilidad en el denominador,
del colesterol
muestral entre el HDL25 en la
población
determinarde si referencia
esta variabilidad del estudio EURAMIC
explicada (R2 = 0,076,
por el índice de masa 6 es una
P <corporal
0,001).
luego el valor P bilateral del contraste
índice de masa corporal y el colesterol HDL r1,531 es P ( F 2 ≥
= (-0,276) = 0,076. En
43,93) 2 < 0,001. Paraconclusión,
25
Tabladeterminar
10.3 
las Tabla
diferencias si estadel
en el análisis
índice de
variabilidad demasa la varianza
corporal
explicada porde la regresión
explican
el índice el masalineal
de7,6% de del es
colesterol
la variabilidad
corporal una HDL
sobre el índice de masa corporal en el grupo control del estudio EURAMIC.*
del colesterol HDLSuma en ladepoblación de referencia
Grados de del estudio EURAMIC (RRazón 2
= 25de
cuadrados libertad Varianza varianzas
0,076, P < 0,001).
Regresión   3,53    1 3,53  43,93
Error 42,63 531 0,080
Total 46,15 532
*  Coeficiente de determinación[Tabla 10.3 aproximadamente
R2 = 3,53/46,15 = 0,076. aquí]

172 Pastor-Barriuso R.

10.3.3 Inferencia sobre los parámetros de la recta de regresión


0 1
1.2 MEDIDAS DE TENDENCIA CENTRAL
pendiente de la recta de regresión utilizando el método de mínimos cuadrados. A partir
Regresión lineal simple
Las medidas de tendencia central informan acerca de cuál es el valor más representativo
de las distribuciones muestrales de b0 y b1, se derivan a continuación los intervalos de
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
donde los coeficientes
confianza
10.3.3  y tests sobre
Inferencia clos
de hipótesis xi para
- x )/{(
i = (parámetros 1) slax2 }recta
losnparámetros
- de dependen
subyacentesúnicamente
de regresión β0 y β1de
dellos valores
modelo dede
alrededor de qué valor
En el Apartado se agrupan
10.3.1 los datos
se obtuvieron los observados.
estimadores Las b0 y medidas de tendencia
b1 de la constante y la pendiente de la
regresión lineal simple.que se asumen constantes. Bajo
recta de regresión utilizando el método de mínimos cuadrados. A partirde
la variable explicativa las asunciones delinealidad y
las distribuciones
central de la muestra
muestrales de b0 ysirven
b1, setanto paraa resumir
derivan continuación los resultados
los intervalosobservados como para
de confianza y tests de hipótesis
El estimador
homogeneidad dedelamínimos
varianza,cuadrados de la pendiente
el valor esperado de b1 esde la recta de regresión puede
para los parámetros subyacentes β0 y β1 del modelo de regresión lineal simple.
realizar inferencias acerca de los parámetros poblacionales correspondientes. A
El estimadorcomo
reescribirse de mínimos cuadrados
una combinación n
de la pendiente
lineal de los n
de la recta
valores n
de lade regresión
variable puede reescribirse
respuesta
como unasecombinación
continuación describen los E b1) =de
lineal loscivalores
(principales Eestimadoresβ 0lavariable
( y i ) =de β1 respuesta
c i la+ tendencia
de = β1 de una
c i x i central
n i =1 i =n1 i =1
2
donde los coeficientes ci = ((xxi -− xx)/{( )( y in−- 1)y ) s x }dependen
( x i − x ) yúnicamente de los valores de
variable.  i i n

y,
donde b1 = cii ==1 y(ixnson
comoloslascoeficientes
observaciones - x independientes
)/{( n - 1) =2 }i =n1dependen
s (véase Apartado=  c3.4),
i y i ,de
su varianza
valoreses
la variable explicativa que se asumen constantes.
i x Bajo las2únicamente
asunciones de los
linealidad yde
1.2.1 Media aritmética  ( x i −
i =1
x ) 2
 ( x
i =1
i − x ) i =1

la variable explicativa
homogeneidad que se asumen
de la varianza, eln valor constantes.
esperado 2deBajo n
b1 2eslas asunciones
σ2 de linealidad y
, 2y ) =σ
la 
2
La media
dondearitmética,
los coeficientes var(
ci = (x
denotada b
por1 ) =
i – x )/{(n
c
se define var(
–i 1)sx }como
dependen
i suma c =
i de cada uno
únicamente .
de los de valores
los de la variable
i =1 i =1 (n − 1) s x2
explicativa
homogeneidadque se de asumen constantes.
la varianza, el
n
valor Bajo las
esperado asunciones
n
de b 1 es den
linealidad y homogeneidad de la
valores muestrales
varianza, el valor dividida por
esperado
E(bdeel número
b es de observaciones realizadas. Si denotamos
1) = 1 c i E ( y i ) = β 0  c i + β 1  c i x i = β1 26
Es decir, b1 es un estimador insesgado i=n1 de β1 que i=n1 será tanto i=n1 más preciso cuanto menor
por n el tamaño muestral y por E(bx1i)el 
= valor ( yi ) = β 0 
observado
ci E para β 1  ci-ésimo,
c i el+ sujeto i xi = β 1
i = 1, ..., n,
sea la varianza
y, como de la variable
las observaciones respuesta
i =1
yi son alrededor (véase
independientes
i =1
de la recta i =1
Apartadode regresión
3.4), suyvarianza
mayoreses
la media vendría dada por
y, como las observaciones yi son independientes (véase Apartado 3.4), su varianza es
sean
y, comoel tamaño muestral y la
las observaciones yi dispersión
sonn independientes de la variable (véase explicativa.
Apartado Además,
3.4), si el tamaño
su varianza es
n 2
σ
1 = x=c i 1var( y2 i ) = σ 
2x + x + ... +2 x
n 2
muestral n es suficientemente x =b1 )
var(
grande,
i1 puede aplicarse
n ci =
. una(generalización
n − 1 ) s 2
.
del teorema
n i =1 i =
n n i =
n1
σ 2 x
var(b1) =  c i var( y i ) = σ  c i =
2 2 2
.
decir, bdel
Es central 1 es un
límiteestimador
(ver su insesgado
versión i =1más de β
simple1 queen será
el i tanto
Apartado
=1 (más
n preciso
4.3.3)
− 1 ) s 2
x para cuanto menor
demostrar quesea la
Es
varianzadecir,
de b
la es un estimador
variable respuesta insesgado
alrededor dedeβ
La media es la medida de tendencia central más utilizada y de más fácil
1 1 que
la rectaserá de tanto más
regresión preciso
y mayorescuantoseanmenor
el tamaño
b1 se distribuye
muestral de formadeaproximadamente
y la dispersión la variable explicativa. normal con Además,la media si yelvarianza
tamaño descritas
muestral n es
Es
sea decir,
la
suficientemente
interpretación. b
varianza es un
de estimador
la variable
grande, al
Corresponde
1 puede
“centroinsesgado
respuesta
aplicarse de β
alrededorque
una generalización
de gravedad” 1 será
de la
de los datosdel tanto
recta más
de preciso
regresión
de teorema
la muestra. cuanto
Su delmenor
y
centralmayores límite (ver
su anteriormente,
versión más simple en el Apartado 4.3.3) para demostrar que b1 se distribuye de forma
sea
sean
principal laelvarianza
tamaño
limitación
aproximadamente es de
quelaestá
normalvariable
muestral muy
con respuesta
y laladispersión
influenciada
media y varianza alrededor
de por
la variable
los de laexplicativa.
valores
descritas recta de regresión
extremos
anteriormente, Además, y mayores
y, en estesi el tamaño

sean el tamaño muestral b1 −puede


βde
1 la~aplicarse
muestral
caso, puede no n es
ser fiel reflejoyde
unsuficientementela la
dispersión
grande,
tendencia →variable
N (de
central 1)explicativa.
0, la .una Además,del
generalización
distribución. si teorema
el tamaño
σ
muestral
central deln es suficientemente
límite (ver su versióngrande,
más npuede
s x simple− 1 aplicarse una generalización
en el Apartado del teorema
4.3.3) para demostrar que
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
Paracentral
b1hacer del
usolímite de(ver
de este
se distribuye su versión
resultado,
forma más simple
el parámetro
aproximadamente en el Apartado
desconocido
normal con σlaha 4.3.3)y para demostrar
de sustituirse
media varianzapor que
la desviación
descritas
Pararesidual
típica hacer
utilizarán losuso de este
s,valores
que delresultado,
conlleva elHDL
un error
colesterol parámetro
adicional en los 10σLa
desconocido
de muestreo.
obtenidos hadistribución
de sustituirse
primeros por la de b1
sujetosresultante
del
b se distribuye de forma aproximadamente normal con la media
1entonces más dispersa que la normal, siguiendo aproximadamente una distribución t de
seráanteriormente, y varianza descritas
desviación
Student
estudiocon lostípica
“European n – 2residual
grados
Study on s,Antioxidants,
de que conlleva
libertad un error adicional
correspondientes
Myocardial de muestreo.
aInfarction
la estimación de laLa
and Cancer varianza
of residual,
anteriormente,
distribución resultante deun b1 estudio b1b−1 −β 1βmás
será entonces 1 ~ ~dispersa que la normal, siguiendo
the Breast“ (EURAMIC), →→Nt(n0de
multicéntrico .casos
−,2 1) . y controles realizado
σ s
b − β1 ~
aproximadamente
entre 1991 y 1992 en una distribución
ocho stxs1de
países Europeos x n Student
n 1−e1→
− Ncon
(0para
Israel 1) . nevaluar
, los - 2 grados de libertad
el efecto de los
σ
Cabe destacar que este resultado se hade
sderivado− 1 con residual,
independencia de la asunción de normalidad
correspondientes a la estimación x la n
varianza
y, en consecuencia,
Cabe
Para destacar
hacer deeseste
usoque válido
este para cualquier
resultado
resultado, se
el ha distribución
derivado
parámetro subyacente
σ ha dede
con independencia
desconocido de la variable5 respuesta,
asunción
sustituirse por de
la
siempre que el tamaño muestral sea suficientemente grande.
normalidad
Para y, en
hacer uso
desviación deconsecuencia,
típica s, quees
este resultado,
residual elválido para
parámetro
conlleva cualquier
desconocido
un error adicional σdehamuestreo.
distribución subyacente
La pordelala
de sustituirse

variable respuesta,
desviación
distribucióntípica siempre
resultante de bs,1que
residual seráelconlleva
que tamaño un
entonces muestral
error
más sea suficientemente
adicional
dispersa que de muestreo.
la normal, grande.
La
siguiendo
27
A partir deresultante
distribución
aproximadamente la distribución muestral
de b1 será
una distribuciónentonces b1más
t dedeStudent
, el intervalo
dispersa de
- 2confianza
con los nque la normal,
grados 100(1 - α)%
dealsiguiendo
libertad
Pastor-Barriuso R. 173

aproximadamente
para auna distribución
la pendiente subyacente
correspondientes t la
β1 dedela
la estimación de Student
recta con los nviene
de regresión
varianza residual, - 2 grados de libertad
dado por
A partir de la distribución muestral b1 ± t nde b , el intervalo. de confianza al 100(1 - α)%
− 2 ,1−α1 / 2
variable respuesta, siempre que el tamaño muestral s x n sea
− 1 suficientemente grande.
para la pendiente subyacente β1 de la recta de regresión viene dado por
Correlación y regresión lineal simple
DeAigual
partir de la el
forma, distribución muestraldedelabhipótesis
contraste bilateral 1, el intervalo de confianza
de ausencia - α)%
al 100(1 lineal
de asociación
s
para
entrelalaspendiente
variablessubyacente
explicativa b1 ±
de la trecta
βy1 respuesta αde
n − 2 ,1−H regresión
/ 2: β .realiza
viene dado por el estadístico
A partir de la distribución muestral de b1, el intervalo 0 s x n0−se
1 = 1de mediante
confianza al 100(1 – α)% para la
pendiente subyacente β1 de la recta de regresión viene dado por
b s
b1 ± ttde
De igual forma, el contraste bilateral n=− 2la
,1−αhipótesis
/2 1 .
, de ausencia de asociación lineal
ss x n − 1
Deentre
iguallas variables
forma, explicativa
el contraste y respuesta
bilateral sHx 0:nβ−
de la hipótesis11=de
0 se realiza de
ausencia mediante el estadístico
asociación lineal entre las
De igual forma,
variables explicativa
1.2 el contraste bilateral
y respuesta H0: βun de la
1 =primer
hipótesis
0 se realiza de ausencia
mediante estadísticoen lineal
de asociación
el miocardio
antioxidantes en elMEDIDAS
riesgo DE TENDENCIA
de desarrollar CENTRAL
infarto agudo de
s en el riesgo de desarrollar
quePara un primer
se distribuye
completar la infarto
aproximadamente
exposición, agudosedepresentan comomiocardio una b el t deen Studentde
intervalo con n - 2 grados
confianza de libertad
y el test de
entre las variables explicativa y respuesta t = H0: 1β 1 = ,0 se realiza mediante el estadístico
hombres adultos. Los valores obtenidos fueron 0,89, s
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 1,58, 0,79, 1,29, 1,42, 0,84,
ultos. Los valores obtenidos
si laPara
hipótesisfueron nula 0,89, 1,58,de0,79,
esexposición,
cierta. Este 1,29,es
test de1,42, 0,84, aunque
equivalente
hipótesis para
completar la constante
la la recta
se presentan regresión,
s x nel− intervalo1 al contraste deestas de regresión
inferencias
confianza lineal
suelen
y el test de tener
1,06, 0,87, 1,96 y 1,53 mmol/l.
de una determinada variable o, La media de los niveles
b del colesterol HDL en
,96 y 1,53 mmol/l. La
simple
queescasa
se media
distribuye de los
presentado niveles
en
aproximadamenteel del
apartado colesterol
anterior.
como t =dicho
HDL
una De t
1de forma equivalente, estos estimadores indican
en hecho,
de , el estadístico
Student con n –en 2Fla del
grados contraste
de de
libertad si la
importancia porque
hipótesis para la constante de la recta de regresión, la relación en x = 0
s carece aunquede sentido estas inferencias mayoría de las
suelen tener
estos 10
queparticipantes
hipótesis senuladistribuye
es es
cierta. aproximadamente
Este test es como
equivalente una
al t de
contraste Student de con
regresión n - 2 grados
lineal de
simple libertad
presentado
ticipantes es en el Para alrededor
completarde la qué valor se se
exposición, agrupan
presentan s xlosntdatosel− intervalo
1este observados. de confianza Las medidas y el test dede tendencia
regresión
apartado
aplicaciones. es igual
anterior.
El al
estimador cuadrado
De hecho, del
el estadístico
estadístico
mínimo-cuadrático
escasa importancia porque la relación en x = 0 carece de sentido0 en la mayoría F de
del
de contraste
la contraste,
constante de regresión
b = y - bes
1 xigual
es al
una cuadrado
de las
delsi la hipótesis
estadístico t nula
de este es cierta.
contraste, Este test es equivalente al contraste de regresión lineal
Para central
hipótesis para1lade
completar 10 la muestra sirven tanto para resumir los resultados observados como para
constante 0,89de+la
la exposición, 1,58 se+presentan
recta ...de+ 1regresión,
,53 el intervalo aunquedeestas inferencias
confianza y el testsuelen
de tener
1 10 que se
0combinación
aplicaciones. x
,89 + 1,58 + ...10 =
distribuye 
lineal 53xde
El+ 1estimador i =dos estimadores
,aproximadamente mínimo-cuadrático
SSR como 2 =
una
independientes
b ( n t
de−
1,223
de 1la
) s 2 mmol/l.
Student
constantey y con
b b n
que =- 2 y grados
tienden- b xa de
es libertad
una
distribuirse
x =  x i = simple presentado realizar i =1 en el = 1,223
apartado F =10
mmol/l.
anterior. De
1
=parámetros hecho, x
el=estadístico
2
tsentido
,
1 0 1
F del contraste de A
10 i =1 hipótesis para lainferencias
escasa importancia
10 porque de
constante laacerca
relación
la recta de2los
s en
de x = 0
regresión, scarece
2 poblacionales
aunquede en correspondientes.
estas inferencias la mayoría de las
suelen tener
si laforma
hipótesis
combinación
de normal nulaconforme
lineal es
decierta. Este testelestamaño
dos estimadores
aumenta equivalente
independientes muestral, al contraste
ydey lo b1 cual
que detienden
seregresión
deduce lineal
a distribuirse
que la
de regresión es igual al cuadrado del estadístico t de este contraste,
tal
La mediaescasa
forma
aplicaciones.
aritmética
que
continuación
importancia ambos
El
presenta estimador procedimientos
se describen
porque losfacilitan
mínimo-cuadrático
la relación
las siguientes en x = 0siempre
principales
propiedades: de
careceestimadores
la constantelossentido
de mismos =lavalores
bde0 en b1 xP es
ytendencia
la -mayoría (lacentral
distribución
una
de las de una
F simple
de
de Fisher
tal presentado
con
forma
distribución 1
quegrado
muestral en
ambos deel apartado
libertad
procedimientos
de b0 aumenta en
también seráanterior.
el numerador De
facilitan hecho,
aproximadamente y n –
siempre el
2 estadístico
gradoslos de
mismos F
libertad del contraste
valoresen elP de
denominador
(la
ética presenta las siguientes
de forma normal propiedades: conforme el tamaño muestral, de normal lo cual con se deducemedia que la
• Cambio
es, aplicaciones.
por definición,
combinación variable. El elestimador
lineal
de origen (traslación).
cuadrado de la distribución
mínimo-cuadrático
de dosSiestimadores
se suma SSR b12 (ntde
unaindependientes
constante
de
− 1la )Student
2
saxconstante
cada y 2unoyconb1 bden0 –= 2tienden
que grados
losy datos- b1 xade es libertad).
una
distribuirse
regresión
distribución es igual
F de al
Fishercuadradocon 1 Fdel= estadístico
grado de =libertad t de en esteel = t
contraste,
numerador , y n - 2 grados de
origen (traslación).Para Si secompletar
suma una constante
la de b)0a=también
exposición, cada uno de los el datos
distribución muestral E(sey presentan
) -sserá
E(b1aproximadamente intervalo de normal
confianza conymedia el test de hipótesis
2 2
E(b 0 ) x = sβ 0 + β1 x - β1 x = β0
de para laforma
unacombinación
demuestra, 1.2.1
constante normal Media
de
la media
lineal dearitmética
laconforme
recta lademuestra
dos regresión,
estimadores
aumenta aunque
resultante
el tamaño estas
es
independientes igualinferencias
muestral, a laymedia dey blosuelen inicial
que
1 cual tener
tienden
se más escasa
deduce importancia
aladistribuirse
que la
tra, la media deporque libertad
la muestra en el denominador
resultante es, por definición, el cuadrado de la distribución t de Student
la relación en xes=igual 0 carece a la mediadeSSR sentido inicial b1en
2
(nmás la )la
− 1mayoría
sx 2
de las aplicaciones. El estimador
de tal forma que ambos ) = E(
E(bprocedimientos F =yb ) =- E(b 1) x = β0siempre
=facilitan + β1 = x t-2los ,β1 de = β0 valores P (la
xmismos
mínimo-cuadrático
constante
de utilizada;
ydistribución
varianza
forma Lanormal
media si yde
muestral =laxide + 0bc,0 entonces
constante
iaritmética,
conforme denotada
también
aumenta 0 sserá
2y por
el –= bx1 x +,esse c
aproximadamente
tamaño s 2.una
Un
define
muestral, combinación
cambio como lo la
de normal origen
cualsumalineal de
condeduce
se decada
que
media dosqueestimadores
uno lade los
+ con
ilizada; si yi = xindependientes
c , n -
entonces 2 grados y de x libertad).
c
y b1 que tienden a distribuirse de forma normal conforme aumenta el tamaño
= + . Un cambio de origen que
i
distribución
muestral, de lo F deseFisher
cual deduce conque 1 grado de libertad
la distribución en el numerador
muestral de b0normal también y n -será 2 grados de
aproximadamente
y varianza
se realiza valores
con frecuencia
distribución muestrales
muestral es de b)0 dividida
el centradotambién depor elaproximadamente
la variable,
será número que deconsiste
observaciones en2restar conrealizadas.
amedia Si denotamos
de
normal talconformamedia que ambos E(b = E(
procedimientos
0 y ) - E(b ) x
facilitan
1 = β +
2 0siempre β  x
21 1 los - β x x=
1 mismos β 
0 valores P (la
n frecuencia es el centrado de la variable, var(b0que ) = es, consiste
var( + en
y )definición,
var(b restar
1) xel a=σ  + . 28
libertad en el denominador por cuadrado  n de ( n la− 1distribución
) s 2  t de Student
por n el tamaño
cada valor de la muestra su media. La media de muestral y por x el valor
i una variable observado  centrada 2será,para elx  por i-ésimo, i = 1, ..., n,
sujeto
e la muestra su media. distribución
La media
y varianza
F de unaE(b
de Fisher 0) = 1
con
variable E(grado
y ) − E(b
centrada
0) = var( y ) + var(b1) x = σ 
de será, 1) x =
libertad por β 0 + el
2 en x1− β 1 x x= βy 0n - 2 grados de
β21numerador

con n - 2 grados devar(b libertad).  + (n − 1) s 2  .
tanto, igual a 0.
y varianza la media vendría dada 2por 2 n x 
a 0.
Reemplazando
libertad el parámetroes,
en el denominador σ por pordefinición,
su estimación s , el intervalo
el cuadrado de confianza
de la distribución t deal Student
100(1 -
y varianza
• Cambio de escala (unidades). Si se multiplica cada  1 datos de x una
2

1 1)n xuno= de σx21,2los


+ xintervalo .
2
var(b 0) = var( 2 y ) + var(b +
α
con)% n -
para
Reemplazando 2 grados
la constante
el de libertad).
poblacional
parámetro σ por β su es estimación s el 2 + ... + xde al 100(128-
escala (unidades). Si se multiplica cada uno de los datosxde 0 = una  xi =  n (n − 1)ns x2. confianza 

muestra por una constante, la media de la muestra n i =1resultante 21 es+igual n xa2 la media 
2 σ  .
2
var(b ) = 2var( y ) + var(b1) x =
α
Reemplazando
)% para la el parámetro
constante
una constante, la media de la muestra resultante es σ
poblacional
0 por su β
igual estimación
es
0 a la media s , el intervalo
 2n ( n −de1 ) confianza
s 2  al 100(1 – α)%
1 x  
2 2
de confianza al 100(128-
x
paraReemplazando
inicial la constante
por la constante poblacional
La media
el utilizada;
parámetro
es la medida
βsi0σ es por
by0i =± cxt n −su
de
estimación
1−α / 2 s
i,2tendencia
,entonces +y =
central
s ,cel xmás .intervalo
2 utilizada y de más fácil
a constante utilizada; si yi = cxi, entonces y = c x . n (n − 1) s x
α)% para
Reemplazando 2
σb por β 1 s2, xel2 intervalo de confianza al 100(1 -
• Cambio simultáneo deelorigen
la constante
interpretación. parámetro
poblacional
Corresponde
y escala. 0 ± Sit su
0ales
se estimación
“centro s
multiplica
n − 2 ,1−α / 2 + cada
de gravedad” uno 2 de delos losdatosdatosdede la muestra. Su
ultáneo de origen yy escala. Si se multiplica cadadeuno de los datos n ( n − 1 ) s
el estadístico del contraste la hipótesis nuladeH0: β0 = 0 es x
α)% para
unay muestra launa
principalconstante poblacional
limitación es que βestá
0 esse muy influenciada por los valores la mediaextremos y, en este
el estadístico del contraste de la hipótesis nulasuma
por constante y al resultado le H otra constante,
1 0: β0 =x02 es
por una constanteyyelalestadístico
resultado se dellecontraste
suma otrade bconstante,
0 la t n − 2,1−α /la2 smedia
± hipótesis nula +H : β = 20 es
0ntendencia
la(nprimera
bpor 0 − 01) s
de la muestra caso, resultantepuedeesno ser aunlafiel
igual media reflejo
t= inicialde la ,2 central
x constante, de la distribución.
más la
a resultante es igual a la media inicial por la primera 1 x
b0 ± tconstante,
n − 2 ,1−α1/ 2 s
más+x la
2

segunda constante; si y = c x + c , entonces s y =+ b


c n x +(nc22−. 1) s x2
i 1 i
y el estadístico del contraste de lat hipótesis 2
= n nula (n − H
1 0
1)0s:xβ0, = 0 es
stante; si yi = c1xi + c2, entoncesEjemplo y = c1 x1.4 + cEn 2. este y en los sucesivos
1 x2
ejemplos sobre estimadores muestrales, se
queybajo H0 seguirádel
el estadístico aproximadamente
contraste unas distribución
de la hipótesis
+
H)0s:tx2β de = Student
0 es con n – 2 grados de libertad.
utilizarán los valores del n nula
colesterol b(n0 − 1HDL
Ejemplo que1.5 bajo Para
H0 transformar
seguirá aproximadamente los valores deluna colesterol
distribución HDL0 obtenidos
tdedemmol/lStudent ena conlos 10
mg/dl n -seprimeros
2 grados sujetos
de del
Para transformar los valores del colesterol HDL de mmol/l a mg/dl2 se t = ,
1 x
multiplica
libertad.
que por el
bajo H factorestudio
seguirá “European38,8.
de aproximadamente
conversión Study sAsí,
unaon +Antioxidants,
b0
utilizando
distribución Myocardial
2 la tpropiedad
de Studentdel Infarction
con and Cancer
n - 2 grados de of
174 Pastor-Barriuso R. 0
or el factor de conversión 38,8. Así, utilizando la propiedad del t = n ( n − 1 ) s x
,
the Breast“ (EURAMIC), 1 estudio
un x 2 multicéntrico de casos y controles realizado
cambio de escala, la media del colesterol HDL
libertad. s en + mg/dl se2 calcularía
scala, la media delque Ejemplo
colesterol HDL 10.9 en mg/dl
Las se calcularía
estimaciones n (n −obtenidas
puntuales 1) s x
bajo H seguirá aproximadamente una distribución
0 t deenStudentel Ejemplo con n10.7 para losde
- 2 grados
constante es 2 s 0,283 2
fueron b0 =SE(b
1,69, b SE(b
= 1
-0,023
1 ) = y x s = 0,283.= El 1 estándar
error 26,0de
= 0,0035. la estimación de lalineal simple
0 ) = 1 s + = 0
s n − 1 3,50 532, 283 + = 0,092Regresión
n (n − x1) s x2 533 532 ⋅ 3,50 2
constante es 1 x2 1 26,0 2
fueron b0 =SE(b 0) b
1,69, =1 s= -0,023+ y s = 0,283. = 0,283 +
El error estándar de la = 0,092
2 estimación de la
Los ICs al 95% para lanconstante
(n − 1) syx2la pendiente 533de la532 ⋅ 3,de
recta 50regresión
Ejemplo 10.9  Las estimaciones puntuales obtenidas en el Ejemplo 10.7 para los
y de la pendiente
constante
parámetrosesde la regresión 1 delx colesterol
2 HDL 1sobre el26,0 índice
2 de masa corporal fueron
poblacional son0)entonces
SE(b = s + = 0 , 283 + = 0,092
by0de
= 1,69, b1 = – 0,023 y s = 0,283. 2El error estándar de la estimación
la pendiente de la constante es
n (n − 1) ssx 533 532 ⋅ 3,50 2
0,283
SE(b1) = 2 = = 0,0035. 2
b ± t 1 SE(b xs x0) = n −1,69
1 ±3,50 1532 =26,0
1,96⋅0,092 (1,51; 1,87)
SE(b0 ) = s
0 +
531;0,975
s2 = 0,2830,283 + = 0,092
y de la pendiente SE(b1) = n ( n − 1 ) s x = 533 532 ⋅ 3
= 0,0035.,50 2

yy de ICs
la pendiente s x n − 1 3,50 532
Los al 95% para la constante y la pendiente de la recta de regresión
y de la pendiente s 0,283
poblacional son
Los ICs al b95% SE(b
entonces 1) = = de la==recta
0,0035.
± t para laSE(b
1
constante
531;0,975 1
yn la
) =s -0,023 x− 1pendiente
3,50 532
± 1,96⋅0,0035 de regresión
(-0,030; -0,016).
s 0,283
poblacional
Los son
ICs al 95% entonces
b0para la constante
± tSE(b 1) = y la pendiente
= de la= recta
0,0035.de regresión poblacional son
531;0,975SE(b0) = 1,69 ± 1,96⋅0,092 = (1,51; 1,87)
Del
Los intervalo
ICs al 95%
entonces para la pendiente
para s xpuede
la constante yn la
− 1pendiente
3,50 532
concluirse con
de la una
rectaconfianza del 95% que
de regresión

ypoblacional
el nivel medio t531;0,975 SE(b
b0 ±colesterol 0 ) = 1,69 ± 1,96⋅0,092 = (1,51; 1,87)
sonde entonces HDL en la población de referencia del estudio
Los ICs al 95% para la constante y la pendiente de la recta de regresión
y significativa ya que el contraste de la hipótesis nula H0: β1 = 0 mediante el
EURAMIC
y disminuye entre)0,016 y 0,030 mmol/l por cada incremento de 1
poblacionalb1son ± bt531;0,975
0entonces SE(b
± t531;0,975 1 = −0)0,023
SE(b = 1,69 ± 1,96⋅0,0035
± 1,96⋅0,092==(−(1,51; 0,030; − 0,016).
1,87)
estadístico
2
kg/mintervalo
Del en el índice para la dependiente
masa corporal. puedeEn general, con
concluirse el intervalo
una confianza de confianza del 95% paraqueelel nivel
Del intervalo b1 ±para t531;0,975
la SE(b1) = puede
pendiente ± 1,96⋅0,0035
-0,023concluirse con = (-0,030;
una confianza -0,016).
del 95% que
y
medio de colesterol b 0 ± t SE(b
HDL en la población
531;0,975 0 ) = 1,69 ± 1,96⋅0,092 = (1,51;
de referencia del estudio EURAMIC disminuye 1,87)
efecto0,016
entre y 0,030cβ
subyacente 1 asociado
mmol/l port =cada bincremento
a cualquier1 −incremento
0,023
de 1=kg/m c en 2 la variable explicativa
en el índice de masa corporal.
el nivel medio de colesterol HDL en la =
población -6,63
Del intervalo
yEn general,b1el±intervalo
para la pendiente
t531;0,975SE(b de confianza puede
SE (bpara concluirse
) el0,0035 efecto subyacente del
de
con referencia
una confianza cβ1 estudio
del 95% que
asociado a cualquier
1) = -0,0231± 1,96⋅0,0035 = (-0,030; -0,016).
incremento c en la variable
se obtiene multiplicando losexplicativa
límites del se obtienepara
intervalo β1 por dicho
multiplicando losincremento,
límites del intervalo
EURAMIC
el nivel
para β1 por medio disminuye
dicho de incremento,
colesterol entre HDL 0,016en y 0,030
la población mmol/lde porreferencia
cada incremento del estudio de 1
resulta
Del intervalo en un
b1 ±para valor
t531;0,975 P bilateral
SE(b1) = puede
la pendiente 2P(t
-0,023531 ≤ -6,63)
± 1,96⋅0,0035
concluirse ≈ 2Φ(-6,63)
con = una (-0,030; <
confianza 0,001.
-0,016). Notar
del 95% que que este
kg/m
EURAMIC
2
en el índice
disminuye cb ±
de1 masa t n − 2,1corporal.
entre −0,016
α /2 SE(cb En )
y 0,030
1 = c{b
general, ±
mmol/l
1 t nel intervalo
por
− 2,1 SE(b )}.
1de confianza
− α /2cada incremento depara
1 el
test arroja
el1.2
nivel medioelde mismo
colesterol valorHDL P queenellacontraste población dede regresión
referencia deldel ejemplo
estudio anterior ya
antioxidantes en elDel Así, por deejemplo,
2MEDIDAS
intervalo
riesgo paraDE
desarrollar con un primer
TENDENCIA
la pendiente
un nivel de puedeconfianza
infarto CENTRAL
concluirse
agudo delde95%,
con los confianza
una
miocardio incrementos
envariable delde 95%unaque desviación
efecto
kg/m
Así, por subyacente
en el índice
ejemplo, c β
de
con asociado
masa corporal.a cualquier
En incremento
general,
2 un nivel de confianza del 95%, los incrementos de una
1 el intervaloc en lade confianza explicativa
para el media
típica c = 3,50yakg/m
significativa que elencontraste
el índice dela
de masa 2 corporal
hipótesis nulaseHasocian 0 : β1 = 0 con una disminución
mediante el
EURAMIC disminuye
≤el-6,63) entre
= P( HDL t0,016
2
531 ≥
yentre
0,030 mmol/l
P(F 1,531 por cada yincremento de 1
hombres adultos. Los el que 2P(t
poblacional
nivel
Lasvalores medio
medidas en
531
de
obtenidos
de colesterolfueronHDL
colesterol
tendencia 0,89,
central de6,63
en
2 1,58,
)= 3,50⋅0,016
la población
informan 0,79, 1,29,
acerca de≥1,42,
43,93).
=de 0,057
referencia
cuál0,84, es 3,50∙0,030
delvalor
el estudiomás= 0,105 mmol/l.
representativo
se obtiene
efecto
desviación
Por multiplicando
subyacente
típica c c β
= 3,50 los
asociado kg/m límites a en del
cualquier
el intervalo
índice incremento
de
supuesto, esta disminución es estadísticamente significativa ya que el contraste de la
estadístico 1 masa para β c por dicho
1 en la variable
corporal se incremento,
asocian explicativa
con una
kg/m2 en el índice de masa corporal. En general, el intervalo de confianza para el
EURAMIC
1,06, 0,87, 1,96 y 1,53hipótesismmol/l. disminuye
nula La H0media 0entre
: β1 =variable los0,016
demediante niveles y 0,030
el estadístico mmol/l
deldecolesterol por
HDL cada en incremento de 1
sedeobtiene
una determinada
disminución multiplicando
media poblacional
cb1 ± tn-2,1- los o,en
límites dicho
el del forma
intervalo
colesterol HDLequivalente,
para deβ por
1entre
estos
dicho estimadores
3,50⋅0,016 = 0,057indican
incremento,
10.3.4 Bandas de confianza y α/2SE(cb
predicción ) = c{b
para ±
la t
recta de SE(b )}.
regresión
2 subyacente cβ1 asociado abcualquier
1 − 0,incremento
023
1 n-2,1- α /2 1
efecto
kg/m c en la variable explicativa
estos 10 participantes es en el de
alrededor índicequé de valor masa setcorporal.
=
agrupan
1
En
los general,
= datos =el−intervalo
observados. 6,63 Lasdemedidas confianza de para el
tendencia
y 3,50⋅0,030 = 0,105 mmol/l. SE (supuesto,
Por b1 ) 0,0035 esta disminución es estadísticamente
Además de ejemplo,
realizar inferencias
cb1 un ± tn-2,1- sobre SE(cb los1parámetros
) = c{bdel β0 yαlos
tn-2,1- β1,incrementos
es a)}. menudodeinteresante
Así,
efecto
por
se obtiene multiplicando
subyacente
con
c β nivel
asociado
α/2de
los límites a
confianza
del intervalo
cualquier
1 ±95%,
incremento para β/2c1SE(b
porla1dicho
en variable
una
incremento,
explicativa
resulta
1central
10 en deun la valor
muestra P 1 bilateral
0,89 + 1,58 + ... + 1,53sirven 2P(t
tanto para≤ – 6,63)
resumir ≈ 2F(– 6,63)
los resultados < 0,001.
observados Notar que este
como paratest

531
xcalcular
= arroja xelen =un valor
intervalos
mismo de
valor confianza
P que elpara 2 =la
contraste 1,223
propia mmol/l.
de recta
regresión de regresión
del ejemplo β + β x.
anterior Más 30
resulta
desviación
Así, i
por ejemplo,
10obtiene típica ccon P
=10 bilateral
3,50
un2 los 2P(t
kg/mdeenconfianza
nivel 531 ≤ -6,63)
el índicedel ≈ 2Φ(-6,63)
de masa
95%, corporal
los < 0,001.
se asocian
incrementos0 Notar
1
de unacon una 2P(t531
ya
que que
este
se i =1
≤ realizar multiplicando
– 6,63) =inferencias
P(t 531 ≥ 6,63cb ±
1acercat = P(F
)n-2,1- límites
deα/2losSE(cb del )
parámetrosintervalo
= c{b ± tpara
1 poblacionales β por
SE(b dicho
)}. incremento,
1correspondientes. A
1,531 ≥ 43,93).
2 1 n-2,1-α/2 1
concretamente,
test arroja eltípica
disminución
desviación dado
mismo
media un determinado
3,50 P
valor
c =poblacional kg/mqueen 2 el
enelvalor
contraste x
elcolesterol
índice de
0 de la variable
de regresión
HDL
masa de explicativa,
del ejemplo
entre
corporal 3,50⋅0,016
se asocian se pretende
anterior
=con ya
0,057
una
continuación se describen
cb1 ± untn-2,1- los principales
SE(cb estimadores
= c{bdel tn-2,1-αde de la tendencia de una de una
central
La media aritmética
10.3.4  Así,
presenta porlas
Bandas ejemplo,
siguientes
de con
confianza ynivel
propiedades: α/2de
predicción 1) para
confianza 1 ±recta
la 95%, /2SE(b
los 1)}.
incrementos
regresión
obtener un intervalo de confianza 2 para 2el valor esperado β + β x de la variable
yque 2P(t531 ≤media
3,50⋅0,030
disminución =-6,63) P( t 531 ≥Por
=mmol/l.
0,105poblacional 6,63
ensupuesto, = P(F1,531
el) colesterol estaHDL≥disminución
43,93).de0 entre 1 es estadísticamente
03,50⋅0,016 = 0,057
Además variable.
de realizar
desviación típicainferencias
csuma
= 3,50 sobre
kg/m 2
los
en parámetros
el aíndice de βmasa y β , es
corporal a menudo
se asocianinteresante
con unacalcular
Cambio de origen (traslación).
Así, porEl Si
ejemplo, se conpuntual una constante
un niveldedeeste confianza cada uno
del 95%, 0 de los datos
losŷ incrementos
1
de yuna
respuesta.
intervalos de estimador
confianza para la propia
y 3,50⋅0,030 = 0,105 mmol/l. Por supuesto, esta disminución recta valor
de esperado
regresión β es + β x.= b
Más + b x =
concretamente,
es estadísticamente
0 1 0 + b1(xdado
0- un
0 01
30
determinado
de una muestra, disminución
1.2.1 de
la desviación
media valor
Media x0aritmética
media
latípica
muestradec la variable
=poblacional
resultante kg/mexplicativa,
en
2es elelpara
enigual a lase
colesterol pretende
HDL de obtener
entre unasocian
intervalo
3,50⋅0,016 deuna
= 0,057 confianza
10.3.4 Bandas de confianza 3,50y predicción índice lamedia
recta
de masa inicial
decorporal más la
regresión se con
parax el valor
) que, esperadounβ0razonamiento
siguiendo + β1x0 de la análogo variable al respuesta.
del apartado El estimador
anterior, presentapuntual una de este
30 valor
esperado
constante utilizada; y La
si yes =
3,50⋅0,030ŷ
media x =+ bc ,
= + b
aritmética,
entonces
0,105 x =denotada
y
mmol/l. += bx (x
Por +porc –
. x
Un
supuesto,), que,
se
cambio
colesterolβHDL siguiendo
define
esta de como
origen
disminución un
la razonamiento
suma
que es de cada = 0,057 al del
uno
estadísticamente análogo
de los
dei realizar 0 y β1de
Además disminución 0i 0 inferencias
media 1 poblacional
0 sobre1 los en0 el parámetros , esentre a menudo
3,50⋅0,016 interesante
distribución
apartado anterior, aproximadamente
presenta unanormal en muestras
distribución suficientemente grandes,
aproximadamente normal con en media
muestras
se realiza concalcular
frecuenciavalores
suficientemente muestrales
grandes,
es el centrado condividida
de media
la para por
variable, el número
que consiste de observaciones
en realizadas.
restar a β es+ estadísticamente Si denotamos
30
intervalos
y 3,50⋅0,030 =de0,105
confianza mmol/l. Por la supuesto,
propia rectaesta dedisminución
regresión 0 β1x. Más
E( ŷ 0 ) = E( y ) + E(b1 )(x0 − x ) = β 0 + β 1 x + β 1 (x0 − x ) = β 0 + β 1 x0
por nsuelmedia.
cada valor deconcretamente,
la muestra tamañoLa muestral
media de y poruna xvariable
i el valorcentrada observado será, para porel sujeto i-ésimo, i = 1, ..., n,
dado un determinado valor x0 de la variable explicativa, se pretende 30
la media vendría dada por
tanto, igual a 0. y varianza Pastor-Barriuso R. 175
obtener un intervalo de confianza para el valor esperado β0 + β1x0 de la variable
Cambio de escala (unidades). Si se multiplica cada uno
1 de
n los datos de una
x + x + ... + x
respuesta. El estimador puntual de este valor x i = 1 2 es2 ŷ2 0 1= b0n(+x.0b−
 esperado 1x0x )= y + b1(x0 -
2
ˆ x = 
explicativa. Esta banda de1.2
confianza
MEDIDASestá DE
delimitada por las ramas
TENDENCIA de una hipérbola y su
CENTRAL

amplitud es mínima E( ŷ 0 )en= E(x0 =y )x+, E(b 1)(x0 - x )a=medida


aumentando β10 + β(1xque x −+Las xxβ0)1se
medidas
2(x - x )de
0aleja =de βsu0tendencia
β1x0 central informan acerca de
+media
Correlación y regresión lineal simple Las
b0 +medidas b1 x 0 ± t nde tendencia+central informan
− 2 ,1−α / 2 s
0
. acerca de cuál es el valor más representa
n (n − de 1) suna 2
x determinada variable o, dicho de forma equiv
muestral x , lo que confirma de una la intuición
determinada de que el valor
variable o, esperado
dicho de forma de la variable equivalente, estos estimadores indica
y varianza
alrededor de qué valor se agrupan los datos observad
y varianza
La bandapuede
respuesta de confianza
estimarse paraconlamayor recta de regresión no es más que la representación
alrededor de precisión
qué valoren se valores
agrupancentrados los datos que en valores
observados. Las medidas de tendencia
2 1
central x ) 2  sirven tanto para resumir los re
( x 0la−muestra
de
gráfica dede
extremos estos var( ŷ 0explicativa.
intervalos
la variable ) =a var(lo largo y ) +devar(b todo1 )(x el 0rango
2
= σ  +de la variable
− x ) observado 2 
.
central de la muestra sirven tanto para  n resumir (n − 1) slos x resultados observados como para
realizar2 inferencias acerca de los parámetros poblaci
explicativa.
Por tanto, utilizando Esta banda la de confianzatestá
distribución delimitada
resultante de por las ramas
sustituir σ por de la unaestimación
hipérbola sy2,su se tiene
realizar inferencias acerca de los parámetros
n–2 poblacionales correspondientes. A
Ejemplo 10.10 Para cada valor
al 100(1 –tn-2 fijo x
α)% del índice de masa corporal,
2
σ βpor el modelo
βdescriben
1x
de 2
quePorel intervalo
tanto, utilizandode confianzala distribución para el valor
0resultante de sustituiresperado
continuación 0 + sela 0 es
estimación loss principales
, se estimadore
amplitud es mínima en x0 = x , aumentando a medida que x0 se aleja de su media
continuación se describen los principales estimadores de la tendencia central de una
regresión
tiene lineal estima
que el intervalo un IC al 95%
de confianza al1.2 para- el α valor
1 para x 0el− valor
(esperado x ) 2 del colesterol β0 +HDL β1x0 de
b0 + b1 x 0 ± t100(1
n − 2MEDIDAS s )% + DE variable.
TENDENCIA . esperado CENTRAL es
muestral x , lo que confirma la intuición de que el valor ,1−α / 2
esperado
n (n − 1) s x 2 de la variable
variable.
2
1 estendencia x 0 que
(centrados−Media
26central
,0)que
La bandapuede
respuesta de confianza
estimarse1,69para − 0,la
con recta
mayor
023 de
x 0 ±precisión
1Las,96regresión
⋅medidas
0,283 no
en valoresde +1.2.1
más la aritmética
representación
. en valoresacerca
informan gráfica dede cuál es el valor m
estos banda de aconfianza
La intervalos lo largo1.2.1 depara todo la el
Media recta
rango de observado
aritmética regresión533 nodees la más variable
532 ⋅que
3,50la representación
explicativa.
2
Esta banda de
confianzade
extremos está la delimitada por las ramasdedeuna
variable explicativa. hipérbolaLayvariable
unadeterminada media
su amplitud aritmética,
o, dicho dedenotada
es mínima forma xpor
0 =
enequivalente, x ,, se define com
estos estim
aumentando
gráfica de aestos medida que Lax0media
intervalos aseloaleja
largo dedesutodo
aritmética, media muestral
el rango
denotada observado
por x ,, lo se que de confirma
define como lalasuma
la variable intuiciónde31cada de uno de los
que elEl áreaesperado
valor en gris oscuro de la Figura
de la variable respuesta 10.9 representa
alrededor puede de qué
lavalores
estimarse banda
valor se con demayorconfianza
muestrales
agrupan precisión
los
al 95%
dividida enpor
datos observados.valores
el número Las de observd
medidas
centradosEjemplo
explicativa. que en valores
10.10
Esta banda extremos
de confianza
Paravalores
cada valor defijo
muestralesla estávariable
x0 del explicativa.
delimitada
índice
dividida pordepor masa
el las ramas
número corporal, dede una
el modelo
observaciones hipérbola y su
derealizadas. Si denotamo
para toda la recta de regresión del colesterol HDL sobre por sirven nelelíndice
tamaño demuestral
masa y por xi el valor observado
central de la muestra tanto para resumir los resultados observad
amplitud
regresión es mínima
lineal en
estima x
por =
nun x
el ,
IC aumentando
al
tamaño
Ejemplo 10.10  Para0cada valor fijo x0 del índice de masa 95% para
muestral a medida
el valor
y por que
esperado
x i el x
valor se aleja
del de
colesterol
observado
0corporal, el modelo su media
paraHDL de
el sujeto
de regresión i-ésimo, i = 1, ...,
corporal, que se obtiene de calcular estos intervaloslaenmedia sucesivos vendría valores dada dentro
lineal estima un IC al 95% 1,69 para elrealizar
- 0,023⋅32 valor± esperado
inferencias
1,96⋅0,024 del=acercacolesterol
(0,90; de 1,00). HDL
los de por poblacionales correspond
parámetros
muestral x , lo que confirma la media la vendría
intuicióndada de que porel valor esperado de la variable
del rango observado del índice de masa corporal. 1 Los( xlímites − 26los ,de 2
esta banda de
0)principales
1,69 − 0,023 x 0 ± 1continuación ,96 ⋅ 0,283 se describen + 0 . estimadores 1 nde la tendencia
x + x2 +
respuesta puede estimarse con mayor precisión en533
confianza tienen forma1,69 de hipérbola y su amplitud
valores
1
532ncentrados
⋅ 3 ,50 2
que en
x1 + x 2 + ... + x n
valores x =  xi = 1
- 0,023⋅32
[Figura variable.
10.9 ± 1,96⋅0,024
aproximadamente x =aumenta
= (0,90; x i =gradualmente
aquí] 1,00). . n i =1 n
El área en gris oscuro
extremos de la variable explicativa. de la Figura 10.9 representa la banda
n i =1
de confianza n al 95% para toda
la recta
El área en
conforme dexgris
regresión
0 se oscuro
aleja de deldelacolesterol
lamedia
Figurax 10.9 HDL
= 26,0 kg/mel2 índice
sobre
representa del la índice
banda de masa de masa corporal,
confianza corporal. alque
95% se obtiene
Así,
de calcular estos intervalos en sucesivos 1.2.1 Media valoresaritmética La media
dentro del rango observado del índice es la medida de tendencia de central más u
La recta de regresión puede La media utilizarse
es la no sólode
medida para estimarcentral
tendencia la media más poblacional
utilizada ydedelamás fácil
masa
para
por corporal.
toda
ejemplo,
Ejemplo la 10.10
recta Los
el IC deallímites
Para regresión
95% cada de
para
[Figuravaloresta
del
el 10.9valorbanda
colesterol
fijo xmedio deHDL
aproximadamente confianzasobre
del colesterol
0 del índice interpretación.
de masa tienen
el
aquí] índice
HDL forma
corporal, de
entre eldelos
masa hipérbola
sujetos
modelo y su
de“centro
amplitud aumenta gradualmente La conformemedia aritmética,
x0 se alejadenotada de la media Corresponde
por x ,=se26,0 define al
kg/m como 2 de gravedad”
della suma de cada
variable respuesta entre los sujetos con
interpretación. un determinado
Corresponde 2 al “centro valorde x0 gravedad”
de la variable de los datos de la muestra. Su
corporal,
con
índice unde
regresión que
índice
masa se
linealobtiene
decorporal.
masaestima de
corporal
Así, calcular
un IC porde 25
alejemplo,estos
95% kg/m intervalos
parael, IC al 95%
el valor en sucesivos
para el valor
esperado del valoresmedio del
colesterol dentro colesterol
HDL de
La recta de regresión valores muestrales principal
dividida limitación
por 2el número es que deestá de muyla influenciada
observaciones po
realizadas
HDL
explicativa, entre los
sino sujetospuede
también con
paraun utilizarse
índice
predecir lano
de masasólocorporal
respuesta para estimar
individual de 25laykg/m media , poblacional
principal limitación es que está muy influenciada0 de un nuevo por lossujeto
valores extremos y, en este
del rango observado del índice de masa corporal. Los límites de esta banda de
1,69 − 0,023⋅25 ± 1,96⋅0,013 = (1,09; 1,14), no ser
variable
dado su valor respuesta entre la
x0. Según losestructura
sujetos con porun
del
n eldeterminado
modelo
tamaño muestral
de 1caso,
regresión valor ( xpuede
0xy−0 por
26,la
de
lineal,
0x)i variable
el
2
el valor
valor
un fiel reflejo depara
observado
subyacente
la tendencia cen
el sujeto i-és
confianza tienen más 1
forma , 69
caso, − 0 ,
puede 023
de hipérbola x
no ± 1
ser ,96un ⋅ 0 ,
fiel
yaquellos 283
su amplitud reflejo de
aumenta+ la tendencia
gradualmente .
central de la distribución.
es sensiblemente preciso que entre
0 con533 un índice 532de ⋅ 3masa
,50 2 corporal de 32 kg/m ,
2

es sensiblemente
explicativa, sino también más precisopara quelaentre
predecir media vendría
aquellos con dada por y0 de
un índice de un masa corporal
de la variable respuesta 1,69para − 0,023⋅32
un determinado ±la1,96⋅0,024
respuesta
sujeto =
individual
con (0,90; 1,00).
x = xEjemplo viene dado
nuevo
1.4 En poreste
sujeto
y =y βen +los sucesivos ejempl
conforme x0 se aleja de la media x = 26,0 kg/m2 del índice0 de masa corporal.0 Así,0
El valor
área 2 gris oscuro Ejemplo 1.4 En este y en loslasucesivos deejemplos sobre estimadores muestrales
dadode su 32 kg/men x,0. Según la estructura de la Figura del 10.9modelo representa
de regresión banda lineal, confianza
el valor al 95%
subyacente
β1xpor
La 0recta ε0, de
+ ejemplo, cuyoregresión
estimador puede insesgado utilizarsedenonuevo sólo para ŷ 0 =colesterol0 + butilizarán
bestimar 1x0la yaxmedia
n
valores1 delx 2colesterol
1los poblacional x + + ...la+ x n HDL obten
de
el IC al 95% para el es valor medio del HDL que
= entre  xlos
i = sujetos .
variable respuesta
para todarespuestaentre los
la recta de sujetos utilizarán
regresión con un
del los valores
determinado
colesterol del colesterol
valor x de HDL
la variableobtenidos
n en
explicativa, los
32 10
n primeros
sino sujetos
de la variable para
[Figura un determinado
10.9 aproximadamente sujetoHDL con aquí] xsobre
= xestudio
0 el índice
0 viene “Europeandado depor
i =1 masa = β0 +on Antioxidants, Myo
y0Study
también para predecir la respuesta individual y0 de 2 un nuevo sujeto dado su valor x0. Según la
con un índice de E(ymasa - ŷcorporal +deβ
= β0lineal, 25 kg/m E(ε0,)Study - β0 - on β1xAntioxidants, E(laε0variable
estructuracorporal,
del modelo de 0 regresión0 )estudio 1x0el+valor
“European subyacente 0 =de ) = 0.Myocardial respuesta Infarction
para un and Cancer o
β x + ε , cuyo que se obtiene
estimador insesgado de calcular es de
La estos
nuevo
media intervalos

es la= b
medida + enb1sucesivos
xde ya que
tendencia valores dentro
central más
determinado sujeto con x = x0 viene dado por y0 = β0 + β1x0 + εthe
1 0 0 0 0 , cuyo
0 Breast“ estimador (EURAMIC), insesgado unutilizada
estudio ymulticént
es de más
La recta de regresión puede utilizarse no sólo para estimar la0 media poblacional de la
de nuevodel
Asimismo,
b x ya1,69
b0 + observado
ŷ0 =rango quedel
como 1el0 valor estimado
-the
0,023⋅25
Breast“
índice de±por 1,96⋅0,013
(EURAMIC),
masa
ŷinterpretación. corporal.
la recta
= (1,09;
de
un Los
regresión
Corresponde
estudio 1,14),multicéntrico
límites en
al de
x es
“centro esta banda
independiente
de
dede casos y controles realiza
gravedad” de losEuropeos
datos deelaI
0 entre 1991 y 1992 en ocho países
0
variable respuesta entre E(ylos0 − sujetos
ŷ 0 ) = β 0con + βun + E(ε 0 ) − β 0 −valor
1 x0determinado β 1 x0 x=0 E( deεla 0 ) variable
= 0.
confianza tienen forma entre 1991 y 1992
de hipérbola en ocho países Europeos e Israel para evaluar el efecto de lo
es sensiblemente más preciso entre yaquellos
queprincipal sulimitación
amplitud con un aumenta
índice gradualmente
de masainfluenciada
corporal
de la nueva observación
Asimismo, como el valor estimado y 0 , se sigueŷ0 por la recta de regresión en x0 es independiente por
que es que está muy de lalos valores extre
explicativa, sino también para predecir la respuesta individual y 0 de un nuevo sujeto
nueva observación 2 y0el, sealeja
sigue
Asimismo,
de conforme
32 kg/m como , x0 sevalor deque
estimadola media ŷ 0 xpor= la
caso, puede 26,0 recta kg/m de 2regresión
no ser del un fiel índice endex0masa
reflejo
es independiente
de lacorporal.
tendenciaAsí, central de la distribuc
2 )  subyacente
2
dado su valor x0. Según la estructura del modelo de regresión 1lineal, ( x 0 el − xvalor
por ejemplo, var(yel0 −ICŷal 0y ),95%= var( ε 0) +
para elvar(valorŷ 0medio
) = σ del 1 +colesterol + HDL ;
2 entre los sujetos 32
de la nueva observación 0 se sigue que  n ( n − 1 ) s
 x 
de la variable respuesta para un determinado sujeto Ejemplo con1.4 x =Enx0este viene y en dado lospor y0 = β0 ejemplos
sucesivos + sobre estimado
con un índice de masa corporal de 25 kg/m2,
2 1 la (recta x 0 − xde) 2regresión
β1xes
0 + decir,
ε 0 , cuyola predicción
var(y
estimador 0 - deŷ una
)
insesgado
0 = nueva
var( ε
es 0 ) observación
de + var(
nuevo utilizarán
ŷ 0 0)ŷ= aσ
= partir
b 
los
0 1+ + bde
valores
1 0x + ya del
quecolesterol 2 
; HDL obtenidos en los 10 pri
 n (n − 1) s x 
176 Pastor-Barriuso R. 1,69 - 0,023⋅25 ± 1,96⋅0,013 = (1,09; 1,14),
estimada está sujeta a dos fuentes de error:estudio la varianza “European inherente Study de on cada respuesta Myocardial Infarction
Antioxidants,
E(y0 - ŷ 0 ) = β0 + β1x0 + E(ε0) - β0 - β1x0 = E(ε0) = 0.
es decir,
individual larespecto
predicción
es sensiblemente a lademás una
recta nueva
preciso
de que
regresiónobservación
entre a partir
aquellos
subyacente con eldeerror
unla índice
recta
en lade de regresión
masa corporal
the Breast“ y(EURAMIC), unestimación
estudio de
multicéntrico de casos y co
explicativa, sino también para predecir la respuesta individual y0 de un nuevo sujeto
Regresión lineal simple
dado su valor x0. Según la estructura del modelo de regresión lineal, el valor subyacente

de la variable respuesta para un determinado sujeto con x = x0 viene dado por y0 = β0 +


2,25

β1x0 + ε0, cuyo


2
estimador insesgado es de nuevo ŷ 0 = b0 + b1x0 ya que

E(y0 - ŷ 0 ) = β0 + β1x0 + E(ε0) - β0 - β1x0 = E(ε0) = 0.


Colesterol HDL (mmol/l)

1,5

Asimismo, como el valor estimado ŷ 0 por la recta de regresión en x0 es independiente

de la nueva1observación y0, se sigue que

 1 ( x0 − x ) 2 

var(y0 - ŷ 0 ) = var(ε0) + var( ŷ 0 ) = σ 1 + +
2
;
n (n − 1) s x2 
0,5  
0,25
es decir, la predicción de una nueva observación a partir de la recta de regresión
20 24 28 32 36
estimada está sujeta a dos fuentes de error: la varianza inherente de cada respuesta
Indice de masa corporal (kg/m²)
individual respecto a la recta de regresión subyacente y el error en la estimación deFigura 10.9
Figura 10.9  Bandas de confianza (área en gris oscuro) y predicción (área en gris claro) al 95% para la recta
de regresión del colesterol
dicha recta. Además,HDLsi elsobre el índice
término de masa
de error corporal
ε0 se en el grupo
distribuye control
de forma del estudio
normal EURAMIC.
(asunción

de normalidad),
es decir, la diferencia
la predicción de una nueva ŷ 0 también seguirá
y0 - observación a partir una
de ladistribución normal,estimada
recta de regresión de tal está
sujeta a dos fuentes de error: la varianza inherente de cada respuesta individual respecto a la
recta de regresión
forma subyacente
que el intervalo y el error al
de predicción en100(1
la estimación
- α)% parade una
dicha recta.observación
nueva Además, si el término
de error ε0 se distribuye de forma normal (asunción de normalidad), la diferencia y0 – ŷ0 también
seguirá una distribución
individual y0 es normal, de tal forma que el intervalo de predicción al 100(1 – α)% para
una nueva observación individual y0 es
2
1 ( x0 − x )
b0 + b1 x 0 ± t n − 2,1−α / 2 s 1 + + .
n (n − 1) s x2

La banda de predicción viene entonces determinada por estos intervalos de predicción en los
33
distintos valores observados x0 de la variable explicativa. En general, la banda de predicción
será substancialmente más amplia que la banda de confianza, particularmente cuando el tamaño
muestral es grande, lo que refleja el hecho de que existe mucha más incertidumbre en la
predicción de la respuesta individual de un único sujeto que en la estimación del valor medio de
la variable respuesta para todos los sujetos con un mismo valor de la variable explicativa.
Cabe destacar, por último, que los intervalos de confianza para el valor esperado de la
variable respuesta se basan únicamente en las asunciones de linealidad y homogeneidad de la
varianza, mientras que los intervalos de predicción para una nueva observación requieren
además de la hipótesis de normalidad, siendo estos últimos incorrectos si la distribución
subyacente de la variable respuesta no es normal.
Ejemplo 10.11  A partir del modelo de regresión lineal del colesterol HDL sobre el
índice de masa corporal se tiene que el intervalo de predicción al 95% para el nivel de
colesterol HDL de un sujeto con un índice de masa corporal x0 es

Pastor-Barriuso R. 177
Ejemplo 10.11 A partir del modelo de regresión lineal del colesterol HDL sobre el

índice de masa corporal se tiene que el intervalo de predicción al 95% para el


Correlación y regresión lineal simple

nivel de colesterol HDL de un sujeto con un índice de masa corporal x0 es

1 ( x − 26,0) 2
1,69 − 0,023 x 0 ± 1,96 ⋅ 0,283 1 + + 0 .
533 532 ⋅ 3,50 2
El cálculo de estos intervalos en distintos valores x0 del índice de masa corporal da lugar
a lacálculo
El banda de predicción en grisenclaro
estos intervalos de la valores
distintos Figura 10.9.
x0 delAlíndice
igual de
quemasa
la banda de confianza,
corporal
la banda de predicción está centrada alrededor de la recta de regresión estimada, pero su
amplitud
da lugar aeslanotablemente mayor alenincorporar
banda de predicción gris claro la
devariabilidad de cada
la Figura 10.9. respuesta
Al igual que laindividual
respecto a su valor esperado. Por ejemplo, el intervalo de predicción al 95% para el nivel
de colesterol
banda HDL delaun
de confianza, sujeto
banda decon 25 kg/mestá
predicción 2
de centrada
índice dealrededor
masa corporal vienede
de la recta dado por
1,69 − 0,023⋅25 ± 1,96⋅0,284 = (0,56; 1,67),
regresión estimada, pero su amplitud es notablemente mayor al incorporar la
que es mucho más impreciso que el intervalo de confianza calculado en el ejemplo anterior
que
paraes
el mucho
valorde
variabilidad más
cadaimpreciso
medio del que
colesterol
respuesta el
HDLintervalo
individual de los
enrespecto
todos confianza
valorcalculado
sujetos
a su con dichoen
esperado. el del índice de
valor
Por
masa corporal (IC al 95% 1,09-1,14 mmol/l).
ejemplo anterior
ejemplo, parade
el intervalo el predicción
valor medioaldel
95%colesterol HDLde
para el nivel encolesterol
todos los HDL
sujetos
decon
un
10.3.5  Evaluación de las 2 asunciones del modelo de regresión lineal simple
dicho valor
sujeto con 25del índice
kg/m dede masade
índice corporal (IC al 95%
masa corporal viene 1,09−1,14
dado pormmol/l).
Los procedimientos de estimación e inferencia derivados en los apartados anteriores se basan
en las asunciones de linealidad, homogeneidad de la varianza y normalidad. La violación de
estas asunciones
10.3.5 Evaluación puede
de las darasunciones
lugar a conclusiones
del modelo erróneas del modelo
de regresión lineallineal,
simple 34
siendo así necesario
evaluar su idoneidad en cada aplicación práctica. Aunque existen diversos tests para contrastar
curvilíneas y con similar dispersión a lo largo de toda la recta. Tal parece ser el caso del
estadísticamente
Los procedimientos cada
de una de las hipótesis
estimación e inferencia delderivados
modelo lineal
en los (véase
apartados referencias
anterioresalsefinal del
tema), en este apartado se presentan algunas técnicas diagnósticas basadas en el análisis gráfico
diagrama de dispersión entre el índice de masa corporal y el colesterol HDL de la
de los en
basan residuos, proponiéndose
las asunciones asimismo
de linealidad, extensiones básicas
homogeneidad del modelo
de la varianza y transformaciones
y normalidad. La de
los datos para acomodar posibles desviaciones de estas asunciones. En particular, se presta
Figura 10.7, donde no se aprecian desviaciones obvias de estas asunciones. En la Figura
especial atención
violación a las hipótesis
de estas asunciones puede dedarlinealidad y homogeneidad
lugar a conclusiones de la
erróneas delvarianza,
modelo ya que las
principales inferencias relativas a la pendiente de la recta de regresión y al valor esperado de la
10.2(d), sin embargo, se muestra un claro ejemplo de violación de la asunción de
variable
lineal, respuesta
siendo son aproximadamente
así necesario evaluar su idoneidad válidas en encada
muestras moderadamente
aplicación práctica. Aunque grandes aunque
la distribución subyacente de la variable respuesta no sea normal.
linealidad, ya que la relación subyacente es visiblemente cuadrática. No obstante, el
existen diversos
El gráfico mástests
simplepara contrastar
para evaluar estadísticamente
el grado de cumplimiento cada unade delas
lasasunciones
hipótesis del de la regresión
gráfico
lineal simplemás esutilizado
el diagrama parade chequear
dispersión las entre
asunciones de la regresión
las variables explicativalineal es el diagrama
y respuesta, junto con
modelo lineal
la recta de (véase estimada.
regresión referenciasSialsefinalcumplen del tema), en este apartado
las hipótesis se presentan
de linealidad y homogeneidadalgunas de la
de dispersión
varianza, los puntosde los diagramaei de
delresiduos = ydispersión
i - ŷ i frente hana los valores predichos
de distribuirse ŷ i = b0 +alrededor
aleatoriamente b1xi por de
técnicas
la recta dediagnósticas
regresión sin basadas en elde
evidencia análisis gráfico
relaciones de los residuos,
curvilíneas proponiéndose
y con similar dispersión a lo largo
de la
toda la de
recta recta. Tal parece
regresión. Este ser el caso
gráfico del diagrama
es equivalente de dispersión
al diagrama entre elentre
de dispersión índicexi ede
yi masa
asimismo
corporal yextensiones
el colesterolbásicas
HDL de dellamodelo
Figuray10.7, transformaciones
donde no se de los datos
aprecian para
desviaciones obvias de
estas
enasunciones.
regresión linealEn lasimple,
Figurapero10.2(d),
tienesin embargo,
la ventaja de se
sermuestra un claro
directamente ejemplo deaviolación
generalizable la
acomodar
de la asunciónposiblesde desviaciones
linealidad, yadeque estasla asunciones. En particular,
relación subyacente se presta especial
es visiblemente cuadrática. No
obstante,
presenciael gráfico
de más de másuna utilizado
variablepara chequear
explicativa en las asunciones
regresión lineal de la regresión lineal es el
múltiple.
atención
diagramaade lasdispersión
hipótesis de de los
linealidad
residuosy ehomogeneidad
= y – ŷ frente de
a la varianza,
los valores ya que lasŷ = b + b x por
predichos
i i i i 0 1 i
la recta de regresión.
Antes de proceder Este gráfico gráfico
al análisis es equivalente al diagrama
de los residuos, de dispersión
es importante describirentre xi e yi en
algunas
principales
regresión linealinferencias
simple,relativas
pero tiene a la
la pendiente
ventaja de de serladirectamente
recta de regresión y al valor
generalizable a la presencia de
másdedesusunapropiedades.
variable explicativa en regresión
Bajo las hipótesis lineal múltiple.
de linealidad y homogeneidad de la varianza, los
esperado de la variable respuesta son aproximadamente válidas en muestras
Antes de proceder al análisis gráfico de los residuos, es importante describir algunas de
sus residuos
propiedades.ei = yiBajo
- ŷ i las
tienen un valor
hipótesis de esperado
linealidadsubyacente
y homogeneidad de la varianza,
moderadamente grandes aunque la distribución de la variable respuestalos noresiduos
ei = yi – ŷi tienen un valor esperado
sea normal. E(ei) = E( yi) − E( ŷ i ) = 0

El gráfico más simple para evaluar el grado de cumplimiento de las asunciones de la


178
y una varianza
Pastor-Barriuso R.
regresión lineal simple es el diagrama de dispersión entre las variables explicativa y
2 1 ( xi − x ) 2 
coni)la= recta
var(e var(yide var( ŷ i ) - estimada.
) +regresión 2cov(yi, ŷSi
i ) se

= σcumplen .
respuesta, junto 1 − las
− hipótesis
2  de
realizar
realizarelresiduos
eldiagnóstico
diagnóstico
residuos sean sean del modelo
comparablesmodelomediante
delcomparables mediante
a distintos
a distintos los residuos
losnivelesresiduos
niveles deestandarizados
la
deestandarizados
variable
la variable explicativa,
explicativa, es preferible
es preferible
valor se agrupan los datos observados. Las medidas de tendencia
E(ei) = E(yi) - E( ŷ i ) = 0
Regresión lineal simple
realizar
realizar
residuos el diagnóstico
elsean diagnóstico
comparables deldel modelo modelo
e
a e mediante
distintos mediante niveles los los e residuos
ede residuos
la estandarizados
variable estandarizados
explicativa, es preferible
stra sirven tanto para resumir losrirresultados =i=
observados
i i como
== para i i
,,
y una varianza 11 ( x( ix i−−x x) ) s s 11−−hhi i 22
realizar el poblacionales
as acerca de losy parámetros diagnóstico s s 11−del − modelo −− mediante
e e los residuos e eestandarizados
una varianza ri correspondientes.
n=rni =(n(n−−1)1s) xs2 ix2 i A = = i i , ,
1 1( x i (−x ix−) 2x )CENTRAL 2
s 1s −1h−i hi
describen los principales estimadores
1.2 MEDIDASsDE
de la tendencia 1 s − TENDENCIA
1 − −
central − de una 1 ( xi − x ) 2 
var(ei) = var(yi) + var( nŷ i )n−(n2cov(y ei−(n1)−s12i,) sŷ2i ) = σ ei 1 − − 2
 2 
.
que
queseseobtienen
obtienendededividir dividirlos residuoseiepor
losresiduos r = x = n, ( n − 1 ) s
i poruna unaestimación dedesusu s desviación
− h típica. El xEl
i x
estimación 1desviación típica.
Las medidas de tendencia 1 central (residuos
x i − informan x ) 2 sean comparables
acerca i
de cuál a distintos
es el valor niveles de la variable expli
más representativo
Así, aun cuando se cumpla la asunción s 1 − −de homogeneidad de la varianza, los residuos ei
términohtendrán
término hi se
que i se
que conoce
se conoce
obtienen
se como
obtienen como de de leverage
eldividir
el leverage
dividir los dederesiduos
residuos
los unauna en por
observación
observación
e nuna
(por − una 1)estimación2
ys yxes es unauna
estimación medida
medida
de su
de desviación
su desviación típica.
típica.El El
diferente varianza
Así, aun cuando se cumpla la asunción derealizar alrededor de los distintos
homogeneidad puntos de la recta
varianza, de regresión
losmediante estimada.
residuos elos i residuos estanda
de una determinada variable o, dicho el dediagnóstico del modelo
i i
forma equivalente, estos estimadores indican
mética Más concretamente, los residuos tenderán a ser mayores en valores centrados que en valores
estandarizada
estandarizada dedela ladistancia
hdistancia entre
entre cada
cada elvalor
leverage valor xixde dees la variable
ladebido
variable a explicativa
explicativa yysu (xmedia
su media x x x muy distante
términotérmino
extremos
tendrán
que sehide se conoce
ila
diferente
obtienen sevariable
conoce
alrededor
como
devarianza como
dividir el los
explicativa.
de qué
alrededor leverageEsto
residuos
valor
idede
se agrupan euna
de
los
i por
una observación
distintos
una observación
losestimación
que los
puntos y puntos
datos observados.
esyde una
es
de lasumedida
una
recta medida
i, yi)de
desviación con
Las medidas
regresión
i típica. El
de x ,tienen mucha influencia encada la estimación ede tendencia ei
ica, denotada por se define como la suma de uno de losde la pendiente, de tal ri =forma que lai recta de = ,
que
quesesetratará
tratará
estandarizadaen
residuos enel
estandarizada
regresión el
estimada.hi Más apartado
apartado
sean
resultante de la
de siguiente.
siguiente.
distancia
comparables
la distancia
tenderá
concretamente, a No
entre
a No obstante,
obstante,
cada
distintos
entre
aproximarse cada
los residuos valor si
niveles si
valor
a el
x el
estos tamaño
de
tenderán xtamaño
de la
la
de
puntos muestral
variablemuestral
variable
la variable
que
a ser mayores es es
explicativa grande
explicativa, grande
explicativa
presentarán y ysu
es yy media
preferible
entoncessu media x
pequeños
( x −x x ) 2
s 1 − h
término secentral
conoce decomolaobjeto
muestra el leverage sirven detantouna i observación
para
i
resumir los unaen
y esresultados valores 1centrados
medida i
el númeroei.de
es dividida por residuos Por ello, y con
observaciones realizadas. de que Silosdenotamos
residuos sean comparables s observados
a distintos 1 − niveles− i como de la para
nonohay
hayvalores n (n − 1) s x 2
valores
variable
que semuy
querealizar
que muy
tratará
se
en
estandarizada
extremos
el
trataráextremos
explicativa,
valores en el
diagnóstico
en
de el de
es
extremos
la
de
apartado la la
apartado variable
del variable
preferible
distancia de siguiente.
modelo explicativa
lasiguiente. explicativa
realizar
variable
entre Noexplicativa.
mediante
cada Noobstante, (observaciones
los
el obstante,
valor
(observaciones
diagnóstico
x residuos
de sila elsivariable
Esto tamaño
eldel
es tamaño con
con
estandarizados
modelo
debido alto
alto
muestral
muestral
a que
explicativa eslos
mediante y grande
essu losyresiduos
grande
puntos
media (xyix,
realizar inferencias acerca de los parámetros
i poblacionales correspondientes. A
muestral y por xestandarizados
i el valor observado para el sujeto i-ésimo, i = 1, ..., n,
leverage),
leverage),noambos
ambos
hay residuos
residuos
valores muy emuy
iey yrirextremos
se
i se
iextremos comportan
comportan
xdesiguiente.la lade
devariable deforma forma análoga.
explicativa análoga.
yno
que hay
i) conse xvalores
i muyen
tratará distante
continuaciónel apartadode
se
tienen
describen
variable
mucha ei que
No
los
explicativa
influencia
obstante,
principales
se obtienen si(observaciones
enel(observaciones
la deestimación
etamaño
estimadores
i
dividir muestral con
los alto
con
deresiduos
de la tendencia
alto
laespendiente,
grandeei por y unadeestimación
central una
de su
dada por r i = = ,
EnEndeterminados casos el gráfico de elos rresiduos estandarizados r1análoga.
sanáloga. hi como
−frente a alos elvalores
determinados casos el gráfico de ilos i residuos estandarizados airiaproximarse
frente los valores
2
leverage),
leverage),
de tal
no hayforma ambos
valores ambos que residuos
muy laresiduos
recta
extremose de
i y riregresión
ysede comportan
se
la 1 resultante
comportan
variable x i de
(término − xforma
explicativade )tenderá
hforma
i se conoce
(observaciones aleverage
estos
con altopuntosde una observación y es u
variable. s 1− −
n (n − 1) s x 2

predichos 1ŷEn n
no x1 + xapreciar
permite + ... xclaramente
+casos las posibles
predichos
x=  ŷ no
En permite
determinados
determinados
quex ipresentarán
leverage),
i i = ambosentonces 2apreciarcasos
residuos
nclaramente
el gráfico
el
. pequeños gráfico de
ei y ri se comportan las los
de posibles
residuos residuos
los edesviaciones
residuos
estandarizada i.de
desviaciones
Por estandarizados
forma estandarizados
ello, de y la
análoga.
dede
con las rasunciones
las
distancia
objeto asunciones
i frente
ri frente
deentrea los
que alos valores
los
cada valores
valor xi de la variable exp
n
que se obtienen 1.2.1
i = 1 n
de dividir Media residuos ei por una estimación de su desviación típica. El término hi
losaritmética
se
dedelinealidad
linealidad que
predichos
predichos
conoceyyEn se obtienen

como
homogeneidad
homogeneidad
determinados
i no
ŷ iel no de
permite dividir
permite
leverage de casos los
de apreciar
la lade apreciar
una
varianza.
varianza.
el residuos
claramente
observación
gráfico ParaParadeeobtener
claramente por
las
yresiduos
iobtener
los que esuna
posibles
las
se una estimación
posibles
una
tratará medida desviaciones
en desviaciones
representación
representación
estandarizados de su desviación
elestandarizada
apartado más de
rmás las
dedelas
clara
i frenteclara
siguiente. típica.
asunciones
asunciones
laa distancia
los No Elentre si el tamaño
obstante,
valores 36
cada valor x de La
a medida de tendencia central más utilizada y de más fácil
i la variable
media explicativa
aritmética, y
denotada su media por x ,quese se
define tratará como en el
la apartado
suma de siguiente.
cada uno deNo los
enentales término
talescircunstancias,
circunstancias,
obstante,
de predichos
linealidad
de linealidad h sees conoce
es aconsejable
si elyŷ ihomogeneidad
i tamañoaconsejable
ynohomogeneidad como
muestral el
dividir
de la leverage
dividir loslos
es varianza.
de grande
la n n
varianza. de una
residuos
residuos
yPara
no no
hay observación
Para r
hay r en
valores
obtener en K K grupos
valores
iobtener grupos
muy
una y es
muy una
dede
extremos
representación
una medida
tamaño
tamaño
extremos
representación de las n n
lamás de
kvariable
másla clara
clara variable
explicativa (observac
permite apreciar claramente las posibles
i desviaciones de k asunciones
explicativa valores
(observaciones
orresponde al “centro de gravedad” de los datos de la muestra. Su muestrales
con alto dividida
leverage), por el
ambos número de
residuos observaciones
e i y r i se realizadas.
comportan de Si denotamos
forma
ordenados
ordenados estandarizada
porpor
análoga. valores
valores de
crecientes
crecientes la distancia
de de ŷ ŷ (por entre
(por cada
ejemplo,
ejemplo, valordeciles)
deciles)
leverage), x de
n residuos y la
y variable
calcular
calcular
ambosri residuos la explicativa
la
ri K media
media ei y rde y
i se
su media
decomportan x
k nkde forma análoga.
en de tales circunstancias,
en linealidad
tales circunstancias, es aconsejable
es iaconsejable de la dividir dividir losPara los nobtener
residuos en en grupos
K grupos tamaño más nclara
tamaño
i
y homogeneidad i varianza. una representación
por n
ón es que está muy influenciada por los valores extremos y, en este el tamaño muestral y por x i el valor observado para el sujeto i-ésimo, i = 1, ..., n,
En
que determinados
se tratará en el casos
apartado el gráfico
siguiente. de Nolos residuos
obstante,
En determinados estandarizados
si el tamaño casos muestral r
el la frente
gráfico es a
grande
de los valores
y
los residuos
ordenados tales ŷpor
ordenados valores
por valores crecientes
crecientes de de ŷkin (por
ŷ idividir
(por ejemplo, ejemplo, n deciles) deciles) yrcalcular
y calcular media
la media nk de estandarizado
i
en
predichos circunstancias, es aconsejable 11 npor laslos residuos i en K grupos de lasdeasunciones
tamaño
i nolapermite media apreciar
vendría dadaclaramente posibles desviaciones
k

er un fiel reflejo de la tendencia central de lardistribución.


linealidad
no hay valores y homogeneidad muy extremos dekrla
=
k = dennk la

varianza.  riri
variable Para obtenerŷ una
explicativa
predichos representación
(observaciones con más altoclara en las tales
i no permite apreciar claramente posibles desviac
ordenados por es valores crecientes dividirdelosŷ ni (por nkejemplo, nk r en deciles) y decalcular la nmedia
k i =i1=1
circunstancias, aconsejable residuos
1 1 n i K grupos tamaño ordenados por
rk =  1
k
ŷi sobre ei y ri sedeciles) rcomportan
k = rde i rforma laxmedia + x 2 + ... + x n
1 i =
leverage),
valores crecientes ambos deresiduos (por ejemplo, n xkdeny=i =klinealidad
calcular xse 1análoga.
i = y homogeneidad .de la varianza. Para obtener una re
i
4 En este y en los sucesivos ejemplos estimadores muestrales,
yylalavarianza
varianza n i =1 1
n
1 nk
os valores del colesterol En determinados
HDL obtenidos casosen los el gráfico10 primeros derklos residuos
=sujetos
enn ktales  rdel estandarizados ri frente a los valores
circunstancias,
i
es aconsejable dividir los n residuos ri en
y layvarianzala varianza La media es la medida 11 nknk i =1
de tendencia central más utilizada y de más fácil
uropean Study on varianza ŷ i Myocardial
predichos
y laAntioxidants, no permite apreciar
22
sInfarction
ks k==   rir2i 2 Cancer
claramente
nnk k i =i1=1 and ordenados
las posibles of por valores desviaciones de las asunciones
crecientes de ŷ i (por ejemplo, deciles) y c
y la varianzainterpretación. Corresponde 1 al “centro
nk nk
1 de gravedad” de los datos de la muestra. Su
“ (EURAMIC), un de linealidad
estudio multicéntrico y homogeneidad de casosde y controles
2
s k2 = 
las kvarianza.
= realizado 
rPara 2 2
i ri obtener una representación más clara
n k ni =k1 i =1
dedelos
losresiduos
residuosenencada cadauno unodedelos
principal los grupos.
grupos.La
limitación Laespresencia
presencia
que está muy dede curvatura
nk curvatura
influenciada enenelelpor gráfico
gráfico dedelos
los valores los extremos 1 y, nk
en este
y 1992 en ochodepaíses en tales
los residuos circunstancias,
Europeos en cadae Israel unopara es
deaconsejable
evaluar
los grupos. dividir
elsefecto
La
k
2
=
1
presencia delos los
r n
i
2 residuos r en K grupos de tamaño
de curvatura i en el gráfico de los
r k = n 
residuos
n k i =1
k
ri
residuosmedios
residuos de los
de los
medios residuosfrente
rkrresiduos enacada
caso, en los
los puede
cadavalores
unouno
valores no
k frente a los valores predichos medios ŷ
deser predichos
los
de
predichos grupos.
un
los fiel
grupos. La nLa
reflejo
medios presencia
k de ŷ=1kla
ipresencia
k
en en de
tendencia
los distintos
loscurvatura
dedistintos
distintos central
curvatura en grupos
grupos el
de
gruposenla gráficoindicará
eldistribución.
gráfico de losdefalta
los de
ordenados por valores crecientes
linealidad en la relación, mientras que la existencia de tendencia de ŷ i (por ejemplo, deciles) y calcular la
en el gráfico de las desviacionesmedia
y la varianza 5
indicará típicas
residuos
falta
indicará falta residuos
de losde residuales
medios
linealidad
de linealidadmedios
residuos kkenkcada rsen frente
r la frente a
relación,
la relación, los a
uno de los valores
los valores
mientras
mientras predichos
grupos. predichos
queque la
Lalapresencia medios
medios
existencia medios
existenciade ŷ de
k de
de
en
ŷ cada
los
en los
tendencia
k tendencia
curvatura grupo
distintos
distintos
enenen aportará
elel grupos
el grupos
gráfico evidencia
de los
de heterogeneidad enEjemplo la varianza. 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
nk
1
indicará
indicará
residuos falta falta
medios de linealidad
de linealidad
rutilizarán
frente en a la
en los relación,
la relación,
valores rkmientras
= mientras
predichos  rimedios
que quela existencia
la existencia
ŷobtenidos de tendencia
k en los distintos
de tendencia en2 el
grupos en 1el nk sujetos
k
Ejemplo 10.12  En la Figura 10.10(a)
los valores delncolesterol k i = 1 HDL
se representa el gráfico de los
en los 373710 sprimeros
k =  ri2 del
residuos
n k i =1
indicaráestandarizados
falta de linealidad ri frente “European
estudio aen loslavalores
relación, predichos
Study mientras
on Antioxidants, ŷi quede lalaregresión existencia
Myocardial lineal del
de tendencia colesterol
Infarction en37 el37
and HDLCancer of
y lasobre varianza el índice de masa corporal. Este gráfico, al igual que el diagrama de dispersión entre
el índice de masa de los residuos en cada10.7, uno parece de los grupos. La presencia de curvat
thecorporal
Breast“ y(EURAMIC), el colesterol HDL
un estudio de la multicéntrico
Figura de casos compatible
y controles con realizado
las asunciones de linealidad y homogeneidad de la varianza. Para realizar una evaluación 37
1 nklas2medios r s
más detallada, en la Tabla 10.4 se presentan  ri Europeos medias y desviaciones típicas de de los ŷ k en l
losmedios
2 residuos frente a los valores predichos
entre 1991 y 1992 en s k ocho= países k e Israel para evaluar elk efecto
n k i =1
indicará falta de linealidad en la relación, mientras
Pastor-Barriuso que la existen
R. 179
5
de los residuos en cada uno de los grupos. La presencia de curvatura en el gráfico de los
modelos pueden considerarse como casos particulares nk nk de la regresión lineal
2 2 11
s ks k= = ri ri 2 2

múltiple cuyas variables explicativas kn ki =1i =1


sonndistintas potencias de una misma
Correlación y regresión lineal simple

variable
dedeloslosresiduos básica.
residuos enencadacadauno unodedelos losgrupos.
grupos.LaLapresencia
presenciadedecurvatura
curvaturaenenelelgráficográficodedeloslos
residuos estandarizados por deciles de los valores predichos. La Figura 10.10(b) de los
residuos
residuos
residuos mediosrkrkfrente
medios
medios frenteaaalos
frente losvalores
los valorespredichos
valores predichosmedios
predichos mediosŷ kŷde
medios kenen losdistintos
los
cada distintos
decil grupos
grupos
muestra indicios
1.2 MEDIDAS DEde TENDENCIA CENTRAL
antioxidantes en el riesgo de desarrollar
una posible relación cuadrática
[Figura 10.10 entre el índice de masa
aproximadamente aquí] corporal y el colesteroldeHDL,
un primer infarto agudo miocardio en
ya quefalta
indicará
indicará los
faltaresiduos del modelo
dedelinealidad
linealidad lineal
enenlalarelación,
relación, tienden a serque
mientras
mientras positivos
que para valores
lalaexistencia
existencia predichos
dedetendencia
tendencia enenelaltos
el
Las medidas de tendencia y bajos central
del colesterol hombres
informan HDL adultos.
y negativos
acerca Los
de cuál paravalores obtenidos
es elvalores
valor más fueron
predichos 0,89, 1,58, 0,79,
intermedios. Por otra
representativo 1,29, 1,42, 0,84,
parte,
en la Figura 10.10(c) no [Tabla 10.4 aproximadamente
se aprecian desviaciones deaquí] la asunción de homogeneidad de la
de una determinadavarianza, variable o, dadodicho 1,06,
quedelas 0,87, 1,96
desviaciones
forma y 1,53
equivalente, mmol/l.
típicas La
estosresiduales media
estimadores sk de
son lossimilares
indican niveles del en colesterol
los distintosHDL en
3737
deciles de los valores predichos.
alrededor de qué valor se agrupanmás estos
los datos 10 observados.
participantesLas es
La alternativa
Ejemplo 10.13 Lossimple nivelespara acomodar medidas
de α-tocoferol una de tendencia
relación
y β-caroteno cuadrática entre el índice de masa
en tejido adiposo
corporal y el colesterol HDL es extender el modelo lineal a un modelo polinomial de segundo
central de la muestra sirven tanto = βpara resumirx2los resultados
1 10 elobservados 1,como
58 + ...para
0,89 +cuadrático +x21además
,53
orden
presentan E(Y|x) 0 + β1x + βasimétricas
distribuciones 2 , que incluye
x = enlos
término
x i 700
= controles del estudio=EURAMIC,
del término lineal
1,223 mmol/l.
x del índice de masa corporal. La relación 10 i =1 resultante entre 10 ambas variables ya no será una
realizar inferenciaslínea acercarecta de los sinoparámetros
una poblacionales
parábola, cuya correspondientes.
curvatura vendrá A
determinada porLaelmedia
coeficiente β2
con un marcado sesgo positivo en el caso del β-caroteno (Figura 4.3). y
asociado
residuos sean comparables al término
a distintos niveles cuadrático. El ajusteesdepreferible
de la variable explicativa, los modelos polinomiales se tratará en el Tema
continuación se describen 11 ya que losestos
principales
modelos estimadores
pueden considerarsede la tendencia como centralparticulares
casos de una de la regresión lineal
la del
desviación La media
típicalosdel aritmética
α-tocoferol presenta
son x = 146,1las siguientes
y sx = propiedades:
87,6 μg/g y del β-
realizar el diagnóstico modelo mediante residuos estandarizados
múltiple cuyas variables explicativas son distintas potencias de una misma variable básica.
variable.
• Cambio de origen (traslación). Si se suma una constante a cada uno de los datos
caroteno y = 0,37ei ys = = 0,40
ei μg/g, y el coeficiente de correlación de Pearson
Ejemplo 10.13  Los 2yniveles
r i =
s 1
de, a-tocoferol y b-caroteno en tejido adiposo presentan
− hi
1 ( xi − x )
1.2.1 Media aritmética distribuciones de una muestra,
s 1 − −asimétricas
n (n − 1) s x2
en losla700 media de la muestra
controles resultante
del estudio EURAMIC, es igual cona la
unmedia
marcado inicial más la
entre ambas variables es r = 0,45. A partir de estos datos
sesgo positivo en el caso del b-caroteno (Figura 4.3). La media y la desviación típica del se estima que la recta de
La media aritmética, denotada por
a-tocoferol son xconstante
,=se define
146,1
que se obtienen de dividir los residuos ei por una estimación
scomo
yutilizada;
x= 87,6 lasimg/g
suma
yi = yxde +cada
idel
de su desviación típica. El
uno de los
cb-caroteno
, entonces y == 0,37x + yc.syUn cambio
= 0,40 mg/g,deyorigen
el que
regresión del β-caroteno sobre el α-tocoferol es
coeficiente de correlación de Pearson entre ambas variables es r = 0,45. A partir de estos
valores muestrales
término datos
hi se conocedividida
como el seleverage
estima
por el de que
número la
unarealiza
se recta
de con
observación deyfrecuencia
regresión
es una medidadel
observaciones b-caroteno
realizadas.
es el centrado sobre
Si denotamos el a-tocoferol
de la variable, es
que consiste en restar a
estandarizada de la distancia entre cada valor xi de la variableŷexplicativa = 0,072y +su 0,0021x,
media x
por n el tamaño muestral y por xi el cada valorvalorobservado
de la para el sujeto
muestra su i-ésimo,
media. i = 1,de
La media n, variable centrada será, por
...,una
con una desviación típica residual de los niveles de b-caroteno alrededor de dicha recta de
que se tratará en el apartado siguiente. No obstante, si el tamaño muestral es grande y
s = 0,36 mg/g. El error estándar de la constante es SE(b0) = 0,026 y de la pendiente SE(b1) =
la media vendría dada conporuna desviación típica
tanto, igualresidual
a 0. de de los niveles de β-caroteno alrededor de dicha
no hay valores muy0,00015.
extremos deAsí, se tiene
la variable que
explicativaincrementos
(observaciones una
con altodesviación típica (87,6 mg/g) en el a-tocoferol
se asocian con un aumento deanáloga.
87,6 ∙ 0,0021 = 0,18 mg/g en el nivel medio de b-caroteno, con
recta ede i y rsi se
= comportan μg/g.
0,36Cambio El es SE(b0) = uno 0,026 deylosde datos
la
x1deerror
x 2 +estándar
+ x n de la±constante
leverage), ambos residuos de forma escala
un IC al 95% •comprendido 1 n +entre ...(unidades).
87,6(0,0021 Si se ∙multiplica
1,96   0,00015) =cada (0,15; 0,21). de una
x
En determinados casos el gráfico denlos
= =1residuos
x i =
n sertiene
estandarizados
.
i frente a los valores
pendiente SE(b1i)muestra = 0,00015. por unaAsí, constante,que la incrementos
media de la 0,5 de una desviación
muestra resultante es igual a la media
4
predichos ŷ i no permite apreciar claramente las posibles desviaciones de las asunciones

Lademedia esyla típica (87,6


medida μg/g)
dedetendenciainicial α-tocoferol
encentral
el por la
más se asocian
constante consiun
utilizada; yi aumento
=r cxi, 0entonces y = c x .=
de 87,6⋅0,0021
linealidad homogeneidad la varianza. Para obtener unautilizada y de
representación másmás
clarafácil k
2
interpretación. 0,18
en tales circunstancias, es μg/g
Corresponde alen“centro
el
aconsejable nivel demedio
Cambio
• dividir los deriβ-caroteno,
ngravedad”
simultáneo
residuos ende decon
losorigen
datos
K grupos
de yun
de nkIC
la al Si
95%
muestra.
escala.
tamaño comprendido
se Su
-0,5 multiplica cadaentre
uno de los datos de
ordenados por valoresr crecientes de ŷ i (por ejemplo, deciles) y calcular la media 0,9 1 1,1 1,2
principal limitación87,6(0,0021
esi que está muy influenciada
una =por
muestra por
± 1,96⋅0,00015) losconstante
una
(0,15; valores extremos
0,21). y, en este
y al resultado se le suma
(b)otra constante, la media
0
1 nk 1,5
caso, puede no ser un
Unafiel reflejo
simple rde la
k =de
inspección
n
muestra
tendencia
la ri central
del diagrama de dispersión
resultante
de la
esdistribución.
igual a la media
entre los inicial
nivelespor
de la primera constante, más la
α-tocoferol
k i =1
sk 1
-2
y la varianza y β-caroteno de segunda
la Figuraconstante; si yi = c1xuna
10.11(a) evidencia i + cclara
2, entonces y =de
violación c1la
x hipótesis
+ c2 . de
Ejemplo 1.4 En este
-3 y en los sucesivos ejemplos sobre estimadores muestrales,
0,5
se
homogeneidad 0,8 2 de1la
s k = 0,9
n
varianza,
k
1 ya que
1,1 hay 1,2mayor variabilidad
1,3 de
0,9 los puntos
1 1,1 1,2
utilizarán los valores del colesterol 
Ejemplo ri 2
n k i =1 HDL 1.5obtenidos
Para en los 10los
transformar primeros
valores sujetos del
del colesterol HDL de mmol/l a mg/dl se
ŷi ŷk
39
(a) (c)
deestudio
los residuos en cada uno Study
“European on Antioxidants,
de los grupos. multiplica de Myocardial
La presencia por el factor
curvatura en eldeInfarction
de los and
conversión
gráfico Cancer
38,8. Así, of
utilizando la propiedad del
Figura 10.10  Gráfico de los residuos estandarizados ri frente a los valores predichos ŷi (a), así como de las me-
the Breast“
residuos dias r(EURAMIC),
medios k (b) y desviaciones
frente unpredichos
a los valores estudio
típicas
cambio multicéntrico
smedios
k (c)
dede ŷlos residuos
k en
escala, los deestandarizados
casos
ladistintos
media del ycolesterol
grupos controles realizado
por deciles
HDL de
enlos valores
mg/dl se predichos
10.10 de la
calcularía
Figura
regresión lineal del colesterol HDL sobre el índice de masa corporal en el grupo control del estudio EURAMIC.
indicará falta de linealidad en la relación, mientras que la existencia de tendencia en el
entre 1991 y 1992 en ocho países Europeosaepartir
directamente Israelde
para evaluarenelmmol/l
su media efecto de los 1,223⋅38,8 = 47,45 mg/dl.
como
180 Pastor-Barriuso R. 37
5 6
1 k1 2nk 2
=s1k2 =s k2i r1,1
1 r1,1
0,8 0,8 0,9 0,9 1,2 1,2 1,3 que
1,3 se tratará
0,9 0,9 1en el
1 1,1apartado
1,11,2 1,2 siguiente. No obstante, si
n n
i
n
i =1
1 nk1 nk k ŷi k ŷi =i1 ŷk ŷk 1 k1 nk
rk = rk = ri ri rk = rk = ri ri
n k i =n1k i =1 (a) (a) no hay valores muy (c) (c)extremos
nRegresión de la variable explicativ
k i =n1 k i =1lineal simple
de los residuos en cada uno de los grupos. La presencia de curvatura en el gráfico
de los residuos en cada uno de los grupos. La presencia de curvatura en el gráfico de losde los

y la yvarianza leverage), ambos


i frente a los valores predichos
rvarianza
y la yvarianza
laen ŷi residuos
Figura 10.10 Gráfico de los residuos estandarizados r frente a los valores predichos ŷ (a), así como de las
Figura 10.10 Gráfico de los residuos estandarizados (a), Figura
así como i ylasri
10.10e10.10
de se comportan de form
la varianza
residuos medios
medias
residuos rk (b)
medios
medias frente
rky (b) ay los
frente avalores
desviaciones predichos
los típicas
valores
desviaciones sk (c)sde medios
los
predichos
típicas residuos
medios
i
ŷ kestandarizados
los
endistintos
por grupos
ŷ kestandarizados deciles
los distintos
i
de losdevalores
por grupos
Figura
predichos
k (c) de los residuos deciles los valores predichos
deTabla
lade 10.4 
regresión
la regresión Media
lineallineal y desviación
del colesterol HDLHDL
del colesterol sobresobretípica
el índice dede los
de masa
el índice residuos
corporal
masa en elen
corporal estandarizados
grupo control
el grupo del estudio
control r
del estudio
EURAMIC.
EURAMIC. En determinados casosnk elnkigráfico
1 1 2 2 de los residuos es
indicará faltapor
indicará falta deciles
de linealidad de
en
de linealidad 2 lalos
en
2 la valores
1relación, nk
2 predichos
2 mientras
1relación, n
que que
mientras ŷlai de
la existencia la regresión
de tendencia
existencia lineal
de tendencia dels k2 colesterol
en elen el
 deilosi
s k y=
k
= r
n k i =n1ky
2
Tabla 10.410.4 s
Media= r
desviación ri típica de los
de residuos estandarizados ri por
ri deciless = r
HDL Tabla
sobre
k
el Media
índice
i desviación
i =de masa típica
corporal los residuos
enHDLelHDL estandarizados
grupo control del nk kdei =n1los
por deciles
estudio k i =1
valores predichos
valores predichosŷi de ŷla regresión
de la regresión
1 lineal del
lineal colesterol
del colesterol sobre el
sobreíndice
el de
índice masa
predichos ŷ i no permite corporal
de corporal
masa apreciar claramente las posib
EURAMIC.
i
en elengrupo control
el grupo del estudio
control del estudio EURAMIC.
EURAMIC. 37 37
de los
deresiduos en cada
los residuos uno uno
en cada de los
de grupos.
los La
grupos. presencia
La presencia de de los
curvatura
de de
en
curvatura residuos
los
el gráfico
en el endecada
residuos
gráficoen
los
de uno
cada
los de los
uno degrupos.
los grupos. La presencia
La presenciade curvatura en elengráfico
de curvatura el grá
Valores
Valores predichos
predichos
Valores (mmol/l)
predichos(mmol/l)
(mmol/l) Residuos
Residuos estandarizados
estandarizados
Residuos estandarizados
de linealidad y homogeneidad de la varianza. Para ob
DecilDecil
(k) (k) Desviación típica
Desviación (sk) (smedios
típica
residuos medios
residuos rk frente
medios a Decillos(k)
losavalores
rk frente predichos
valores Media
Media
medios
predichos (( ŷ k )) en
Media
medios )residuos
( ŷ los Media
residuos
distintos ( r ) frente
Media
medios Media
medios
grupos
k en los distintos grupos
k
( r ) frente
k
Desviación
a los
avalores
los valorestípica
predichos (skk)) medios
predichos ŷ k en
ŷ klos
endistintos grupg
los distintos
< 0,98 0,930,93 0,120,12 en tales circunstancias,
0,950,95
0,95 es aconsejable dividir los n re
< 0,98
< 0,98 0,93 0,12
0,98–1,03 1,00 indicará falta
-0,03
indicará de
faltalinealidad
de en
linealidad la
1,00
enrelación,
la mientras que la existencia de tendencia
relación,
indicará falta de linealidad en
indicará falta de linealidad la relación,
0,98–1,03 mientras que
1,00
en la relación, mientras
0,98-1,03 la existencia de tendencia
que la existencia de tendencia
1,00 -0,03 en el
– 0,03 en el 1,001,00 mientras que la existencia de tenden
1,03–1,05
1,03–1,05
1,03-1,05 1,041,04
1,04 0,05 0,05 ordenados
0,05 1,05 1,051,05 crecientes de ŷ (por ejemplo,
por valores i
1,05–1,07
1,05-1,07
1,05–1,07 1,061,06
1,06 0,080,08 0,08 0,900,900,90
37 37
1,07-1,10 1,09 – 0,05 1,04
1,10-1,12 1,11 – 0,21 0,99
1 nk
26 26 1,12-1,13
residuos sean comparables
1,12
1,13-1,16a distintos niveles de la variable explicativa,0,09
1,14
– 0,12
es preferible
1,02
1,15
r k =
n k i =1
ri 
1,16-1,19 1,17 – 0,15 0,85
realizar el diagnóstico del modelo mediante1,22
≥ 1,19 los residuos estandarizados 0,20 1,01
y la varianza
ei ei
Una simple inspección
ri = del diagrama= de dispersión
, entre los niveles de a-tocoferol y
1 ( xi − x ) 2 s 1 − hi
b-caroteno de la Figura s 1− −10.11(a) evidencia una clara violación de la hipótesis de homogeneidad 1 nk 2
n (n − 1) s x2
de la varianza, ya que hay mayor variabilidad de los puntos alrededor de la recta de regresións k2 =  ri
n k i =1
para valores altos del a-tocoferol que para valores bajos. Esta heterogeneidad se hace aún
que se obtienen de dividiren
más evidente los la
residuos
Figuraei por una estimación
10.11(c), dondedesesuobserva
desviación típica.laEldesviación típica s de los
cómo k
residuos estandarizados aumenta linealmente con
término hi se conoce como el leverage de una observación y es una medida
los
dedeciles
los de los
residuos valores
en cada predichos.
uno de los grupos. La presenc
Por otro lado, la Figura 10.11(b) no muestra una curvatura clara en la relación, pero sí se
estandarizada de la distancia entre cada valor xi de la variable explicativa y su media x
aprecia una cierta tendencia lineal negativa de los residuos residuos medios rk conforme aumenta
frente a los valores predichos med
el valor
que se tratará en el predicho. Esto podría
apartado siguiente. deberse
No obstante, si el atamaño
que algunas observaciones
muestral es grande y con valores extremos
de a-tocoferol y b-caroteno tienen excesiva influencia en la estimación
indicará falta de linealidad de laen
pendiente,
la relación, mientras qu
no hay valores muy extremos de la variable explicativa (observaciones con alto
produciendo una sobreestimación de la misma que da lugar a residuos positivos para
valores predichos bajos y residuos negativos para valores predichos altos. La identificación
leverage), ambos residuos ei y ri se comportan de forma análoga.
de observaciones influyentes se abordará en mayor detalle en el siguiente apartado.
En determinados casos el gráfico de los residuos estandarizados ri frente a los valores
1,6 0,5
predichos ŷ i no permite apreciar claramente las posibles desviaciones de las asunciones

k r 0
de linealidad y homogeneidad de la varianza. Para obtener una representación más clara
1,2
β-caroteno (μg/g)

en tales circunstancias, es aconsejable dividir los n residuos ri en K grupos de tamaño


-0,5nk
0,1 0,3 0,5 0,7
por valores crecientes de ŷ i (por ejemplo, deciles) y calcular la media
ordenados 0,8
(b)
nk
1 2
0,4
rk =
nk
r
i =1
i

sk 1
y la varianza
0 0
0 100 1 nk 2
s k2 = 200 ri 300 400 0,1 0,3 0,5 0,7
n k i =1
α-tocoferol (μg/g) ŷk
(a) (c)
de los residuos en cada uno de los grupos. La presencia de curvatura en el gráfico de los
Figura 10.11  Regresión lineal del β-caroteno sobre el α-tocoferol en el grupo control del estudio EURAMIC (a), junto
con las medios
residuos medias rk (b) y desviaciones
frente a los valorestípicas sk (c)medios
predichos de los residuos
ŷ k en losestandarizados por deciles de los valoresFigura
distintos grupos predichos.
10.11

indicará falta de linealidad en la relación, mientras que la existencia de tendencia en el Pastor-Barriuso R. 181

37
El segundo procedimiento para tratar con varianzas heterogéneas es encontrar una
Correlación y regresión lineal simple

transformación de la variable respuesta que estabilice la varianza y ajustar el modelo

lineal
En a esta variable
presencia transformada.
de heterogeneidad de La selecciónlos
la varianza, de estimadores
la transformación adecuada
puntuales b0 y bsuele
1, así como
la propia recta de regresión estimada ŷ = b0 + b1x, continúan siendo insesgados, pero la varianza
basarse
residual en lasesgada
s2 está relaciónyaexistente entre la varianza
que infraestima residual
la variabilidad deylaelvariable
valor esperado
respuesta dealrededor
la de
unos puntos de la recta de regresión y la sobreestima en otros. En consecuencia, los errores
variable
estándar de respuesta. En el caso
los estimadores no sonmás frecuente
correctos de que
y sus la desviación típica
correspondientes residual
intervalos tienda a y
de confianza
tests de hipótesis dejan de ser válidos. En general, existen dos procedimientos alternativos para
aumentar
tratar linealmente
con varianzas con el valor
heterogéneas. El predicho (tal como
primer método ocurre
consiste enenrealizar
la regresión del β- lineal
una regresión
ponderada, que es una extensión del modelo lineal ordinario donde cada observación de la
caroteno
variable sobre el
respuesta α-tocoferol),
recibe la heterogeneidad
un peso inversamente de la varianza
proporcional se resuelve
a su varianza utilizando
estimada la
alrededor
de la recta de regresión. Así, cuanto más precisa sea una observación, mayor será su peso en la
transformación
estimación de la rectalogarítmica
de regresión.
, dadoEnque
el ejemplo anterior,
el logaritmo de la la regresión
respuesta linealentonces
tendrá ponderada unadel
b-caroteno sobre el a-tocoferol otorgaría más peso a los puntos con valores bajos del a-tocoferol
quevarianza
a aquellos con valores altos,
aproximadamente ya que los
constante. Estaprimeros presentan
transformación menor variabilidad
logarítmica produce elen el nivel
de b-caroteno. Las técnicas de regresión lineal ponderada pueden consultarse en los textos
mismo efecto
específicos en cualquier
de regresión base
citados en yeste
sólo puede aplicarse a variables respuestas positivas.
tema.
El segundo procedimiento para tratar con varianzas heterogéneas es encontrar una
Además de homogeneizar la varianza, la transformación logarítmica también suele
transformación de la variable respuesta que estabilice la varianza y ajustar el modelo lineal a
esta variable transformada. La selección de la transformación adecuada suele basarse en la
emplearse para normalizar variables respuestas sesgadas positivamente, así como para
relación existente entre la varianza residual y el valor esperado de la variable respuesta. En el
caso más frecuente de que la desviación típica residual tienda a aumentar linealmente con el
linealizar relaciones con pendiente monótonamente creciente.
valor predicho (tal como ocurre en la regresión del b-caroteno sobre el a-tocoferol), la
heterogeneidad
Para volver ade la
la el varianza
escala se resuelve
original, se tomautilizando la transformación
la exponencial logarítmica, dado que
Aun cuando uso de una respuesta logarítmica esté en ambos lados
plenamente de esta igualdad,
justificado en
el logaritmo de la respuesta tendrá entonces una varianza aproximadamente constante. Esta
transformación
resultando logarítmica
que la media produce el mismo efecto en cualquier base y sólo
comopuede
la aplicarse a
términos estadísticos, losgeométrica
resultados de
dellamodelo
variable respuesta
transformado (definida
han de interpretarse en la
variables respuestas positivas. Además de homogeneizar la varianza, la transformación
logarítmica
exponencial también
de de suelede los
la media emplearse paravéase
logaritmos; normalizar
Apartado variables respuestas
funciónquesesgadas
escala original la variable respuesta. El modelo en escala1.2.3) es una
logarítmica asume el
positivamente, así como para linealizar relaciones con pendiente monótonamente creciente.
exponencial
Aun
valorcuando
esperado de la
el delvariable
uso de unaexplicativa,
logaritmo respuesta logarítmica
de la variable esté
respuesta plenamente
Y cambia justificado
linealmente con en
la términos
estadísticos,
Para volverlosa resultados del modelo
la escala original, transformado
se toma han de
la exponencial eninterpretarse
ambos ladosen de la escala
esta original
igualdad,
de variable
la variable respuesta. El modelo en escala logarítmica asume
explicativa X, EG(Y|x) = exp{E(logY|x)} = exp(β0 + β1x). que el valor esperado del
logaritmo de laque
resultando variable respuesta
la media Y cambia
geométrica de lalinealmente con la variable
variable respuesta como la X,
(definidaexplicativa

Así, el modelo E(logY|x) = β0 + 1 x.


βtérminos
exponencial deenla la escala
media deoriginal se interpreta
los logaritmos; véase en
Apartado de la es
1.2.3) media geométrica de
una función
41
Para volver a la escala original, se toma la exponencial en ambos lados de esta igualdad, resultando
quela
lavariable
exponencial respuesta, quelavaría
de la variable
media geométrica de exponencialmente
explicativa,
variable concomo
respuesta (definida la variable explicativa.
la exponencial de laElmedia de los
logaritmos; véase Apartado 1.2.3) es una función exponencial de la variable explicativa,
coeficiente β1 asociado a la variable explicativa tiene entonces una interpretación
EG(Y|x) = exp{E(logY|x)} = exp(β 0 + β 1 x).
Así,distinta de la en
el modelo habitual ya que
la escala su exponencial
original corresponde
se interpreta en términosa lade
razón de medias
la media geométrica de la
Así, elrespuesta,
variable modelo enquela escala original se interpreta
varía exponencialmente conenlatérminos
variable de la media geométrica
explicativa. de β1
El coeficiente
geométricas
asociado de Y cuando
a la variable X aumenta
explicativa una unidad,
tiene entonces una interpretación distinta de la habitual ya que
la variable respuesta,
su exponencial corresponde quea varía exponencialmente
la razón con la de
de medias geométricas variable explicativa.
Y cuando X aumenta Eluna unidad,
E G (Y | x + 1)
coeficiente β1 asociado a la variable
= exp{βexplicativa tiene
0 + β 1 (x + 1) − (β entonces
0 + β 1 x)} una interpretación
= exp( β 1 );
E G (Y | x)
distinta de la habitual ya que su exponencial corresponde a la razón de medias
es decir, 100{exp(β 1) – 1} representa el cambio porcentual en la media geométrica de Y por
cadaes incremento de una
decir, 100{exp( β1)unidad en X. Esteelcambio
- 1} representa cambiorelativo se asume
porcentual en la constante a lo largodedeYtodo
media geométrica
geométricas
el rango de Y cuando
de la variable X aumenta una unidad,
explicativa.
por cada incremento de una unidad en X. Este cambio relativo se asume constante a lo
E G (Y | x + 1)
182 Pastor-Barriuso R.
largo de todo el rango = exp{β0 + β1(x + 1) - (β0 + β1x)} = exp(β1);
E G (Yde| x)la variable explicativa.
tocoferolLa
respuesta. delrazón
ejemplo
de anterior se observó unasociada
medias geométricas aumentoalineal de la desviación
un aumento típica
de c unidades
Regresión lineal simple
enresidual conforme
la variable aumentaba
explicativa vieneeldada
valorpor
predicho, lo que sugiere la utilización de

una transformación logarítmica de la variable respuesta. La Figura 10.12(a)


Ejemplo 10.14  y G (En
x +elc)análisis de regresión lineal del b-caroteno sobre el a-tocoferol del
= exp{b 0 + b1(x + c) - (b0 + b1x)} = exp(cb1).
ejemplo
muestraanterior
la recta se
de observó
regresión
y G ( x) unestimada
aumento lineal
entre de la desviación
el logaritmo típica residual
del β-caroteno y el α- conforme
donde el error
aumentaba el estándar de la constante
valor predicho, SE(b0) =la0,055
lo queessugiere y de la pendiente
utilización SE(b1)
de una transformación
logarítmica
tocoferol, de la variable respuesta. La Figura 10.12(a) muestra la recta de regresión
=Así, por ejemplo,
0,00032.
estimada Aunque
entre porel cada
ajusteincremento
el logaritmo se ha
del de una
realizado
b-caroteno yeneldesviación
escala típica c =el87,6
logarítmica,
a-tocoferol, μg/gtiene
modelo en el
Glog y = −1,91 + 0,0040x,
una
nivelinterpretación directa
de α-tocoferol, en términos
la media de lademedia
geométrica geométrica
β-caroteno de la
aumenta unvariable
donde el error estándar de la constante es SE(b0) = 0,055 y de la pendiente SE(b1) =
0,00032. Aunque
respuesta. La razóneldeajuste
100{exp(87,6⋅0,0040) 1} =se100(1,42
-medias ha realizado
geométricas en escala
asociada
- 1) = 42%. logarítmica,
a un
Este elcmodelo
aumento deporcentual
incremento unidadestiene una
en
interpretación directa en términos de la media geométrica de la variable respuesta. La
razón
en
la de medias
la variable
media geométricas
explicativa
geométrica asociada
viene
de β-caroteno a un aumento
dadapermanece
por de c unidades
constante a travésen
delatodo
variable explicativa
el rango
42
viene dada por
observado delyα-tocoferol.
G ( x + c)
Como consecuencia, la tendencia resultante en la
= exp{b0 + b1 (x + c) − (b0 + b1 x)} = exp(cb1 ).
y G ( x)
escala original del β-caroteno es exponencial, tal como se muestra en la Figura
Así, por ejemplo, por cada incremento de una desviación típica c = 87,6 mg/g en el nivel de
a-tocoferol,
Así, la media
por ejemplo,
10.12(b). por geométrica de b-caroteno
cada incremento aumenta un
de una desviación 100{exp(87,6 
típica en el– 1} =
∙ 0,0040)
c = 87,6 μg/g
100(1,42 – 1) = 42%. Este incremento porcentual en la media geométrica de b-caroteno
permanece
nivel
El 95%constante
al α-tocoferol,
ICde la amedia
para la razón través de todo
geométrica
de medias el β-caroteno
de rangoasociada
geométricas observado
aumenta del
a un aumento de 87,6 Como
un a-tocoferol.
consecuencia, la tendencia resultante en la escala original del b-caroteno es exponencial,
tal como
μg/g en elseα-tocoferol
muestra en-se
100{exp(87,6⋅0,0040) la Figura
1}calcula 10.12(b).
multiplicando
= 100(1,42 - 1) = 42%.primero los límites del
Este incremento intervaloen
porcentual
El IC al 95% para la razón de medias geométricas asociada a un aumento de 87,6 mg/g en
para
la β1 por
el media
a-tocoferoldicho
geométrica incremento
de β-caroteno
se calcula y después
multiplicando exponenciando,
permanece
primero constante
los límitesa través de todopara
del intervalo el rango
β1 por dicho
incremento y después exponenciando,
del α-tocoferol.
observadoexp[c{b ±t Como consecuencia,
SE(b )}] la tendencia
= exp{87,6(0,0040 resultante en la
± 1,96⋅0,00032)}
1 698;0,975 1
= (1,34; 1,50),
escala original del β-caroteno es exponencial, tal como se muestra en la Figura
de donde se concluye con una confianza del 95% que la media geométrica de b-caroteno
10.12(b).
aumenta entre un 34 y un 50% por cada incremento de 87,6 mg/g en el nivel de a-tocoferol.
de
Estedonde
cambiose concluye
relativo es conmuyunasignificativo
confianza deldado 95%que queellacontraste
media geométrica
bilateral dedelaβ-hipótesis
El ICHal0:95%
nula β1 = para la razónelde
0 mediante medias geométricas asociada a un aumento de 87,6
estadístico
caroteno aumenta entre un 34 y un 50% por cada incremento de 87,6 μg/g en el
μg/g en el α-tocoferol se calcula bmultiplicando
0,0040 primero los límites del intervalo
t= 1
= = 12,44
nivel de α-tocoferol. Este cambio SE (brelativo
1) 0,00032
es muy significativo dado que el
arrojaβ1un
para por dicho
valor P =incremento y después
2P(t698 ≥ 12,44) ≈ 2{1 exponenciando,
– F(12,44)} < 0,001.
contraste bilateral de la hipótesis nula H0: β1 = 0 mediante el estadístico
arroja un
Como valor
cabía P = 2P(t
esperar, la 698 ≥ 12,44)de≈homogeneidad
hipótesis 2{1 - Φ(12,44)}de<la0,001. varianza se hace mucho más
exp[c{b
plausible utilizando1 ± t
la698;0,975 SE(b )}]
escala logarítmica
1 = (paneles a y c de±la1,96⋅0,00032)}
exp{87,6(0,0040 Figura 10.13). Sin embargo,
Como cabía esperar, la hipótesis de homogeneidad de
la curvatura de los residuos de la Figura 10.13(b) sugiere que el efecto la varianza se hace
del mucho
a-tocoferol no
= (1,34; 1,50),
es lineal en el logaritmo del b-caroteno o, dicho de forma equivalente, la 43 relación
más plausible utilizando la escala logarítmica (paneles a y c de la Figura
subyacente entre el a-tocoferol y el b-caroteno no parece responder fielmente a un modelo 10.13).
exponencial.
de Así, la con
donde se concluye transformación
una confianza logarítmica
del 95% que delalamedia
variable respuesta
geométrica de β-elimina la
Sin embargo, la curvatura de los residuos de la Figura 10.13(b) sugiere
heterogeneidad de la varianza pero introduce una desviación de la asunción de linealidad. que el
Como veremos
caroteno aumenta másentreadelante, yeste
unes34lineal
un en problema
50% por cadapodría paliarsedetransformando
incremento 87,6 μg/g de
en eltambién la
efecto del α-tocoferol no el logaritmo del β-caroteno o, dicho
variable explicativa para restaurar la linealidad en la relación. Alternativamente, se podría
haber ajustado un modelo de regresión lineal ponderado entre el a-tocoferol y el
nivel α-tocoferol.laEste
formadeequivalente, cambio
relación relativo es
subyacente muy
entre el significativo
α-tocoferol ydado que el no
el β-caroteno
b-caroteno, que permite trabajar directamente con varianzas heterogéneas sin necesidad
de transformar los datos ni modificar la estructura lineal del modelo.
contraste bilateralfielmente
parece responder de la hipótesis
a un modelo : β1 = 0 mediante
nula H0exponencial. Así, el
la estadístico
transformación

logarítmica de la variable respuesta elimina la heterogeneidad de la varianza pero


Pastor-Barriuso R. 183

introduce una desviación de la asunción de linealidad. Como veremos más 43


residuos sean comparables
Correlación a lineal
y regresión distintos
simpleniveles de la variable explicativa, es preferible

realizar el diagnóstico del modelo mediante los residuos estandarizados

0,5 ei ei 1,6
0 ri = = ,
1 ( xi − x ) 2 s 1 − hi

β-caroteno (μg/g)
s 1− − 1,2
log(β-caroteno)

n (n − 1) s x2
-1
0,8
que se obtienen de dividir los residuos ei por una estimación de su desviación típica. El
-2 0,4
término hi se conoce como el leverage de una observación y es una medida
-3 0
estandarizada de la distancia entre cada valor xi de la variable explicativa y su media x
0 100 200 300 400 0 100 200 300 400
que se tratará en el apartado siguiente. No obstante,
α-tocoferol (μg/g) si el tamaño muestral es grande yα-tocoferol (μg/g)

no hay valores muy extremos de la variable (a)explicativa (observaciones con alto (b)
Figura 10.12  Recta de regresión del logaritmo del β-caroteno sobre el α-tocoferol en el grupo control del
leverage),estudio
ambos EURAMIC ri se
residuos ei y(a) comportanexponencial
y tendencia de forma análoga.
resultante en la escala original del β-caroteno (b).

En determinados casos el gráfico de los residuos estandarizados ri frente a los valores


Figura 10.12
0,5
predichos ŷ i no permite
3 apreciar claramente las posibles desviaciones de las asunciones

2
de linealidad y homogeneidad rk clara
de la varianza. Para obtener una representación más 0

en tales circunstancias,
1 es aconsejable dividir los n residuos ri en K grupos de tamaño nk
-0,5
-2 -1,5 -1 -0,5
ordenados por
ri valores
0 crecientes de ŷ i (por ejemplo, deciles) y calcular la media
(b)
-1 nk 1,5
1
rk =
nk
r
i =1
i
-2 sk 1

y la varianza -3
0,5
-2 -1,5 -1 nk -0,5 0 0,5 -2 -1,5 -1 -0,5
1
s k2 =
nk
ŷrii2
i =1
ŷk
(a) (c)
de los residuos
Figuraen10.13 
cada uno de los
Gráfico degrupos. La presencia
los residuos de curvatura
estandarizados en aellos
ri frente gráfico depredichos
valores los ŷi de la regresión lineal
del logaritmo del β-caroteno sobre el α-tocoferol en el grupo control del estudio EURAMIC (a), junto Figuracon
10.13las
medias rk (b)
residuos medios frente a los valorestípicas
y desviaciones predichos
sk (c)medios ŷ k en los
de los residuos distintos grupos
estandarizados por deciles de los valores predichos.

indicará falta de linealidad


10.3.6  en la relación,
Observaciones mientras
atípicas que la existencia de tendencia en el
e influyentes

En el diagnóstico de un modelo de regresión lineal, tan importante como


37 evaluar las asunciones
de linealidad y homogeneidad de la varianza es examinar la contribución o influencia de cada
observación en el modelo estimado. En general, es deseable que el modelo estimado responda
al patrón global de los datos; esto es, las estimaciones de los parámetros del modelo deben
basarse en el conjunto de todas las observaciones y no únicamente en un reducido número de
observaciones muy influyentes. De esta forma, se tendrá un mayor grado de confianza a la hora
de inferir los resultados del modelo a toda la población.
La forma más natural de medir la influencia de una observación en un modelo de regresión
lineal simple es comparar las estimaciones de la constante y la pendiente obtenidas en la muestra

184 Pastor-Barriuso R.
obtenidas en la muestra completa con sus correspondientes estimaciones tras excluir
Regresión lineal simple
dicha observación. Una medida estandarizada del cambio global que se produce en las

estimaciones b0 y b1 al eliminar la i-ésima observación es la distancia de Cook Di, que


completa con sus correspondientes estimaciones tras excluir dicha observación. Una medida
en su formadel
estandarizada más simpleglobal
cambio puedeque
expresarse como
se produce en las estimaciones b0 y b1 al eliminar la i-ésima
observación es la distancia de Cook Di, que en su forma más simple puede expresarse como
ri 2 hi
Di = .
2(1 − hi )
De esta fórmula se desprende que la influencia de una observación en las estimaciones b0 y b1
depende
De estatanto de su se
fórmula residuo estandarizado
desprende ri como de
que la influencia desuunaleverage hi. Losen
observación residuos estandarizados
las estimaciones
ri determinan la desviación del valor observado de la variable respuesta respecto al valor
b0 y b1 por
predicho la recta
depende tantodederegresión,
su residuodeestandarizado
tal forma que ri como
valores altos
de su de ri heni. Los
leverage valor absoluto
corresponden a observaciones pobremente ajustadas, que se conocen como observaciones
atípicas o outliers.
residuos estandarizados ri determinan
Estos outliers provocan una disminución
la desviación de la
del valor calidad global
observado del ajuste, lo
de la variable
que redunda en un aumento de la varianza residual s2 y del error estándar de las estimaciones b0
y brespuesta
1. Sin embargo, los al
respecto outliers no son necesariamente
valor predicho por la recta deinfluyentes
regresión, deen tal
las forma
estimaciones puntuales
que valores
b0 y b1, ya que su influencia también depende del leverage. El leverage hi de una observación
es una de ri enestandarizada
altosmedida valor absoluto decorresponden a observaciones
la distancia entre el valor de lapobremente ajustadas,y que
variable explicativa se
su media,
que se define como 1 ( xi − x ) 2

conocen como observaciones atípicas hi =o outliers


+ . Estos outliers provocan una
1n ( x(ni −− x1)s2 x2
hi = +
disminución de la calidad global del ajuste, n lo (nque 2
− 1) sredunda
x en un aumento de la
y tomay toma valores
valores entreentre
1/n1/n
y y1 1con
conuna media de h = 2/n.
una media 2/n. AAdiferencia
diferenciadedeloslos outliers queque
outliers
varianza residual s2 y del error estándar de las estimaciones b0 y b1. Sin embargo, los
corresponden a observaciones
y toma valores entre 1/n y 1con convalores
una mediaatípicos
de h de= la variable
2/n. respuesta,
A diferencia de loslasoutliers
observaciones
que
corresponden a observaciones con valores atípicos de la variable respuesta,
con alto leverage son aquellas con valores extremos de la variable explicativa. El leverage juega las
outliers no son necesariamente influyentes en las estimaciones puntuales b0 y b1, ya que
un corresponden
papel determinante en la distinción
a observaciones entreatípicos
con valores outliersdey laobservaciones influyentes.
variable respuesta, las Así, por
observaciones con alto leverage son aquellas con valores extremos de la
ejemplo, el punto A de la Figura 10.14(a) es un outlier extremo (residuo muy elevado) que tiene variable
su influencia también depende del leverage. El leverage hi de una observación es una
poca influencia encon
observaciones la recta
alto de regresión
leverage sonestimada
aquellas ya
conque ésta no
valores varía sensiblemente
extremos de la variabletras excluir
explicativa. El leverage juega un papel determinante en
dicho punto. Esto se debe a que la observación A presenta un valor centradola distinción entre outliers y
de la variable
medida estandarizada de la distancia entre el valor de la variable explicativa y su media,
explicativa (leverage
explicativa. muy bajo)
El leverage juegaque
un mitiga en gran medida
papel determinante en su
la influencia
distinción sobre las estimaciones
entre outliers y
observaciones influyentes. Así, por ejemplo, el punto A de la Figura 10.14(a)
b0 y b1 (distancia de Cook moderada). Por el contrario, el punto B de la Figura 10.14(b) no es es un
que se define como
un outlier tan marcado
observaciones pero tiene
influyentes. una
Así, porinfluencia
ejemplo,mucho mayor
el punto A de en la la recta10.14(a)
Figura de regresión
es unestimada,
outlier extremo (residuo muy elevado) que tiene poca influencia en la
particularmente en la pendiente b1, debido a que este punto presenta un valor muy extremo de recta de regresión
la variable explicativa.
outlier extremo (residuo muy elevado) que tiene poca influencia en la recta de regresión
estimada ya que ésta no varía sensiblemente tras excluir dicho punto. Esto se debe a que
estimada ya que éstaAno varía sensiblemente tras excluir dicho punto. Esto se debe aB que 45
la observación A presenta un valor centrado de la variable explicativa (leverage muy
la observación A presenta un valor centrado de la variable explicativa (leverage muy
bajo) que mitiga en gran medida su influencia sobre las estimaciones b0 y b1 (distancia
bajo)
y
que mitiga en gran medida su influencia sobre las estimaciones b0 y b1 (distancia
de Cook moderada). Por el contrario, el punto B de la Figura 10.14(b) no es un outlier
de Cook moderada). Por el contrario, el punto B de la Figura 10.14(b) no es un outlier
tan marcado pero tiene una influencia mucho mayor en la recta de regresión estimada,
tan marcado pero tiene una influencia mucho mayor en la recta de regresión estimada,
particularmente en la pendiente b1, debido a que este punto presenta un valor muy
particularmente en la pendiente b1, debido a que este punto presenta un valor muy
extremo de la variable explicativa.
x x
extremo de la variable explicativa.
(a) (b)

[Figura 10.14
Figura 10.14  Rectas de regresión resultantes aproximadamente
de incluir aquí] (línea fina) los puntos A y B
(línea gruesa) y excluir
del ajuste del modelo lineal. [Figura 10.14 aproximadamente aquí]

Una observación será tanto más influyente en las estimaciones b0 y b1 de la recta de


Figura 10.14
Pastor-Barriuso R. 185
Una observación será tanto más influyente en las estimaciones b0 y b1 de la recta de
regresión cuanto mayor sea su distancia de Cook Di. En general, se recomienda
regresión cuanto mayor sea su distancia de Cook Di. En general, se recomienda
Correlación y regresión lineal simple

Una observación será tanto más influyente en las estimaciones b0 y b1 de la recta de regresión
cuanto mayor sea su distancia de Cook Di. En general, se recomienda examinar detenidamente
aquellas observaciones con una distancia de Cook superior a 4/(n – 2), que corresponde, por
ejemplo, a un punto con un leverage medio hi = 2/n y un residuo estandarizado alto ri = ±2. No
obstante, la selección de un valor crítico para Di es un tanto arbitraria y es preferible evaluar la
influencia relativa de cada observación en comparación con las restantes observaciones. Un
gráfico útil es el diagrama de dispersión de los residuos estandarizados ri frente a los leverages
hi, donde cada observación se representa mediante un círculo de área proporcional a su distancia
de Cook Di. En este gráfico, el tamaño de los círculos identificará claramente las observaciones
más influyentes, mientras que la posición permitirá discernir la contribución de los residuos y
leverages a la influencia de dichas observaciones.
1 ( xi − x ) 2
Ejemplo 10.15  La Figura 10.15 muestra los residuos h i = + ri frente a los
n (estandarizados
n − 1) s x2
leverages hi de la regresión lineal del colesterol HDL sobre el índice de masa corporal,
donde se incluyen líneas de referencia horizontales en ri = – 2, 0 y 2 y verticales en el
doble hi = 0,0075
y toma triple hentre
y elvalores i = 0,0113
1/n y 1del
conleverage
una mediamedio de h == 2/533
2/n. A=diferencia
0,0038. Eldeárea
los outliers que
de los círculos es proporcional a la distancia de Cook Di e indica la influencia relativa de
cada observación. Por supuesto,
corresponden la influencia
a observaciones conde las observaciones
valores atípicos de la aumenta conforme las
variable respuesta,
aumentan sus residuos estandarizados en valor absoluto (dirección vertical del gráfico) y
sus leveragesobservaciones
(dirección horizontal). Sin embargo,
con alto leverage son aquellas noconse valores
aprecian observaciones
extremos de la variable
marcadamente influyentes que pudieran conducir los resultados globales del modelo. La
observación más influyente
explicativa. ElDleverage
i = 0,043juega
se presenta
un papelen determinante
el cuadrante superior izquierdaentre
en la distinción de laoutliers y
Figura 10.15, que corresponde a un outlier con un residuo muy alto ri = 4,28 y un leverage
moderado hi =observaciones
0,0047. Las estimaciones
influyentes.deAsí,
la constante y la pendiente
por ejemplo, el punto de la recta
A de de regresión
la Figura 10.14(a) es un
excluyendo este outlier son b0(i) = 1,71 y b1(i) = – 0,024 que, comparadas con las estimaciones
(error estándar) b0 = 1,69
outlier extremo(0,092) y b1 =muy
(residuo – 0,023 (0,0035)
elevado) queobtenidas
tiene pocaeninfluencia
la muestraencompleta
la recta de regresión
(Ejemplo 10.9), suponen un cambio estandarizado de (b0(i) – b0)/SE(b0) = (1,71 – 1,69)/0,092
= 0,20 en la constante
estimaday ya – b1ésta
(b1(i)que )/SE(b
no1)varía
= (– 0,024 + 0,023)/0,0035
sensiblemente = – 0,23
tras excluir en la
dicho pendiente.
punto. Esto se debe a que
Así, a pesar de que este outlier está muy mal ajustado, no afecta substancialmente a la recta
de regresión estimada.
la observación A presenta un valor centrado de la variable explicativa (leverage muy

Ejemplo 10.16  bajo)Enque


la Figura
mitiga10.16 se representan
en gran los residuossobre
medida su influencia estandarizados ri frenteba0 ylosb1 (distancia
las estimaciones
leverages hi de la regresión lineal del logaritmo del b-caroteno sobre el a-tocoferol. En una
primera inspección
de Cook visual se distinguen
moderada). al menos el3punto
Por el contrario, observaciones con una
B de la Figura influencia
10.14(b) no es un outlier
sensiblemente mayor que las demás, que corresponden a los círculos de mayor tamaño situados
a la derecha deltan
gráfico. Los valores
marcado observados,
pero tiene predichos
una influencia y las medidas
mucho mayor endiagnósticas
la recta deasociadas
regresión estimada,
a dichas observaciones se presentan en la Tabla 10.5. A diferencia del ejemplo anterior, donde
la observaciónparticularmente
más influyenteen correspondía
la pendientea bun outlier, aestas
1, debido 3 observaciones
que este punto presenta presentan
un valor muy
leverages muy altos hi = 0,044, 0,038 y 0,022 debidos a valores muy elevados del a-tocoferol,
y sólo una de ellas está pobremente
extremo de la variableajustada con ri = – 3,11. Para evaluar la influencia conjunta
explicativa.
de dichas observaciones en la recta de regresión estimada, se calcularon los coeficientes del
modelo excluyendo simultáneamente las 3 observaciones, que resultaron ser b0(i) = – 1,93 y b1(i) =
0,0042. En comparación con las estimaciones [Figura
(error10.14 aproximadamente
estándar) aquí]
b0 = – 1,91 (0,055) y b1 = 0,0040
(0,00032) obtenidas en la muestra completa (Ejemplo 10.14), la eliminación de estas 3
observaciones provoca un cambio estandarizado en la constante de (– 1,93 + 1,91)/0,055 =
Una observación
– 0,36 y en la pendiente de (0,0042 –será tanto más influyente
0,0040)/0,00032 = 0,50. Estoen las la exclusión deb0dichas
es, estimaciones y b1 de la recta de
observaciones conlleva una disminución en la constante de aproximadamente un tercio de su
error estándar regresión cuanto
y un aumento en lamayor sea su
pendiente dedistancia
la mitad delde error Di. En general,
Cookestándar. se recomienda
Así, aunque estas 3
observaciones no son extremadamente influyentes por sí mismas, el modelo sí parece ser
examinardedetenidamente
sensible a la presencia observaciones con aquellas observaciones
alto leverage (Figura con una distancia de Cook superior a
10.16).

186 Pastor-Barriuso R.
4/(n - 2), que corresponde, por ejemplo, a un punto con un leverage medio hi = 2/n y un

residuo estandarizado alto ri = ±2. No obstante, la selección de un valor crítico para Di


Regresión lineal simple

ri
0

-2

-3

0,002 0,005 0,01 0,02 0,03


hi
1 ( xi − x ) 2 1 ( xi − x ) 2
Figura 10.15  Gráfico dehlos i = +
residuos hi = +
) s x2 n (n − 1) srx2i frente a los leverages hi de la regresión
n (n − 1estandarizados lineal del
Figura 10.15
colesterol HDL sobre el índice de masa corporal en el grupo control del estudio EURAMIC. El área de los
círculos es proporcional a la distancia de Cook Di. Las líneas de referencia horizontales corresponden a
y tomarivalores
= – 2, 0entre
yytoma
2,1/n
y valores
las
y 1verticales
conentre
una 1/n a yh1i =
media de2h una
con == 0,0075
2/n. y 3h == 0,0113.
A diferencia
media de de A
2/n. El eje horizontal
losdiferencia
outliers que estáque
de los outliers en escala logarítmica
para mejorar la representación gráfica.
corresponden a corresponden
observacionesacon valores atípicos
observaciones de la variable
con valores atípicosrespuesta, las respuesta, las
de la variable

observaciones con alto


3 leverage
observaciones sonalto
con aquellas conson
leverage valores extremos
aquellas de la variable
con valores extremos de la variable

explicativa. El leverage juega


explicativa. Elun papel determinante
leverage endeterminante
juega un papel la distinción en
entre outliers y entre outliers y
la distinción
2
observaciones influyentes. Así,influyentes.
observaciones por ejemplo, el punto
Así, A de laelFigura
por ejemplo, A de la Figura
punto10.14(a) es un 10.14(a) es un

outlier extremo outlier


(residuo muy elevado)
extremo (residuoque
muytiene poca influencia
elevado) en la influencia
que tiene poca recta de regresión
en la recta de regresión
1
estimada ya queestimada
ésta no varía sensiblemente
ya que ésta no varíatras excluir dicho
sensiblemente punto.
tras Esto
excluir se debe
dicho a que
punto. Esto se debe a que

la observaciónrAilapresenta
0 A presenta
un valor
observación centrado
unde la variable
valor centradoexplicativa (leverage
de la variable muy (leverage muy
explicativa

bajo) que mitigabajo)


en gran
quemedida su gran
mitiga en influencia
medidasobre las estimaciones
su influencia sobre las y b1 (distanciab0 y b1 (distancia
b0 estimaciones
-1
de Cook moderada). Por moderada).
de Cook el contrario,Por
el punto B de laelFigura
el contrario, B de la Figura
punto10.14(b) no es un outlier no es un outlier
10.14(b)

tan marcado pero


tantiene
-2 una influencia
marcado pero tienemucho mayor enmucho
una influencia la recta de regresión
mayor estimada,
en la recta de regresión estimada,

particularmenteparticularmente b1, la
en la pendiente en debido a quebeste
pendiente puntoapresenta
1, debido que este un valor
punto muy un valor muy
presenta
-3
extremo de la variable
extremoexplicativa.
de la variable explicativa.

0,0015 0,003 10.14 0,005


[Figura 10.14 aproximadamente
[Figura aquí]
aproximadamente0,01
aquí] 0,02 0,04
hi
1 ( xi − x ) 2 1 ( xi − x ) 2
h = + h = +
UnaFigura 10.16 
observación i
Una Gráfico
será tanto de
1) slos
nobservación
(n −más
i2
x nresiduos
influyente
será tanto )estandarizados
1en
(n − más 2 influyente
s las
x
enrlas
estimaciones ib frente a los
y b1 de leverages
b0 de
la recta
0 estimaciones hi laderecta
y b1 de la regresión
de lineal del lo-
Figura 10.16
garitmo del β-caroteno sobre el α-tocoferol en el grupo control del estudio EURAMIC. El área de los círculos
es proporcional
regresión mayor asea
cuantoregresión la su
distancia
cuanto mayorde
distancia deCook
sea Cook DDi.i.Las
su distancia En delíneas
Cookde
general, Dreferencia
se i.recomienda
En general, horizontales
se recomiendacorresponden a ri = – 2, 0 y 2,
ma valores yentre yvalores
toma1/n las
y 1 verticales
con una1/n
entre ayh1i =
media de2huna
con == 0,0057
2/n.
media y 3h == 0,0086.
A diferencia
de deAlos
2/n. El eje horizontal
outliers
diferencia que está en
de los outliers queescala logarítmica.
examinar detenidamente
examinar aquellas observaciones
detenidamente aquellascon una distancia
observaciones condeunaCook superior
distancia deaCook superior a
esponden acorresponden
observacionesa con valores atípicos
observaciones de la variable
con valores atípicosrespuesta, las respuesta, las
de la variable
Pastor-Barriuso R. 187
4/(n - 2), que corresponde,
4/(n - 2), que porcorresponde,
ejemplo, a un porpunto
ejemplo, con un
a unleverage
punto conmedio hi = 2/n ymedio
un leverage un hi = 2/n y un
ervaciones con alto leverage
observaciones conson
altoaquellas
leverage con
sonvalores
aquellas extremos de la extremos
con valores variable de la variable
residuo estandarizado
residuoalto ri = ±2. No alto
estandarizado ri = ±2.
obstante, la selección
No obstante, de un valor crítico
la selección para
de un Di crítico para Di
valor
licativa. El leverage juega
explicativa. El un papel juega
leverage determinante
un papelendeterminante
la distinciónen entre outliers y entre outliers y
la distinción
deben limitarse exclusivamente al rango de valores observados en el resto de la muestra.

No obstante, el tratamiento de observaciones influyentes no pasa necesariamente por su


Correlación y regresión lineal simple

exclusión del ajuste del modelo. Un procedimiento alternativo de uso generalizado

consiste10.5 
Tabla en encontrar una transformación
Observaciones de la variable
más influyentes en la explicativa
regresión olineal
respuesta
del que
logaritmo del
β-caroteno sobre el α-tocoferol en el grupo control del estudio EURAMIC.
permita reducir la influencia de dichas observaciones. Por un lado, las transformaciones
Valores observados Valor predicho Medidas diagnósticas Estimaciones*

de laxvariable yi
afectanŷi al residuo estandarizado
ri hi
pero no alDleverage deb0una b1(i)
(i)
i
respuesta i

626,8 1,74 0,60 1,57 0,044 0,057 – 1,90 0,0039


586,6 – 0,87
observación, por lo que sólo 0,44
son – 1,79
potencialmente útiles0,038
para 0,062
atenuar la – 1,92 de
influencia 0,0041
475,1 – 2,30 – 0,01 – 3,11 0,022 0,107 – 1,93 0,0041
outliers.
* Por eldecontrario,
Estimaciones la constantelas
y latransformaciones
pendiente de la rectade
de la variable
regresión trasexplicativa influyencorrespondiente.
excluir la observación tanto
Las estimaciones (y su error estándar) en la muestra completa de 700 controles fueron b0 = – 1,91 (0,055)
b1 =residuos
enylos 0,0040 (0,00032).
como en los leverages, de tal forma que estas transformaciones también
En ocasiones
pueden utilizarseresulta lícito la
para mitigar eliminar
influencialas observaciones
de observaciones marcadamente
extremas en influyentes,
la variable bien por
tratarse de valores atípicos de la variable respuesta o bien por presentar valores extremos de la
variable explicativa. En tal caso, las inferencias derivadas del modelo deben limitarse
explicativa.
exclusivamente al rango de valores observados en el resto de la muestra. No obstante, el tratamiento
de observaciones influyentes no pasa necesariamente por su exclusión del ajuste del modelo. Un
con errores
procedimiento estándar de SE(b 0) = 0,19 y SE(b1) = 0,039. Al exponenciar ambos lados
Ejemplo alternativo
10.17 Con objeto uso degeneralizado consiste en
reducir la influencia deencontrar una transformación
las observaciones con de la
variable explicativa o respuesta que permita reducir la influencia de dichas observaciones. Por un
de la igualdad, se tiene que la media geométrica de la variable respuesta es una
lado, las transformaciones
valores muy elevadosdedel la α-tocoferol
variable respuesta afectan en
(alto leverage) al residuo
el modeloestandarizado
de regresiónpero no al
leverage de una observación, por lo que sólo son potencialmente útiles para atenuar la influencia
función potencial de la variable explicativa (panel b de la Figura 10.17),
de outliers. Por el contrario, las transformaciones de la variable explicativa influyen tanto en los
lineal del logaritmo del β-caroteno sobre el α-tocoferol, se podría aplicar a su vez
residuos como en los leverages, de tal forma que estas transformaciones también pueden utilizarse
para mitigar la influencia dey Gobservaciones
= exp(-3,76 +extremas
0,51 logenx)la=variable0,023x0,51 explicativa.
.
una transformación logarítmica a la variable explicativa. En la Figura 10.17(a) se
con errores estándar SE(b0) = 0,19 y SE(b1) = 0,039. Al exponenciar ambos lados
Ejemplo 10.17  Con objeto de reducir la influencia de las observaciones con valores
muestra
Este
muy
de la recta
la modelo
elevados
igualdad, sede
tiene
del regresión
entonces
a-tocoferol
tiene que launaestimada
(alto
media entreen
interpretación
leverage)
geométrica el simple
logaritmo
el la en
modelo
de la
de
variable β-caroteno
delescala original
regresión
respuesta yesel
lineal de
del logaritmo
una
del b-caroteno sobre el a-tocoferol, se podría aplicar a su vez una transformación
logaritmo
ambas
logarítmica
función a laα-tocoferol,
del
variables
potencial yadeque,
variable al aumentar
explicativa.
la variable c veces
En
explicativa la variable
la Figura
(panel 10.17(a)
b de la explicativa,
se muestra
Figura lalarazón
10.17), recta de regresión
estimada
con entre
errores el logaritmo
estándar SE(b0) = del0,19 y SE(b1)y=el0,039.
b-caroteno logaritmo del a-tocoferol,
Al exponenciar ambos lados
medias geométricas es constante e igual a
y G que log y G = −+3,76
= exp(-3,76 0,51+log 0,51 x)delog
= la x, 0,51.
0,023x
de la igualdad, se tiene la media geométrica variable respuesta es una
con errores estándar SE(b0) = 0,19 y SE(b1) =0,51 0,039. Al exponenciar ambos lados de la
y G (cx) 0,023(cx) 0,51
igualdad,
función
Este se tiene
tieneque
potencial
modelo de la variable
la media
entonces una geométrica
explicativa
=
interpretaciónde(panel
la variable=b cde respuesta
; Figura es
la una función potencial
10.17),
0 , 51simple en la escala original de
y ( x ) 0 , 023 x 49
de la variable explicativa (panel G b de la Figura 10.17),
ambas variables ya que, y G =alexp( − 3,76 +c veces
aumentar la variable
0,51 log x) = 0,023x explicativa,
0,51
. la razón de
es decir, a incrementos relativos en la variable explicativa les corresponde un
Este modelo
medias tiene entonces
geométricas es constanteunaeinterpretación
igual a simple en la escala original de ambas
variables
Este
mismomodeloya que,
cambio tienealentonces
aumentar
relativo cvariable
en launa veces larespuesta.
variable explicativa,
interpretación simple en lalaescala
Por ejemplo, razón de medias
original
incrementos degeométricas
del
es constante e igual a
ambas variables ya que, al yaumentar
G (cx) 0c,023
veces ) 0,51
(cxla variable
0,51 explicativa, la razón de
50% (c = 1,50) en el nivel de α-tocoferol = se asocian = ccon ;un aumento del
y G ( x) 0,023x 0 , 51

medias
es decir,geométricas
100(1,50 0,51 esrelativos
constante
- 1) = 100(1,23
a incrementos - 1)en=ela
igual
23% a la explicativa
en
variable media geométrica de β-caroteno.
les corresponde El cambio
un mismo
relativo
es decir,en la variable respuesta.
a incrementos relativosPor en ejemplo, incrementos
la variable explicativadel les50% (c = 1,50)un
corresponde en el nivel de
IC al 95% para
a-tocoferol la razón
se asocian condeunmedias
aumento geométricas
del
y G (cx) 0,023(cx) 100(1,50 viene
0 , 51 0,51 dado por
– 1)
0,51
= 100(1,23 – 1) = 23% en la media
geométrica de b-caroteno.
relativo enElla = = c ;
mismo cambio yIC ( xal) 95%0respuesta.
variable
G
para
,023xla0,razón
51 Porde medias geométricas
ejemplo, incrementosviene
del dado por
b ±t SE ( b )
c 1 698; 0 , 975 1 = 1,500,51±1,96⋅0, 039 = (1,19; 1,27),
50% (c = 1,50) en el nivel de α-tocoferol se asocian con un aumento del
de decir,
es dondeaseincrementos
concluye con una confianza
relativos del 95%
en la variable que la media
explicativa geométrica un
les corresponde de b-caroteno
aumenta
de donde entre
100(1,50 0,51
- 1)un=19
se concluye ycon
un 27%
100(1,23 una- 1) por cadaen
confianza
= 23% incremento
della95%media quedel
la 50%
media
geométrica engeométrica
el β-caroteno.
de nivel de de
a-tocoferol.
β-
El
mismo cambio relativo en la variable respuesta. Por ejemplo, incrementos del
188 caroteno
IC al 95%
Pastor-Barriuso R. aumenta entre un
para la razón de 19 y un geométricas
medias 27% por cada incremento
viene dado pordel 50% en el nivel
50% (c = 1,50) en el nivel de α-tocoferol se asocian con un aumento del
de α-tocoferol. b ±t SE ( b ) 51±1, 96 ⋅0 , 039
100(1,500,51 - 1) = 100(1,23 ,500,en
c 1 698; 0 , 975 - 1)1 == 123% la media = (1,19; 1,27),de β-caroteno. El
geométrica
Regresión lineal simple

La utilización de una transformación logarítmica para el a-tocoferol ha producido un


doble efecto beneficioso en el ajuste del modelo. Por un lado, aunque persisten las
observaciones con alto leverage (debidas, en este caso, a valores muy bajos del a-tocoferol),
su influencia es ahora sensiblemente menor, como indica el tamaño de los círculos de la
Figura 10.18(a). Por otro lado, la relación subyacente entre el a-tocoferol y el b-caroteno
parece responder mejor al modelo potencial de la Figura 10.17(b), obtenido mediante
transformaciones logarítmicas de ambas variables, que al modelo exponencial de la
Figura 10.12(b), resultante de transformar únicamente el b-caroteno. Esta apreciación se
fundamenta en que la curvatura de los residuos de la regresión lineal del logaritmo del
b-caroteno sobre el a-tocoferol (panel b de la Figura 10.13) desapareceresiduosalsean
transformar
comparables a distintos nive
también el a-tocoferol (panel b de la Figura 10.18).
realizar el diagnóstico del modelo mediant

0,5 1,6
ei
0 ri =
1 (x

β-caroteno (μg/g)
1,2
log(β-caroteno)

s 1− −
n (n
-1
0,8
que se obtienen de dividir los residuos ei p
-2 0,4
término hi se conoce como el leverage de
-3 0
estandarizada de la distancia entre cada va
2,5 3 4 5 6 0 100 200 300 400
log(α-tocoferol) que(μg/g)
α-tocoferol se tratará en el apartado siguiente. No
(a) (b)
no hay valores muy extremos de la variabl
Figura 10.17  Recta de regresión del logaritmo del β-caroteno sobre el logaritmo del α-tocoferol en el grupo
control del estudio EURAMIC (a) y tendencia potencial resultante en la escala originalleverage),
de ambasambos (b). ei y ri se compo
residuos
variables

En determinados casos el gráfico de los


0,5 Figura 10.17
3 predichos ŷ i no permite apreciar claramen

2 rk 0 de linealidad y homogeneidad de la varian

1 -0,5
en tales circunstancias, es aconsejable divi

ri -2 ordenados
-1,5 -1 valores
por -0,5 crecientes de ŷ (po
0 i
(b)
-1 1,5
rk =
-2 sk 1

-3 y la varianza
0,5
0,0015 0,003 0,005 0,01 0,02 0,04 -2 -1,5 -1 -0,5
s k2 =
hi ŷk
(a) ( c)
Figura 10.18  Gráfico de los residuos estandarizados ri frente a los leverages hi dedelalos residuos lineal
regresión en cada deluno de los grupos.
logaritmo del β-caroteno sobre el logaritmo del α-tocoferol en el grupo control del estudio EURAMIC (a),
Figura 10.18
donde el área de los círculos es proporcional a la distancia de Cook Di, y gráficoresiduos
de las medias
medios rk (b) y a los valores pre
frente
desviaciones típicas sk (c) de los residuos estandarizados por deciles de los valores predichos.
indicará falta de linealidad en la relación,
Pastor-Barriuso R. 189
Correlación y regresión lineal simple

en los restantes n2 = n - n1 sujetos del segundo grupo. Bajo esta codificación, la


10.3.7  Variable explicativa dicotómica
interpretación
en los restantesdel n2 modelo
= n - n1 de regresión
sujetos del segundolineal degrupo. la variable
Bajo esta respuesta Y sobre la
codificación, la variable
Hasta el momento se han considerado únicamente modelos de regresión lineal con variables
explicativas
indicadora
interpretación continuas.
X esdel modeloNo obstante,
particularmente de regresión las variables
sencilla, dadode
lineal explicativas
que la estimación
la variable pueden
respuesta deser laYtanto
pendiente
sobre continuas
se como
la variable
categóricas ya que la regresión lineal no establece ninguna asunción respecto a su distribución.
En reduce este apartado
indicadora a X esseparticularmente
revisa el ajuste sencilla, e interpretación dado que delamodelos
estimación de regresión
de la pendiente lineal simple
se con
una única variable explicativa dicotómica, que clasifica a los sujetos en dos grupos o categorías
según en la presencia
los
reduce restantes
a no2n =ausencia
n - n1 sujetos de unadel determinada
segundo grupo. característica. El tratamientolade variables
Bajo esta codificación,
nesgo
el riesgo
de desarrollar explicativas
de desarrollar un primer politómicas
un primerinfarto (
infartox
agudoi
con
− x tres
)(
agudo y −
de miocardioo y más
)
i de miocardio
categorías
n
en n1 en se abordará
n
en el Tema 11 ya que estas
variables requieren nde múltiples variables indicadoras para = las estadistintas y ) =categorías.
Yysobre
interpretación
en los restantes b1 =del i modelo de regresión
n2 = nn - n1 sujetos del
= 1 lineal
= segundo
n n
 de y ila−variable
( grupo. y )Bajo
n
respuesta
( y1 −codificación, 1 − y 2 la
la variable
ss.valores
Los valoresobtenidos obtenidos
Las fueron
indicadora
fueron
variables
X es

0,89, explicativas
0,89,
1,58, 1,58,
(0,79,
x i (−x ix0,79,
particularmente
1,29,
−)( 1,29,
yx i) −1,42,
dicotómicas
2
y ) 1,42,
sencilla,
0,84, 0,84,
1se2 introducen
n dado
i =
n1
1
que la
en los
n
estimación
2 modelos de regresión mediante
deuna laYpendiente se
unainterpretación
única variable b1 =del modelo
indicadora
i = 1 i =1 deX,regresión
que toma = lineal 
distintos de
( y ilavalores
−variable
y ) = xi en respuesta
( ycada sobre
de
1 − y ) = y1 − y 2
la variable
las dos categorías
653y mmol/l.
1,53 mmol/l. La media La media
de los deniveles
los
de la variable. Aunque la (elecciónniveles
del n
colesterol
del colesterolHDL HDL
enn n en n
 x i − x ) de estos1 valores
2 2 i =1 es arbitraria, 2 la codificación más frecuente
es xreduce
indicadora
= 1 en a losXnessujetos
yi la constante1 a
particularmente
i =1 pertenecientes sencilla, al dado
primer que
grupo la estimación
y 0 en los de la pendiente
restantes n2 = n –sen1 sujetos
spantes
es es del segundo grupo. Bajo esta codificación, la interpretación del modelo de regresión lineal de
reduce arespuestan Y sobre la variable indicadora X es particularmente sencilla, dado que la
la variable
y la constante a  ( x i − se x )(reduce
y − y) n
10
1 10 0,89 +0estimación ,58++1...
1,89 ,58++1de 53la
,... + 1pendiente
,53 b0 =i y −ab1 x =n y −n1 1 ( y1 − y 2 ) n= y 2 ,
x = xi  = xi = b1 = 1,223 n = n1,223
i =1
mmol/l. mmol/l. = n( y i − y ) = n ( y1 − y ) = y1 − y 2
0 i =110 i =1 10 10 n1 n 2 i =1
 i ( xi −b0x=i) y − b1 x =n y −n1 n1 ( y1 − y 2 ) n=2 y 2 ,
( x − x )( y 2− y )

donde y1 yb1y=2 son las


i =1 i =1
n medias muestrales de
= n( y i − y ) = n ( y1 − yen) =lay1primera
n1 n 2 i =1la variable respuesta
− y2 y
propiedades: ( x i − x )
2 2
ca senta
presenta
las siguientes
las siguientes propiedades:
ysegunda
la constante
donde y y 2a sondelaslamedias
y1categoría
i =1
variablemuestralesexplicativa, de respectivamente.
la variable respuesta Así,en la la
constante
primera y
aslación).
en (traslación).Si seysuma Silase suma
una
constante aconstante
una constante a cada a uno
cada de uno los de datos
los datos
ysegunda
la constante
corresponde categoría a de la variable
simplemente a la media de la variable
explicativa, respuesta enAsí,
nrespectivamente. el segundo
la constante grupo (xi =
abla y b x y y y y
1
,edia
la media
de la muestra
de la muestra resultante
resultante
es igual es iguala la media 0 =media −
inicial =
inicial
1 más la−
más (
la 1 − 2 ) = 2 ,
n
0) y la pendiente a la diferencia
corresponde simplemente a la media de la variable de medias entre n1 el primer
respuestai en( x = 1)elysegundo
el segundo grupo (xi =(xi
grupo
i yi =sixiy+
ada; i =c x
, c
donde
entonces
i + , entonces y 1 = y xy 2 +
= c
son x
. Un +las c medias
cambio
. Un cambio
de muestrales
origen
de origen
que de quela
b0 = y − b1 x = y − ( y1 − y 2 ) = y 2 , variable respuesta en la primera y segunda
categoría
donde de
y1 lay variable
y 2 son explicativa,
las medias respectivamente.
muestrales de n Así, ladado
la variable constante
respuesta corresponde
primerasimplemente
=0)0).
y laAsimismo,
pendiente el
a laerror estándar
diferencia dedemedias la constante
entre elviene
primer (xi por= 1) yenellasegundo y
grupo ( xi
ncia
recuencia
es el centrado a la
es el centrado media de
de la variable, la variable
de la variable, que consiste respuesta
que consiste en
en restar el segundo
en restar
a a grupo (x i = 0) y la pendiente a la diferencia de
medias segunda entre yel yprimer
y1categoría =variable
(xlai medias1) y el segundo de grupo (xi = 0).respuesta
Asimismo, la el error estándar de la
donde
= 0). Asimismo, 2 son elde las
error estándar explicativa,
muestrales
de la constante 2
respectivamente.
la variable
viene dado n porAsí,en constante
la primera y
astra
muestra
su media. su media. constante
La media La media viene dado
de unadevariable por
una variable 1 x 1 s
SEcentrada
(b0) centrada
= s será,+ por será, por = s + 1
=
corresponde simplemente
segunda categoría de la variable explicativa, a la media n (n la
de
2
n n 2 n enAsí,
) s xrespectivamente.
− 1variable respuesta eln 2segundo
la constante grupo (xi =
1 x 2
1 n1 s
SE(b0 ) = s + =s + =
0) y la pendiente a
corresponde simplemente a la media la diferencia den demedias(n la entre
)s x
− 1variable 2 el n n 2 n i en elny2segundo
primer
respuesta ( x = 1) el segundo grupo (xi =(xi
grupo
ala
nidades).
(unidades).Si se multiplica y el
Si se multiplica error estándar
cada uno cadade de
uno losde la pendiente
datos
los datos por
de unade una
y el=error estándar de la pendiente por la constante viene dado por
0) y la pendiente a la diferencia dedemedias
0). Asimismo, el error estándar entre el primer (xi = 1) y el segundo grupo (xi
stante,
a constante,
la media la mediadeylaelmuestra
deerror estándar
la muestra resultante de la
resultante espendiente
igual a la por
es igual media
as la media n 1 1
= 0). Asimismo, el error SEestándar
(b1 ) = de la constante =s viene = s dado+por ,
onstante
te utilizada; si yi =sicxyi, =entonces
utilizada; cxi, entonces y = cySE x .=(bc0)x =. s s1x +n − 1x
2 n1 n 2 1 nn11 n 2s
n que s (n − 1) s 2 ns n + n 1n = 1
=
donde la varianza residualSE b1)es= más
s2 (no sx
la=2combinación = s de2 las n,2
+ varianzas s12 y s22 de la variable
de
áneo origen
de origeny escala.yrespuesta
escala.
Si se multiplica
Siense multiplicacada uno
cada sdatos
1x los n −de 1x de 1 2 1 n n n n 2s
(b0)de suno
2 losde
ambos grupos, + datos
2 2
donde la varianza residual = no s es más que la combinación + 1 de = las varianzas s1 y s 2 de
1
SE =s
n (n − 1) s x 2
n n2 n n2
y el error estándar de1la n
pendiente por
rconstante
una constante y al resultado
y al la resultado
se
variable
donde
le suma
se le
2 sumaotra
s = en ambos
respuesta
la varianza  (2yi − esb0 más
constante,
otra constante,
n − 2 i =1 s nogrupos,
residual
la media la
− b1 xi ) media
2
que la combinación de las varianzas s12 y s 22 de
esultante
nte es igual es igual
a la media aylaelmedia
error
inicialestándar
inicial
por lapor de
primera
n1 la laprimera
pendiente
constante, por
constante,
n2 más la
s más lan 1 1
la variable respuesta  en yambos
(SE i (−
2
+  ( y j =− sy 2 ) 2
b1y) 1=) grupos, =s
n s 2+
n
, 2
i =1 s j =n1 −1 n n ( − 1
n) +n ( 2 − 1) s 2
yi =sic1yxi i=+cc12x,i entonces
inte; + c2, entonces y = cy1 x=+=c1cx2. + c2. x 1
= 2 1 1 1 2
.
n − 2 s n 1 n −12
SE(b1) = =s =s + ,
2 sx n − 1 n1 n 2 n1 n 2
donde la varianza residual s no es más que la combinación de las varianzas s12 y s 22 de52
nsformar
ra transformar los valores
los valores del colesterol
del colesterol HDL HDL de mmol/l de mmol/l a mg/dl a mg/dl
se se
190 Pastor-Barriuso De estos R. resultados se desprende que la pendiente b1 y su error estándar SE(b1)
la
dondevariable respuesta
la varianza en ambos
residual s2 nogrupos,es más que la combinación de las varianzas s12 y s 22 de52
elorfactor
de conversión
de conversión 38,8. 38,8.Así, utilizando
Así, utilizando la propiedadla propiedad del del
coinciden exactamente con la estimación puntual y el error estándar de diferencia de
la,
mediala media
del colesterol la variable
del colesterol HDL HDL en respuesta
mg/dl
en mg/dl ense
se calcularía ambos
calcularía grupos,
comparación de medias mediante el test de la t de Student para muestras
Referencias
independientes con igual varianza.

DeEjemplo
estos resultados
10.18 Para se comparar
desprendelos queniveles mediosbde
la pendiente 1 ycolesterol
su error estándar
HDL entre SE(b
los1) coinciden
exactamente con la estimación puntual y el error estándar de la diferencia de medias en
distribuciones con igual
casos de infarto de varianza
miocardio(véase y los Apartado
controles libres 6.3.1).dePuede concluirse,sepor
la enfermedad, tanto, que las
podría
inferencias relativas a la pendiente de un modelo de regresión lineal con una única variable
explicativa
ajustardicotómica
un modeloson de algebraicamente
regresión lineal simple equivalentes a la comparación
del colesterol HDL sobredelamedias variablemediante
el test de la t de Student para muestras independientes con igual varianza.
indicadora del estatus caso/control (xi = 1 en los casos y 0 en los controles) en la
Ejemplo 10.18  Para comparar los niveles medios de colesterol HDL entre los casos de
muestra
infarto decompleta
valor esperadomiocardiodelde yn1los
= 462
colesterol casosen
controles
HDL delosinfarto
libres controlesn2 =libres
de layenfermedad,
539 controles
de la del ajustar
se enfermedad,
podría estudio un modelo
cuyo
de regresión lineal simple del colesterol HDL sobre la variable indicadora del estatus
EURAMIC
IC al 95% escon
caso/control (xi =valores
1 en los delcasos
colesterol
y 0 enHDL. La recta de
los controles) en regresión
la muestraestimada
completaentre de n1 = 462
casos de infarto y n2 = 539 controles del estudio EURAMIC con valores del colesterol
el valor
HDL. esperado
colesterol
La recta HDLdedely colesterol
la variable
regresión HDL enentre
indicadora
estimada los controles
del estatus libres
el colesterol de lay enfermedad,
caso/control
HDL es
la variable cuyo
indicadora del
b0 ± t999;0,975SE(b0) = 1,09 ± 1,96⋅0,012 = (1,06; 1,11).
estatus caso/control es
IC al 95% es
ŷ = 1,09 − 0,11x,
Por otra parte, la pendiente b1 = -0,11 mmol/l determina el cambio en el nivel
con una desviación b0 ±típica
t999;0,975 SE(b0) del
residual = 1,09 ± 1,96⋅0,012
colesterol HDL de s = 0,27
= (1,06; 1,11).mmol/l que, debido a la
con
mediounadedesviación
hipótesis de típica
HDL residual
homogeneidad
colesterol pordecada del colesterol
la varianza,
incremento deHDL
se asume de s = 0,27
una constante
unidad en enlammol/l
casos que,
variable y controles. El
valor
error esperado
estándar del
de colesterol
la constante HDL
Por otra parte, la pendiente b1 = -0,11 mmol/les SE(b
en los0 ) controles
= 0,012 ylibres
de lade la enfermedad,
pendiente
determina el cambio en el nivel SE(b 1)cuyo
= 0,017. La
debido
constantea lab0hipótesis
indicadora, lo= que de homogeneidad
1,09equivale
mmol/l estima la media
a la diferencia de la de varianza,
del colesterol
medias se asume
entre HDL
casosenconstante
(xlos 1) y en con valor 0
i = sujetos
ICmedio
de al variable
la 95% es indicadora; esto es, el valor esperado
de colesterol HDL por cada incremento de una unidad en la variable del colesterol HDL en los controles
casos
libres ydecontroles.
controles i = 0). El error
la(xenfermedad, IC al estándar
cuyo
95%ICpara al de laladiferencia
95% constantede
es SE(b0) subyacente
esmedias = 0,012 y deviene la
indicadora, lob0que equivale
± t999;0,975 SEa(bla0 )diferencia de medias entre
= 1,09 ± 1,96⋅0,012 casos
= (1,06; (xi = 1) y
1,11).
dado por SE(b1) = 0,017. La constante b0 = 1,09 mmol/l estima la media del
pendiente
Por otra parte,
controles (xi =la0).pendiente
El IC al 95%b1 = – 0,11
para lammol/l
diferencia determina
de medias el cambio
subyacente en elviene
nivel medio de
Por otra parte,
colesterol HDL HDL en la pendiente
porloscada b = -0,11
incremento
sujetos 1 con valorde mmol/l
0 de determina
unala unidad el cambio
variableenindicadora; en
la variableesto el nivel
indicadora,
es, el lo que
b1 ± t999;0,975SE(b1) = -0,11 ± 1,96⋅0,017 = (-0,14; -0,08)
equivale
dado por a la diferencia de medias entre casos (xi = 1) y controles (x i = 0). El IC al 95%
medio de colesterol HDL por cada incremento
para la diferencia de medias subyacente viene dado por de una unidad en la variable 53
y el contraste bilateral de la hipótesis de igualdad de medias H : β = 0 mediante
indicadora, lobque 1 ± tequivale
999;0,975 SEa(b = − 0,11 ± 1,96⋅0,017
la1 )diferencia de medias =entre (− 0,14;
casos−0 0,08)
1
(xi = 1) y
yel el
estadístico
contraste bilateral de la hipótesis de igualdad de medias H0: β1 = 0 mediante el
controles
y (xi = 0).
el contraste
estadístico El IC de
bilateral al 95% para la de
la hipótesis diferencia
igualdadde
demedias
mediassubyacente viene
H0: β1 = 0 mediante

dado por
el estadístico b1 − 0,11
t= = = − 6,35
SE (b1 ) 0,017
b1 ± t999;0,975
resulta en un valor P = 2P(tSE(b1≤) – 6,35)
= b-0,11 ≈±−2F(– 6,35)
1,96⋅0,017
0,11 <= 0,001.
(-0,14;Así,
-0,08)
los casos de infarto de
t=
999 1
= = -6,35
miocardio
resulta en unpresentan
valor Pun = 2nivel
P(t999medio
≤SE (bde
-6,35) colesterol
1) ≈ 0 ,017 HDL
2Φ(-6,35) significativamente
< 0,001. Así, los casos inferior
de que los
sujetos libres de la enfermedad (P < 0,001), con una diferencia
y el contraste bilateral de la hipótesis de igualdad de medias H0: β1 = 0 mediante estimada en 0,11 mmol/l
(IC al 95%
infarto 0,08-0,14presentan
de miocardio mmol/l). un Notar,
nivelpormedioúltimo, que estos HDL
de colesterol resultados son exactamente
resultaaen
iguales los valor P =mediante
unobtenidos 2P(t999 ≤ -6,35)
el test ≈de2Φ(-6,35)
la t de < 0,001.
Student Así,muestras
para los casosindependientes
de
el estadístico
con igual varianza (Ejemplos
significativamente inferior que6.7 losy sujetos
6.8). libres de la enfermedad (P < 0,001),
infarto de miocardio presentan un nivel medio de colesterol HDL
b1 − 0,11
con una diferencia estimadat =en 0,11 mmol/l
= libres (IC=al-6,35
95% 0,08−0,14 mmol/l). Notar,
significativamente inferior queSE los(bsujetos
) 0 ,017 de la enfermedad (P < 0,001),
10.4 REFERENCIAS 1

por último, que


con una diferencia estos resultados
estimada son
en 0,11 exactamente (IC aliguales a los obtenidos mediante
1. Armitage P, Berry G, Matthews JNS.mmol/l
Statistical 95% 0,08−0,14
Methods in Medicalmmol/l). Notar, Fourth
Research,
resulta
Edition. en un valor P = 2P ( t ≤ -6,35) ≈ 2Φ(-6,35) < 0,001. Así, los casos de
deOxford: Blackwell paraScience, 2002.
999
elpor la t que
testúltimo, de Student
estos resultados muestras independientes
son exactamente cona los
iguales igual varianzamediante
obtenidos
2. Bickel PJ,miocardio
infarto de KA. Mathematical
Doksum presentan un nivel medio Statistics: Basic HDL
de colesterol Ideas and Selected Topics.
Englewood
(Ejemplos Cliffs,
6.7 y NJ:
6.8). Prentice Hall, 1977.
el test de la t de Student para muestras independientes con igual varianza
significativamente inferior que los sujetos libres de la enfermedad (P < 0,001),
(Ejemplos 6.7 y 6.8). Pastor-Barriuso R. 191

con una diferencia estimada en 0,11 mmol/l (IC al 95% 0,08−0,14 mmol/l). Notar,
10.4 REFERENCIAS
Correlación y regresión lineal simple

3. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury
Press, 2002.
4. Colton T. Estadística en Medicina. Barcelona: Salvat, 1979.
5. Conover WJ. Practical Nonparametric Statistics, Third Edition. New York: John Wiley
& Sons, 1999.
6. Draper NR, Smith H. Applied Regression Analysis, Third Edition. New York: John Wiley
& Sons, 1998.
7. Kleinbaum DG, Kupper LL, Nizam A, Muller KE. Applied Regression Analysis and
Other Multivariable Methods, Fourth Edition. Belmont, CA: Duxbury Press, 2008.
8. Peña D. Estadística: Modelos y Métodos, Volumen 2, Modelos Lineales y Series
Temporales. Madrid: Alianza Editorial, 1987.
9. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press,
2006.
10. Seber GAF, Lee AJ. Linear Regression Analysis, Second Edition. New York: John Wiley
& Sons, 2003.
11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State
University Press, 1989.
12. Stuart A, Ord JK, Arnold S. Kendall’s Advanced Theory of Statistics, Volume 2A, Classical
Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.
13. Weisberg S. Applied Linear Regression, Third Edition. New York: John Wiley & Sons,
2005.

192 Pastor-Barriuso R.
TEMA 11

REGRESIÓN LINEAL MÚLTIPLE

11.1 INTRODUCCIÓN

En el Tema 10 se presentó la regresión lineal simple como una herramienta para analizar la
relación lineal entre una variable respuesta continua y una única variable explicativa. En la
práctica, sin embargo, suele contarse con más de una variable explicativa y el interés se centra
en estudiar la relación de cada una de las variables explicativas con la variable respuesta,
teniendo en cuenta a su vez las restantes variables explicativas. De este tipo de problemas se
ocupa la regresión lineal múltiple.
En presencia de múltiples variables explicativas asociadas con la variable respuesta, la
utilización de distintos modelos de regresión lineal simple para cada variable explicativa da
lugar a estimaciones imprecisas y a menudo sesgadas de las asociaciones subyacentes con la
variable respuesta. Para ilustrar este hecho, la Figura 11.1 presenta los diagramas de dispersión
entre una variable respuesta Y y una variable explicativa X1, diferenciando mediante puntos y
círculos los valores de otra variable explicativa dicotómica X2. En la Figura 11.1(a), la variable
explicativa X2 está asociada con la variable respuesta Y (los valores de Y tienden a ser mayores
en uno que en otro grupo de X2), pero no con la variable explicativa X1 (los valores de X1 se
distribuyen por igual en ambas categorías de X2). Si se ignora la variable X2 y se ajusta un
modelo de regresión lineal simple entre X1 e Y a toda la nube de puntos (línea gruesa), se
obtiene la misma pendiente que al ajustar distintas rectas para cada valor de X2 (líneas finas)
y, en consecuencia, la asociación entre X1 e Y no estará confundida por X2. No obstante, la
varianza residual alrededor de la recta de regresión es mayor al ignorar la variable explicativa
X2, lo que ocasionará un mayor error estándar en la estimación de la pendiente. Por el contrario,
en la Figura 11.1(b), la variable explicativa X2 está asociada de forma independiente con la
variable respuesta Y y con la variable explicativa X1 (para valores fijos de X1 o Y, los valores
de la otra variable difieren según categorías de X2). La pendiente de la recta de regresión
simple entre X1 e Y (línea gruesa) sobreestima el efecto independiente de X1 sobre Y cuando X2
permanece constante (líneas finas). Esto es debido a que las variables explicativas X1 y X2
están correlacionadas y la regresión lineal simple estimará los efectos confundidos de ambas
variables al no poder discernir entre el efecto independiente de X1 y el efecto inducido por su
asociación con X2.
La principal conclusión del ejemplo anterior es que, si las variables explicativas están
relacionadas entre sí, lo que sucede con cierta frecuencia, la regresión lineal simple puede
proporcionar estimaciones sesgadas de las asociaciones subyacentes de cada variable
explicativa con la variable respuesta. Por ello, los efectos de distintas variables explicativas
deben estudiarse conjuntamente mediante modelos de regresión lineal múltiple. Estos modelos
son una extensión de la regresión lineal simple a la presencia de dos o más variables explicativas,
que pueden ser tanto continuas como categóricas. Como veremos a continuación, la regresión
lineal múltiple permite estimar el efecto independiente de cada variable explicativa,
manteniendo constantes las restantes variables incluidas en el modelo. Su utilidad en los
análisis epidemiológicos es, por tanto, directa ya que facilita estimaciones ajustadas del efecto
de cada variable explicativa.

Pastor-Barriuso R. 193
11.2 lineal
Regresión ESTRUCTURA
múltiple DE LA REGRESIÓN LINEAL MÚLTIPLE

El modelo de regresión lineal múltiple asume que la media de la variable respuesta Y

puede expresarse como una combinación lineal de las variables explicativas X1, ..., Xp;

es decir, para valores fijos x1, ..., xp de estas variables explicativas, el valor esperado de

y
la variable respuesta es

11.2 ESTRUCTURA DE LA REGRESIÓN LINEAL MÚLTIPLE p


E(Y|x1 , ..., xp) = β 0 + β 1 x1 + … + β p xp = β 0 +  β j x j .
j =1

El modelo de regresión lineal múltiple asume que la media de la variable respuesta Y


x1 x1
La constante
puede β0 corresponde
expresarse como una al valor esperado de Y cuando todas las(b)variablesX , ..., X ;
(a) combinación lineal de las variables explicativas 1 p
11.2 ESTRUCTURA DE LA REGRESIÓN LINEAL MÚLTIPLE
Figura 11.1  Diagramas de dispersión de la variable respuesta Y frente a la variable explicativa X1 para
explicativas
es decir,
distintos para
valores son 0, yE(Y|0,
valores
(puntos fijos…,
círculos) = xβpvariable
0)otra
xde
1, ...,
+ βestas
0de … + βp0dicotómica
10 explicativa
+ variables = β0; mientras
explicativas, elque cada
valor
X asociada conesperado
Y pero no de
con X
2 1
(panel a) y asociada
El modelo tanto con Ylineal
de regresión con X1 (panel
comomúltiple b). Las
asume quelíneas gruesas
la media derepresentan
la variablelas rectas de Y
respuesta regresión
simple entre X1 ede
coeficiente Y ignorando
regresión laβvariable X
determina y las
el líneas
cambio finas corresponden
esperado en Y a
porlas rectas
cada de regresión
incremento de para
la variable respuesta es j
cada valor de X2.
2

puede expresarse como una combinación lineal de las variables explicativas X1, ..., Figura Xp; 11.1
una unidad en Xj, manteniendo constantes el resto de variables explicativas, p
11.2  ESTRUCTURA DE LA REGRESIÓN LINEAL MÚLTIPLE
es decir, para valores E(Y|xfijos x1x, p...,
1 , ..., ) =xβp 0de
+ estas
β 1 x1 +variables p = β 0 +  βelj x
… + β p xexplicativas, valor
j .
esperado de
El modelo de regresión
E(Y|x1 , ...,lineal
xj-1, xjmúltiple
+ 1, xj+1,asume..., xp ) -que , ..., xp )de la variable respuesta Y puede
la 1media
E(Y|x j =1

la variable
expresarse respuesta
como es
una combinación lineal de las variables explicativas X1, ..., Xp; es decir, para
valores fijos x1, ...,β0xpcorresponde
La constante =deβestas
0 + β 1variables
x1 +al… +explicativas,
valor β j-1 deel
xj-1 + β j(x
esperado Yvalor
j + 1) + esperado
cuando xj+1 +de
β j+1todas …lavariables
las +variable
β p xp respuesta es
p
E(Y|x ...,βx1 xp)1 =+ β…
(β10, +
explicativas son 0,- E(Y|0, …, 0) =0 β+0 +
+ ββ1pxx1p )+=…β j+  β j x j que
β10 + …. +β pβxpp0==ββ00;+mientras .
j =1
cada

La Así,
constante
coeficiente β0decorresponde
los coeficientesregresión βalj determina
de regresión valor esperado
asociados a de
el cambio cada Yesperado
cuando en
variable todas lascada
Y por
explicativavariables explicativas
noincremento
pueden de
estar
son 0, E(Y|0, …, 0) =
La constante β0 corresponde β 0 + β 1 0 + … + β 0 =
al valor pesperadoβ 0 ; mientras que cada coeficiente
de Y cuando todas las variables de regresión βj
determina
una unidad
confundidos el cambio
porXlas
en esperado
j, manteniendo
demás variables en Y porexplicativas,
cadaelincremento
constantes restoyadeque deéstas
variables unidad en Xconstantes.
unapermanecen
explicativas, j, manteniendo
constantes el resto de variables explicativas,
explicativas son 0, E(Y|0, …, 0) = β0 + β10 + … + βp0 = β0; mientras que cada
En este sentido, E(Y|xy 1a, diferencia
..., xj –1, xj +de1,laxjregresión
+1, ..., xp ) –simple,
E(Y|x1 ,los..., coeficientes
xp ) de regresión lineal
coeficiente de regresión βj determina el cambio esperado en Y por cada incremento de
= β 0 + β 1 x1 + … + β j –1 xj –1 + β j(xj + 1) + β j+1 xj+1 + … + β p xp
múltiple facilitan el efecto independiente de cada variable explicativa sobre la variable
una unidad en Xj, manteniendo– ( β 0 + β 1 x1 constantes
+ … + β p xpel) =restoβ j. de variables explicativas,
respuesta ajustando o controlando por posibles diferencias en la distribución de las
Así, los coeficientes de regresión asociados a cada variable explicativa no pueden estar
confundidos por E(Y|x , ..., xj-1variables
las 1demás , xj + 1, xexplicativas,
j+1, ..., xp) - E(Y|x 1, ...,
ya que xp) permanecen constantes. En este
éstas
restantes variables explicativas incluidas en el modelo.
sentido, y a diferencia de la regresión simple, los coeficientes de regresión lineal múltiple
Así, los coeficientes de regresión asociados a cada variable explicativa no pueden estar
= β0 + β1 x1 + …
facilitan el efecto independiente βj-1xj-1variable
de+ cada + βj(xj +explicativa
1) + βj+1xj+1sobre
+ … +laβvariable
p xp respuesta
Para completar la estructura general de la regresión lineal múltiple, se asume que los
ajustando o controlando por posibles diferencias en la distribución de las restantes variables
confundidos por las demás variables explicativas, ya que éstas permanecen constantes.
explicativas incluidas-en (βel+modelo.
β1x1 + …respuesta
+ β p x p ) = β j.
valores individuales de0 la variable se distribuyen normalmente alrededor del
Para completar
En este sentido,layestructura
a diferencia general
de lade la regresión
regresión simple,lineal
losmúltiple, se asume
coeficientes que loslineal
de regresión valores
individuales
valorlos
Así, de la definido
esperado variable
coeficientes respuesta
por
de regresión se distribuyen
la ecuación
asociados a cadanormalmente
de regresión, alrededornodel
variable explicativa valor estar
pueden esperado
múltiple
definido la ecuación
por facilitan de regresión,
el efecto independiente de cada variable explicativa sobre la variable
confundidos por las demás variables explicativas, ya que éstas permanecen constantes.
Y|x1 , ..., xp ~ N(β 0 + β 1 x1 + … + β p xp , σ 2),
orespuesta ajustando o controlando por posibles diferencias en la distribución de las
equivalentemente
o equivalentementey a diferencia de la regresión simple, los coeficientes de regresión lineal3
En este sentido,
restantes variables explicativas incluidas en el modelo.
múltiple facilitan el efecto independiente Y = β 0 + β 1 xde1 + … + β p xp + ε ,
cada variable explicativa sobre la variable
Para completar la estructura general de la regresión lineal múltiple, se asume que los
194 respuesta
donde el error
Pastor-Barriuso ajustando
R. o controlando
aleatorio ε en la variable por posibles
respuesta diferencias
sigue unaendistribución
la distribución
normal de las
con
valores individuales de la variable respuesta se distribuyen normalmente alrededor del
restantes
media 0 yvariables
varianzaexplicativas
σ 2 para cualquier incluidas
valoren de el modelo.
las variables explicativas. De esta
valor esperado definido por la ecuación de regresión,
Estructura de la regresión lineal múltiple

donde el error aleatorio ε en la variable respuesta sigue una distribución normal con media 0 y
varianza σ 2 para cualquier valor de las variables explicativas. De esta especificación del modelo
de regresión lineal múltiple, se desprenden las siguientes asunciones:
yy Linealidad: El valor esperado de la variable respuesta Y cambia linealmente con cada
variable explicativa Xj, de tal forma que para valores fijos de las demás variables
explicativas, cambios de magnitud constante a distintos niveles de Xj se asocian con un
mismo cambio en la media de Y.
yy Aditividad: El efecto conjunto de varias variables explicativas sobre la variable respuesta
es la suma de sus efectos independientes.
yy Homogeneidad de la varianza: La varianza de la variable respuesta permanece constante
para cualquier valor de las variables explicativas.
yy Normalidad: Dados unos valores fijos de las variables explicativas, la variable respuesta
se distribuye de forma normal.
En el caso de dos variables explicativas, estas asunciones pueden representarse mediante el
gráfico tridimensional de la Figura 11.2. Debido a las hipótesis de linealidad y aditividad, los
valores esperados de Y para cualquier combinación de X1 y X2 se sitúan en el plano definido por
la ecuación de regresión β0 + β1x1 + β2x2. Asimismo, por las asunciones de homogeneidad de la
varianza y normalidad, los valores individuales de Y para cualquier combinación de X1 y X2 se
distribuyen de forma normal y con la misma varianza alrededor de dicho plano de regresión.
Las hipótesis de linealidad y homogeneidad de la varianza se evaluarán utilizando procedimientos
de diagnóstico gráfico similares a los empleados en regresión lineal simple. Las desviaciones
de la asunción de aditividad se explorarán, por su parte, mediante la inclusión de términos de
interacción entre las variables explicativas.

Plano de regresión:
Y E(Y|x1, x2) = 0 + 1x1 + 2x2
0 + 1xj1 + 2xj2

0 + 1xi1 + 2xi2

xi1 xj1

xj2 X1

xi2

X2

Figura 11.2  Asunciones subyacentes al modelo de regresión lineal múltiple con dos variables explicativas.

Pastor-Barriuso R. 195
• individuales sobre
Independencia la variable
lineal respuesta explicativas:
de las variables serían indiscernibles.
Ninguna variable explicativa
Regresión lineal múltiple
es una combinación lineal exacta de las demás ya que, en tal caso, sus efectos
Ejemplo 11.1 Supongamos que un modelo de regresión lineal múltiple incluye
individuales
A estas sobre la variable respuesta serían indiscernibles.
comoasunciones, análogas a las
variables explicativas la utilizadas en regresión
presión arterial lineal
sistólica X1 ysimple, se añaden
la presión arterialdos nuevas
condiciones necesarias para poder estimar la ecuación de regresión:
yy Independencia
Ejemplo X2, Supongamos
diastólica11.1 lineal de lasque
variables explicativas:
un modelo de regresiónNinguna
lineal variable
múltipleexplicativa
incluye es una
combinación lineal exacta de las demás ya que, en tal caso, sus efectos individuales sobre
lacomo
variable respuesta
variables serían indiscernibles.
explicativas laY presión sistólica X1 y la presión arterial
= β 0 + βarterial
1 x1 + β 2 x2 + ε .

Ejemplo 11.1 
diastólica X2, Supongamos que un modelo de regresión lineal múltiple incluye como
Si se añade además la la
variables explicativas presión delarterial
presión pulso,sistólica
definidaXcomo la diferencia entre la
1 y la presión arterial diastólica X2,

Y = β 0 +Xβ3 1=x1X+1 -β 2Xx22, +elεmodelo


presión arterial sistólica y diastólica . resultante puede
Si se añade además la presión del pulso, definida como la diferencia entre la presión
reescribirse
Si se añade
arterial como
además
sistólica la presiónX3del
y diastólica = Xpulso,
1 – X2,definida
el modelo como la diferencia
resultante puede entre la
reescribirse como

presión arterial sistólica


Y=y diastólica X3α=2 xX2 1+- αX32x,3el+ modelo
α 0 + α 1 x1 + ε resultante puede
= α 0 + α 1 x1 + α 2 x2 + α 3 (x1 – x2 ) + ε
reescribirse como
= α 0 + (α 1 + α 3 )x1 + (α 2 – α 3 )x2 + ε ,
que es algebraicamente α0 + α1x1 +alαmodelo
Y =equivalente 2x2 + α3anterior
x3 + ε con β1 = α1 + α3 y β2 = α2 – α3.
Existen, por tanto, infinitas combinaciones de los parámetros α1, α2 y α3 que dan lugar a
la misma ecuación de regresión
= α0 + α(para
1x1 + cualquier
α2x2 + α3(x valor ) +αε3, basta tomar α1 = β1 – α3 y α2
1 - x2de
que es algebraicamente equivalente al modelo anterior con β = α + α y β2 = α2
= β2 + α3 para obtener los mismos coeficientes de regresión β11 y β21). Así,3 como la presión
del pulso es una combinación
= α0 +lineal
(α1 +exacta
α3)x1 +de(αla2 presión
- α3)x2 +arterial
ε, sistólica y diastólica, no
- αposible
es 3. Existen, por tanto,
determinar infinitas
unívocamente combinaciones de los parámetros
los efectos independientes α1, αuna
de cada 2 y αde
3 que
estas tres
variables explicativas.
que
dan es algebraicamente
lugar equivalente
a la misma ecuación al modelo
de regresión anterior
(para con βvalor
cualquier 1 = αde
1 +αα33, basta
y β2 = α2
yy El número de observaciones n debe ser superior o igual al número de coeficientes p + 1 de
la- αecuación
3. Existen,
depor tanto, infinitas
regresión. combinaciones
Este requerimiento de los
resulta parámetros
obvio α1, de
en el caso α2 py =
α32que
variables
explicativas (véase Figura 11.2), ya que para determinar el plano de regresión se necesitan
5
aldan lugarna=la3misma
menos puntosecuación de regresión
u observaciones (para cualquier valor de α3, basta
no alineadas.
Cabe destacar que estas dos condiciones son requerimientos teóricos mínimos para estimar
la ecuación de regresión. En la práctica, sin embargo, el número de observaciones ha de ser muy
superior al número de coeficientes de regresión para poder obtener estimaciones precisas 5 de
estos coeficientes y no incurrir en problemas de sobreajuste (esto es, modelar el error aleatorio
en lugar de la relación subyacente). Un criterio habitual es no incluir más variables explicativas
que el número de observaciones dividido por 10. Asimismo, aunque las variables explicativas
no presenten una correlación lineal perfecta, es importante evaluar su grado de colinealidad. Si
las variables explicativas son muy dependientes entre sí, resulta muy difícil separar sus efectos
e identificar la contribución individual de cada una de ellas, lo que provocará estimaciones
inestables de los coeficientes de regresión. Este problema se conoce como multicolinealidad y
se tratará más adelante en el apartado de diagnóstico del modelo de regresión lineal múltiple.

11.3  ESTIMACIÓN E INFERENCIA DE LA ECUACIÓN DE REGRESIÓN

En este apartado se presenta, en primer lugar, el procedimiento de estimación de los coeficientes


de regresión lineal múltiple. A continuación, se describen las propiedades de los estimadores y se
derivan intervalos de confianza y tests de hipótesis para los coeficientes de regresión. Finalmente,
se presentan intervalos de confianza para el valor esperado de la variable respuesta e intervalos de
predicción para una nueva observación en función de los valores de las variables explicativas.

196 Pastor-Barriuso R.
coeficientes de regresión β0, β1, …, βp se obtienen mediante el método de mínimos
Estimación e inferencia de la ecuación de regresión
cuadrados a partir de una muestra de n observaciones (yi, xi1, …, xip) mutuamente

independientes. En concreto, tal y como se muestra en la Figura 11.3 para dos variables
11.3.1  Estimación de los coeficientes de regresión
explicativas, se trata de estimar los valores b0, b1, …, bp que minimicen la suma de
Al igual que en regresión lineal simple, las estimaciones puntuales b0, b1, …, bp de los coeficientes
de regresión β0, β1, …, βp se obtienen mediante el método de mínimos cuadrados a partir de
una cuadrados
muestra de de los errores o residuos
n observaciones ei x= y) i mutuamente
(yi, xi1, …, ip
- ŷ i , que corresponden a las En
independientes. distancias
concreto, entre
tal y
como se muestra en la Figura 11.3 para dos variables explicativas, se trata de estimar los valores
b0, blos valores observados yi de la variable respuesta y los correspondientes valores
1, …, bp que minimicen la suma de cuadrados de los errores o residuos ei = yi – ŷi, que
corresponden a las distancias entre los valores observados yi de la variable respuesta y los
estimados o predichos
correspondientes por la ecuación
valores estimados de regresión
o predichos ŷ i = b0 +debregresión
por la ecuación 1xi1 + … +ŷib=pxbip0, + b1xi1 + …
+ bpxip,
n n n
SSE =  ei2 =  ( y i − yˆ i ) 2 =  ( y i − b0 − b1 xi1 − ... − b p xip ) 2.
i =1 i =1 i =1

Para estimar los coeficientes de regresión que minimizan esta suma de cuadrados del error,
se calculan las derivadas parciales de SSE respecto a b0, b1, …, bp y se igualan a cero, resultando
[Figura 11.3 aproximadamente aquí]
el sistema de p + 1 ecuaciones lineales
∂SSE n n
= −2 ei = −2 ( y i − b0 − b1 x i1 − ... − b p x ip ) = 0,
Para estimar los
∂b0 coeficientes
i =1
de regresión
i =1
que minimizan esta suma de cuadrados del
∂SSE n n
= −2las
error, se calculan i = −2 x ij ( y i − b0 − b1 x i1 − ... − b p xip ) 0= 0,
xij ederivadas parciales de SSE respecto a b , b1, …, bpj = y se igualan
1, …, p. a
∂b j i =1 i =1

cero, resultando el sistema de p + 1 ecuaciones lineales


En general, este sistema lineal se resuelve utilizando álgebra de matrices. En el Apéndice al
final del tema se derivan las fórmulas matriciales para calcular b0, b1, …, bp que, bajo las
En general,
asunciones de este sistemaylineal
linealidad se resuelve
aditividad, son utilizando
estimadores álgebra de matrices.
insesgados de losEncoeficientes
el de

Apéndice al final del tema se derivan las fórmulas matriciales para calcular b0, b1, …, bp
(xi1, xi2, yi) Plano de regresión estimado: 7
y yˆ = b0 + b1 x1 + b2 x2
que, bajo las asunciones de linealidad y aditividad, son estimadores insesgados de los

coeficientes de regresión β0,eiβ=1,y…,


i − yiβp. En el caso particular de dos variables
ˆ

explicativas, puede comprobarse que estos estimadores vienen dados por


( xi1 , xi 2 , yˆ i )
ryx1 − ryx2 rx1 x2 s y
b1 = ,
1 − rx21 x2 s x1

ryx2 − ryx1 rx1 x2 s y


b2 = ,
1 − rx21 x2 s x2
x1
b0 = y - b1 x1 - b2 x 2 .

De estasx2expresiones se deduce que, si las variables explicativas X1 y X2 están

Figura 11.3  Error o desviación


incorrelacionadas rx1 x2 = 0,del
lasvalor observado de
estimaciones de lalosvariable respuesta
coeficientes de respecto valorFigura
a sumúltiple
regresión
11.3
estimado
se
por el plano de regresión.

reducen a b1 = ryx1 s y / s x1 y b2 = ryx2 s y / s x2 , que son iguales a las obtenidas en regresión


Pastor-Barriuso R. 197
simple (véase Apartado 10.3.1). Por tanto, cuando las variables explicativas están

incorrelacionadas, sus coeficientes estimados por regresión múltiple coinciden con los
ficientes de regresión β0, β1, …, βp. En el caso particular de dos variables explicativas, puede comprobarse que es
s, puede comprobarse que estos estimadores vienen dados por
que, bajo las asunciones de linealidad y aditividad, son estimadores insesgados de los
licativas, puedeRegresión comprobarse lineal múltiple que estos estimadores vienen dados por ry
r − r r s b1 =
coeficientes yx de yx regresión
2 x1 x 2 y β0, β1, …, βp. En el caso particular de dos variables
b1 = 1 ,
1 − rxr1 xyx2 1 − rsyxx21rx1 x2 s y
2

explicativas,
regresión β0, βb1,1 puede= β .comprobarse
…, p1 −Enr 2el casos particular , estosdeestimadores
que dos variables vienen dados porpuede comprobarse
explicativas, ry
x1 x 2 x
e XX11eeYY rryxyx1 1(como
re (como
que ocurre ocurre
estos en
en regresión
ryxregresión
estimadores − r r lineal
lineal
vienen s simple),
simple),
dados 1
porsino sinotambiéntambiénde desus sus b2 =
yx1 x1 x 2 y
entre X1 e Y ryx11 (como b2 = ocurre 2
en2 regresión, lineal simple), r −sino r rtambién s de sus
1 − rxr1yxx22 − rsyxx12rx1 x2 s y b1 = yx1 yx2 x1 x2 y ,
pectivas correlacionescon
ectivas correlaciones conlalavariablevariable
b2 = X X rr
22 yxyx2 2 y y r r .
x1xx1 2x2 ,. 1 − rx1 x22
s x1
1 − rx21 x2 s x2 b0 = y
respectivas correlaciones con la variable X2 ryx22 y rx11x22 .
b0 = y - b1 x1 - b2 x 2 . r 22
2yx − r r s
b2 =σσ de delalayxvariable
1 x1 x 2 y
Unavez
Una vezestimada
estimadalalaecuación ecuaciónde deregresión,
regresión,lalavarianza varianza variable respuesta
respuesta
,
b0 = y - b1 x1 - b2 x 2 . 2
1 − rx21 x2 s x2 De estas expresiones se deduce que, si l
Una vez estimada la ecuación de regresión, la varianza σ de la variable respuesta
xpresiones
ededor
dedor de se deduce
dedicha
dicha ecuación
ecuación que,se siestima
se las variables
estima mediante
mediante explicativas varianza
lalavarianza X1 residualX2 están
yresidual
b0 = y − b1 x1 − b2 x 2 . incorrelacionadas rx1 x2 = 0, las estimaci
estas alrededor
expresiones de dicha ecuación
se deduce que,sesiestima las variablesmediante la varianza
explicativas X1residual
y X2 están
onadas rx1 x2 = 0, Delas estimaciones dese
estas los coeficientes que, si de lasregresión
variables múltiple se X y X están incorrelacionadas
SSE expresiones
SSE 11 nndeduce explicativas
22
  22 1 2
orrelacionadas s =
s = r = 0,, las =
= estimaciones ( y
( ydeii− −
los b −
b00coeficientes b x − ... −
− b11x i1i1 − ... −deb pregresión b x
px ipip) ,) , múltiple se reducen a b1 = ryx1 s y / s x1 y b2 = ryx2 s y /
n1n−2−2 pp−−11SSE
x x nn−− pp−−11i =i1=11 n
b1 = ryx1 s y / s x1 y bs2De == estas / s x2 ,=,que
ryx2 s yexpresiones
n − p − 1
queson
n −
son
p
seiguales


iguales
1
deduce ( yai alas −las
que, bobtenidas
0 si − blas 1 x ivariables
obtenidas 1 − en...en b pexplicativas
− regresión
regresión 2
x ip ) simple , (véase
X1 y XApartado
2 están
10.3.1). Por
ucen a b1 = ryx1 stanto, cuando las variables explicativas están incorrelacionadas, sus coeficientes estimados por10.3.1). Por tan
i = 1
y / s x1 y b2 = r yx2 s y / s x 2 , que son iguales a las obtenidas en regresión
simple (véase Apartado
nde
de la
la suma
suma
ase Apartado 10.3.1). de
de cuadrados
regresión
cuadrados del
múltiple
del
incorrelacionadas error
error
Por tanto, cuando SSE
coinciden
SSE sese
rx1 x2las divide
divide
= variables con por
por
0, las estimaciones los nn - - pp
obtenidos
-
explicativas -1 1 yaya que,
de
que,
de están una
distintas
una vezvez regresiones
los coeficientes de regresión múltiple se simples para cada
donde variable
laApartado
suma de explicativa.
cuadrados del Por
errorcuandoel
SSE contrario,
selas divide cuando las
por nexplicativas
-lineal variables
p - 1 simple),
ya que, explicativas
una vez están correlacionadas,
incorrelacionadas, sus coeficientes estim
ple
mados
mados (véase los
los pp + + 11
sus 10.3.1).
entre
coeficientes
efectos
coeficientes e de Y
X1 ajustados
Por
de rregresión,
yxtanto,
(como
regresión, mediante ocurre
loslos n n envariables
errores
regresión
errores regresióno o desviaciones
múltiple
desviaciones pueden de de están
lala sino
variable
diferir
variable también
notablemente de susde sus efectos
onadas, sus coeficientes estimados
a b1 = las
1
por regresión
ryx1restantes
s y / s x1 y variables múltiple
b2 = ryx2 sexplicativas. coinciden con los
crudos reducen ignorando y / s x 2 , que son Así,iguales por ejemplo, a las obtenidas la relación en de regresión
la variable
estimados
orrelacionadas, lossusp + 1 coeficientes
coeficientes estimadosde regresión,
por los
regresión n errores
múltiple o desviaciones
coinciden con de la
los obtenidos
variable de distintas regresiones simpl
puesta
deuesta respecto
respecto
distintas aa la
explicativa
la
regresiones ecuación
ecuación
respectivas
simples X 1dedecon regresión
la
regresión
correlaciones
para variable
cada contienen
contienen
con
variable respuesta
la n n -
variable -p
explicativa. p
Y -- 1 1
X grados
ajustando
grados
r
2 Por y dede
por
yx2 el x1 x2 r libertad.
la
libertad.
. variable Bajo
Bajo X 2 se estima mediante el
como ocurre encoeficiente regresión
simple lineal
(véase simple),
Apartado sino10.3.1). también Por detanto,sus cuando las variables explicativas están
entre X e Y r
respuesta respecto de regresión
a la ecuación múltiplecontienen
de regresión b1, que depende n - p - 1 no grados sólo de delibertad.
la correlación Bajo entre
contrario, cuando yx1 (comoexplicati
X11 las variables ocurre e
enidos
hipótesis de distintas
de linealidad, regresiones
aditividad simples para
yyhomogeneidad
homogeneidad cada variable
de explicativa. Por el
hipótesis
cuando lasde linealidad,
(comoexplicativas
variables Unaaditividad
ocurre vezenestimadaregresión
están la lineal
correlacionadas,
ecuación simple),dedelala susvarianza,
varianza,
sino
regresión, también
efectos lalala varianza
varianza
ajustados
varianzade susσrespectivas 2
de la variable correlaciones
respuestacon la
laciones con la variable
las2hipótesis incorrelacionadas,
de linealidad, X2 ryx2aditividad sus coeficientes estimados
y rx1 x2 .. y homogeneidad de la varianza, la varianza mediante respectivas por regresión múltiple coinciden con los múltiple pueden dife
regresión
trario, 2cuando las variables explicativas están correlacionadas, 2sus 2 efectos ajustados correlaciones con l
idual
dual
egresión ss es esmúltiple
unestimador
un estimador
pueden
Una
alrededor
insesgado
insesgado
diferir
vez estimada del
del
notablemente
dichalaecuación
de distintas
parámetro
parámetro
ecuaciónsedeestima de poblacional
poblacional
sus efectos
regresión, medianteσσ .
crudos .
la varianza la varianza σ de la
2
variable respuesta alrededor
residual
2 obtenidos de regresiones
2 simples para cada 2 variable explicativa. Por el
ignorando lasUna restantes variables explica
ada residual
la s
ecuación es
de un
de estimador
regresión,
dicha ecuación lainsesgado
varianza
se estima
diante regresión múltiple pueden diferir notablemente de sus efectos crudos σ
del parámetro
de
mediante la variablela poblacional
respuesta
varianza σ
residual . vez estimada la ecuaci
las restantes variables explicativas. Así, por ejemplo, la relación de la
Ejemplo11.2
Ejemplo 11.2En En contrario,
elelEjemplo
Ejemplo cuando 10.7
10.7 2 selas
seestudióSSE antioxidantes
variables
estudió explicativas
lalarelación
relación 1 del en
del el riesgo
n están
índice
índice de demasa de
correlacionadas,
masa desarrollarsus unefectos
variable
primer ajustados
infarto agudo de miocardio e
explicativa X con la variable re
orando las restantes variables explicativas. Así, por ejemplo,la relación
a ecuación se estima mediante la varianza residual 2
s = = ( y i − b −
0 de1 la b x i1 − ... − b x
p ip ) , alrededor de1dicha ecuación se
plicativaEjemploX1 con la11.2 En elrespuesta
variable Ejemplo Y10.7 n ajustando
− pse−hombres 1 npor
estudió − la padultos.
la − 1 i =1 Los
relación
variable del índice
X2valores
se estima de masa
obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84
corporalcon
corporal mediante
conelelcolesterol
colesterolHDL regresión
HDLutilizando múltiple
utilizando ununpuedenmodelodiferir
modelo deregresión
de notablemente
regresión linealsimple.
lineal de
simple.sus efectos crudos
Y ajustando mediante el coeficiente de regresión mú
able SSE explicativadonde X11 con la la n variable
suma respuestadel
de cuadrados error SSE por la variable
se divide por n X–2pse– estima 1 ya que, una vez estimados los
l=coeficiente
nNo
No
corporal
de
p − 1 npexisten
obstante,
−obstante,
con
regresión
= +ignorando
existen
el  colesterol
1−coeficientes
− pdonde otros
1otros
múltiple
la( ysuma
ilas
muchos
muchos 0de
HDL
b
− brestantes 1 , que
cuadrados
utilizando
depende
b1 x i1 variables
− regresión, − ...1,06,
determinantes
determinantes
−los
del
un
no
b p nxerror
0,87, modelo
2sólo de la
) ,SSE
iperrores
explicativas.
dede los
los 1,96 o se
niveles
niveles
de regresión
correlación
ydesviaciones
1,53
divide
Así,
dede mmol/l.
por por
lineal
nde-La
ejemplo,
colesterol
colesterol plaHDL
HDL
simple.
-media
variable
1laya de respuesta
que,
relación los unaniveles
de del colesterol
la respecto
vez as2 = HDL en=
SSE
diante el coeficiente la ecuación
i =1
de regresión de regresión múltiple b1, que depende
contienen n – p – 1 no gradossólo de de libertad.
la correlación 8 Bajo lasHDL hipótesis de linealidad, n − p −1
No obstante, existen otros muchos determinantes de los niveles de colesterol
como,por
como, aditividad
porejemplo,
ejemplo, estimados
variable yexplicativa
elelconsumo homogeneidad
consumo los p de X
+de1alcohol.
1 con
alcohol. de estos
coeficientes laPara
Para varianza,
variable 10
de participantes
laelel
regresión,
obtener
obtener varianza
respuesta efecto
efecto losYes errores so2por
residual
najustando
independiente
independiente es un
desviaciones estimador
la variable X2la
de insesgado
estima del
sevariable
8
cuadrados del parámetro error SSE se divide porσn.- p - 1 ya que, una vez
poblacional 2
donde la suma de cuadrados de
como, por ejemplo, el consumo de alcohol. Para obtener el efecto independiente
dedecada
cadauno unode mediante
deestosrespuesta
estos el
determinantes,
determinantes, coeficiente
respecto ase se de regresión
la podría
ecuación
podría ajustar
ajustar múltiple
de regresiónunmodelo
un modelo bcontienen
1
1 , que
dede depende
regresión
10 regresión n - p -no 1 sólo
grados
0,89 + 1,58 + ... + 1,53 de dela correlación
libertad. Bajo
1 coeficientes de regresión,
de cada uno Ejemplo
los n errores
11.2  En el Ejemplo
de estos determinantes,
o desviaciones
se podría 10.7ajustar de x
la
se estudió =
variable
un10
 x
la relación
modelo
i =1
i =
de regresióndel índice 10 de masa
= 1,223
corporallos
estimados
mmol/l.
con
8 p + 1 coeficiente
linealmúltiple
lineal múltiplecon lasel
con elhipótesis
elcolesterol
colesterol
colesterol deHDL linealidad, comoaditividad
HDLutilizando
como variable
variable un modelo y homogeneidad
respuesta
respuesta de yregresión
yelelíndice índice delineal
dela
demasavarianza,
masa simple. la Novarianza
obstante, existen
o a la ecuación de regresión otros contienen n - p - 1 grados de libertad. Bajo
lineal múltiple conmuchos determinantes de los
2el colesterol HDL como variable respuesta y el índice de 2masa
niveles de colesterol HDL como, por ejemplo,
respuesta el a la ecuació
respecto
corporalyyelelconsumo
corporal residual
consumo consumo desalcohol
de esde
alcohol un alcohol.
estimador
comovariables
como variables insesgado
Para obtener del
explicativas.
explicativas. parámetro
el efecto
La media aritmética presenta las siguientes propiedades: poblacional
independiente σ .
de cada uno de estos
nealidad, aditividad ydeterminantes, homogeneidadsedepodría la varianza, ajustar launvarianza
modelo de regresión lineal múltiple con las el colesterol
hipótesis de linealidad, adit
corporal y el consumo de alcohol como variables explicativas.
EnEnnn==449 449controles
controles HDL delcomo
del estudio
estudio variable
EURAMIC
EURAMIC respuesta
• Cambio
con
con y el
datos
datos índice de
disponibles
disponibles masa de corporal
de estas
estas y el
de origen (traslación). Si se suma una constante a cada uno de los dato consumo de alcohol como
estimadorEn insesgado del
n = 449 controles
Ejemplo
parámetro
variables del
11.2 En el Ejemplo
poblacional
explicativas.
estudio EURAMIC σ 2. 10.7 se estudió la relación del índice de masa
con datos disponibles de 2estas residual s2 es un estimador ins
2
variables,lalamedia
variables, mediaEn yylala desviación
ndesviación
= 449 controles típicadel
típica fueron
fueronde unaxx1muestra,
estudio 1= =26,226,2yylassmedia
EURAMIC ==3,61
x1x1 con 3,61de kg/m
datos kg/m
la muestra
disponiblespararesultante
para de estas esvariables,
igual a la la media inicial má
corporal con el colesterol HDL utilizando un modelo de regresión 22
lineal simple.
variables, la media yy la la típica fueron x1 = 26,2 y s x11 == 3,61 3,61 kg/m kg/m para para el índice de masa
1.2 En el Ejemplo 10.7media se estudiódesviación la relación del índice de masa
elelíndice
índicede demasa
masacorporal,corporal,xx22 ==16,5
corporal, 16,5yyy ssxx2 2===21,8
16,5 constante 21,8g/día
21,8 utilizada;
g/díapara
g/día parael
para si y
elelconsumo
consumo
consumoi = x +
i de c
dedealcohol y y == 1,08
, entonces x + yc.sEjemplo
Un 0,29511.2
= cambio deEn el Ejem
origen qu
No obstante, existen otros muchos fue fuer determinantes
r = -0,091
= -0,091 y de
las
y los
las niveles
correlaciones
correlaciones de colesterol
de de
estasestas
y HDL
variables
variables explicativas
explicativas co
n el colesterol el índice HDL mmol/l
deutilizando
masa para
corporal, unelmodelo colesterol
x 2 = 16,5 HDL.
de regresión y s x22 El = 21,8coeficiente
lineal
x1 x2 x1 x2 de correlación de Pearson entre el índice de
g/día
simple. para el consumo de corporal con en el colestero
alcoholyy yy ==1,08
alcohol 1,08masa yysscomo, corporal
yy==0,2950,295 pormmol/l
y el consumo
mmol/l
ejemplo, para
para elseconsumo
elelrealiza de alcohol
colesterol
colesterol con HDL.
HDL.
de alcohol. fue El
frecuencia rEl == – 0,091
es -0,091
el centrado
2coeficiente
1 xcoeficiente
xPara obtener
yde
ydeellas
lasde
efecto
correlaciones
correlaciones
variable, de
la independiente deestas
que estas variables
consiste explica
restar a
e, existenalcohol otros muchos variables
determinantes explicativas de mmol/l
los nivelescon el colesterol
colesterol
colesterol
deelcolesterol HDLHDL
HDL HDL fueron
fueron fueron r r
yx1 yx1 = – 0,273
-0,273
= -0,273 y r
yy r =
yx2 yx2 0,232,
0,232,
= 0,232, respectivamente.
respectivament L
y y respectivamente.
= 1,08 y sy = 0,295 Las estimaciones para colesterol
losmuestra HDL.
coeficientes El coeficiente
de fueron
regresión de No obstante, existen otro
correlaciónde
correlación Pearsonde
dePearson cadaeleluno
entre
entre índice
índice de estos
dedemasa masacada
determinantes, valor deyyla
corporal
corporal elel podría su
colesterol
seconsumo
consumo ajustar
de
de media.
HDL un La
alcohol
alcohol modelo mediaryx1 múltiple
de=deregresión
-0,273 sey obtienen
una variable ryx2 =centrada será, por
0,232, respectiva
ejemplo, el consumo de entonces
de Pearson
alcohol. entre como
Para obtener elde efecto estimaciones
estimaciones
independiente de de loslos coeficientes
coeficientes de de
regresión
regresión múltiple
múltiple se se
obtienen
obtienenento
e
correlación el índicetanto, masaigual corporal
a 0. y el consumo de alcohol como, por ejemplo, el co
lineal múltiple con el colesterol HDL como estimaciones variablederespuesta los coeficientes y el índice de masa múltiple se obtie
de regresión
o de estos determinantes, se R.podría ajustar un modelo de regresión r r− r− rr r s s de cada uno
198 Pastor-Barriuso
• Cambio de escala (unidades). yx yx Si yx2 se x1 x29y9 y − 0−
x12x2multiplica ,273
0,273+ 0+,2320,232⋅ 0,⋅091
0datos0,de
,091 295 estos
0de,295 dete
= = cada uno de2 los una
yx
corporal y el consumo de alcohol comobvariables 1b =1 = 1 1explicativas. = -0,02
= -0
ple con el colesterol HDL como variable respuesta y el índice de masa 1 −1r−x1rxr2yxx1 x2− sryxx1 2srxx11x2 9s y 1 −−100−,,091
2 2 2
0,091
273 + 0,232 3⋅ 0,61 ,3091
,61 0,295
b = = lineal múltiple con el col
En n = 449 controles muestra por EURAMIC
una constante, conladatos media −de r 2la muestra resultante1 − 0es igual a la media
1
del estudio 1disponibles s de estas ,091 2
3,61
colesterolbHDL ryxfueron
− ryx2 rrx1x2 =s y-0,273 − 0,y273
ryx2+ =0,0,232,
232 ⋅ 0,respectivamente.
091 0,295 Las
1=
1
yx1 = = -0,0207,
2
1 − rx1x2 s x1 1 − 0,091 2
3,
Estimación 61
e inferencia de la ecuación de regresión

estimaciones de los coeficientes de regresión múltiple se obtienen entonces como


ryx − ryx1 rx1x2 s y 0,232 − 0,273 ⋅ 0,091 0,295
b2 = 2 = = 0,0028,
ryx1 −1 −ryxr2xr1xx21x2 s sy x2 − 0,2731 +− 0,232
2
0912⋅ 0,091 021 ,8
,295
b1 = = = − 0,0207,
1 − rx21x2 s x1 1 − 0,0912 3,61
b0 = y - b1 x1 - b2 x 2 = 1,08 + 0,0207⋅26,2 - 0,0028⋅16,5 = 1,58,
ryx − ryx1 rx1x2 s y 0,232 − 0,273 ⋅ 0,091 0,295
b2 = 2 = = 0,0028,
1 − rx1x22
s x2 1 − 0,0912 21,8
de donde resulta la ecuación de regresión
b0 = y − b1 x1 − b2 x 2 = 1,08 + 0,0207⋅26,2 − 0,0028⋅16,5 = 1,58,
ŷ = 1,58 - 0,0207x1 + 0,0028x2,
de donde resulta la ecuación de regresión
ŷ = 1,58 – 0,0207x1 + 0,0028x2,
condonde
de una varianza
resulta laresidual delde
ecuación colesterol
regresiónHDL respecto a dicha ecuación
con una varianza residual del colesterol HDL respecto a dicha ecuación
SSE 1 449 ŷ = 1,58 - 0,0207x1 + 0,0028x2, 2 34,33
s2 = =  { y i − (1,58 − 0,0207 xi1 + 0,0028 xi 2 )} = 446 = 0,077.
446 446 i =1
con una
Estas varianza residual
estimaciones pueden del colesterol
obtenerse HDL respecto
directamente a dicha
de ajustar unaecuación
regresión lineal múltiple
Estas
del estimaciones
colesterol pueden
HDL sobre obtenerse
el índice directamente
de masa corporal y eldeconsumo
ajustar una regresión
de alcohol lineal
en los programas
estadísticos
SSEconvencionales,
1 449 cuyos resultados completos se muestran en
34,33 la Tabla 11.1.
s2 = del colesterol
múltiple
La ecuación
= 
446de regresión
{ y i − sobre
HDL ,0207 xde
(1,58 −el0índice i1 +masa
0,0028 x i 2 )}2 y= el consumo
corporal
446 i =1 puede utilizarse para estimar el valor esperado 446
= 0,077.
de colesterol
del
HDL en función del índice de masa corporal y el consumo de alcohol. Así, por ejemplo,
alcohol
para en los programas
un índice estadísticos
de masa corporal de 25convencionales, cuyos resultados
kg/m2 y un consumo de alcoholcompletos
de 20 g/día, el
Estas estimaciones pueden obtenerse directamente de ajustar una
modelo estima un nivel medio de colesterol HDL de ŷ(25, 20) = 1,58 – 0,0207 ∙ 25 regresión lineal +
se muestran= en
0,0028 ∙ 20 la mmol/l.
1,12 Tabla 11.1.
múltiple del colesterol HDL sobre el índice de masa corporal y el consumo de
Las estimaciones b1 y b2 determinan el efecto independiente de cada variable explicativa sobre
la variable
alcohol enrespuesta, una vez
los programas [Tablacontroladas las posibles diferencias
11.1 aproximadamente
estadísticos convencionales, cuyosen
aquí] la otra variable
resultados explicativa.
completos

se muestran en la Tabla 11.1.


La ecuación
Tabla de regresiónde
11.1  Resultados puede utilizarselineal
la regresión para múltiple
estimar eldel
valor esperado
colesterol del sobre
HDL
el índice de masa corporal (IMC) y la ingesta de alcohol en los controles del
colesterol
estudio HDL en función
EURAMIC. del11.1
[Tabla índice de masa corporalaquí]
aproximadamente y el consumo de alcohol.
Análisis de la varianza*
Así, por ejemplo, para un índice de masa corporal de 25 kg/m2 y un consumo de
La ecuación de regresiónSuma puede
de Gradospara
utilizarse de estimar el valor esperado
Razón
del de
cuadrados libertad Varianza varianzas
alcohol de 20 g/día, el modelo estima un nivel medio de colesterol HDL de ŷ (25,
Regresión
colesterol HDL en función 4,58 del índice de masa
2 corporal y2,29
el consumo de29,72
alcohol.
20) = 1,58 - 0,0207⋅2534,33
Error + 0,0028⋅20 = 1,12 446 mmol/l. 0,077
Así, por ejemplo, para un índice de masa corporal de 25 kg/m2 y un consumo de
Total 38,91 448
10
*  Coeficiente
alcohol de 20deg/día,
determinación R2 =estima
el modelo 4,58/38,91
un =nivel
0,118.
medio de colesterol HDL de ŷ (25,
Coeficientes de regresión
20) = 1,58 - 0,0207⋅25 + 0,0028⋅20 = 1,12 mmol/l.
Test H0: βj = 0
Estimación Error estándar IC al 95% t Valor P 10
Constante   1,58 0,098 (1,39; 1,77) 16,14 < 0,001
IMC – 0,0207 0,0036 (– 0,0278; – 0,0135) – 5,68 < 0,001
Alcohol 0,0028 0,0006 (0,0016; 0,0040) 4,68 < 0,001

Pastor-Barriuso R. 199
explicativa sobre la variable respuesta, una vez controladas las posibles
g/día (aproximadamente una desviación típica) en la ingesta de alcoholPor se asocian
otro lado, para un mismo índ
corporal se asocia con una disminución media en el colesterol HDL de
diferencias en la otra variable explicativa. Por un lado, manteniendo constante el
con
Regresión unmúltiple
lineal aumento medio en el colesterol HDL de g/día (aproximadamente una des
consumo ŷ (xde1 +alcohol,
c1, x2) -cada
ŷ (xincremento
1, x2) = b0 +de b1c(x1 1=+3,50
c1) +kg/mb2x22 -en
(bel b1x1 +deb2masa
0 +índice x2 )
ŷ (x1, x2 + c2) - ŷ (x1, x2) = b0 + b1x1 + b2(x2 + c2) - (b0 + b1x1 + bcon 2x2)un aumento medio en el cole
Por un lado,
corporal se manteniendo
asocia con una constante
disminución b1 =media
=elc1consumo
3,50(-0,0207)
deen
alcohol, = -0,072.
cada
el colesterol HDL de de c1 = 3,50 kg/m2
incremento
en el índice de masa corporal se asocia con una disminución media en el colesterol HDL de
= c2b2 = 20⋅0,0028 = 0,056. ŷ (x1, x2 + c2) - ŷ (x1, x2)
Por otroŷ lado,
(x1 + para
c1, x2un
) −mismo
ŷ (x1, xíndice
2 ) = b 0 de
+ masa
b (x
1 1 corporal,
+ c 1 ) + b xincrementos
2 2 − (b0 + b x
1 1de
+ c
b 2x=
2 2 ) 20
Para 1b1 = 3,50(
= cinducido − 0,0207) = − 0,072.
g/díaevaluar el grado de confusión
(aproximadamente una desviación por
típica) el la
en consumo
ingesta dede alcohol
alcohol en la
se asocian
Porcruda
otro (una
lado,pequeña
para unparte
mismo índice
de la de masa
reducción corporal, incrementos
del colesterol HDL entre los c2 = 20
desujetos cong/día
asociación entre el índice de
el masa corporal y deel colesterol HDL, basta comparar el el grado de confusió
con un aumento
(aproximadamente medio
una en colesterol
desviación HDLen
típica) la ingesta de alcohol sePara evaluar
asocian con un
Por otro
aumento lado,
medio para un mismo índice de masa corporal, incrementos de c 2 = 20
sobrepeso no en
se el colesterol
debe a su mayorHDLíndice
de de masa corporal sino a un consumo de
coeficiente ajustado mediante regresión múltiple b1 = -0,0207 con el coeficiente asociación entre el índice de mas
ŷ (x1, x2 + c2) – ŷ (x
g/día (aproximadamente 1, xdesviación
una 2) = b0 + btípica)
1x1 + b2en c2) – (b0de+ alcohol
(x2la+ingesta b1x1 + bse 2x2asocian
)
alcohol ligeramente menor). No obstante, los efectos crudo y ajustado no difieren
crudo obtenido de una regresión =simple c2b2 =en 20la⋅ 0,0028
misma =muestra
0,056. de 449 controles
coeficiente ajustado mediante reg
con
Para un aumento
evaluar medio
elpequeña
gradopor en el
departe colesterol
confusión HDL
inducidode de
por el consumo de alcohol ensujetos
la asociación
substancialmente, lo que el reducción
consumo alcohol no parece ser unlosfactor de con
b1∗ cruda
= rel
entre
(una
yx1 síndice
y / s x1 =
de la
masa⋅0,295/3,61
de-0,273 corporal y=el-0,0222.
del
colesterolLacolesterol
razón
HDL,entre
HDL entre
bastaloscomparar
coeficientes
crudo el obtenido de una regresión
coeficiente
ajustado
Para ŷ mediante
(x1, xel
evaluar
confusión
sobrepeso +sec2regresión
2 grado ) -deŷ para
importante
no debe a(x múltiple
1, x
confusión
su la
mayor +b1b1=x1– 0,0207
= binducido
2) asociación
0índice bmasa
+por
entre
de 2(x con
c2)el- de
+corporal
el2 consumo
índice coeficiente
(b + crudo
+ alcohol
0de
masa
sino 1un 2x2)layobtenido
b1axcorporal
ben
consumo el de de
crudo y ajustadosimple en la misma muestra de 449 controles b1∗ = ryx1 s y / s x1 == -0,273⋅0,295/3
una regresión
asociación
colesterolentre
– 0,273 ∙ 0,295/3,61
HDL el en
alcohol ligeramente índice
los de masa
= – 0,0222. La
controles
menor). No corporal
= crazón
del 20⋅y0,0028
= entre
2b2 estudio
obstante, ellos
los colesterol
EURAMIC.= 0,056.
efectos HDL,
coeficientes
crudo bastay comparar
crudo ajustado
y ajustado el
no difieren
b1∗ − 0,0222 crudo y ajustado
coeficiente ajustado mediante
substancialmente, por lo queregresiónel=consumo múltiple b1 = -0,0207
de=alcohol
1,08 no parece conser
el un
coeficiente
factor de
Para evaluar el grado de confusión b1 inducido
− 0,0207por el consumo de alcohol en la
11.3.2 Inferencia sobre los coeficientes de regresión
crudo
indica obtenido nodeseuna
que, si importante
confusión regresión
ajusta simple ende
porlaelasociación
para consumo la misma
alcohol,
entre muestra de 449corporal
se sobreestima
el índice de masa controles
un 100(1,08y el – 1) = b1∗
asociación entre el índice de masa corporal y el colesterol HDL, basta comparar el
8%
En indica la que,
asociación
el∗ Apéndice seinversa
sialnofinal del tema
ajusta delse
por elíndice de masa
demuestra
consumo deque, corporal se con
bajo las
alcohol, el colesterol
asunciones
sobreestima de HDL. Esto es
unlinealidad,
100(1,08 b1
b1 colesterol
debido= ryxa1 sque / s el
HDL = -0,273
consumo
en los ⋅0,295/3,61
de alcohol
controles = -0,0222.
presenta
del estudio una La razón
leve
EURAMIC. entre
correlaciónlos coeficientes
negativa con el índice
coeficiente y
ajustado
x1
mediante regresión múltiple b1 = -0,0207 con el coeficiente
de
aditividad masa y corporal,
homogeneidad
- 1) = 8% la asociación lo queinversa
deinduce uníndice
la varianza,
del pequeño sesgocorporal
losdeestimadores
masa en ladeestimación
mínimos cruda (una
cuadrados
con el colesterol bpequeña
indicaHDL. j
que, si no se ajusta por el
parte de ajustadode una regresión simple en la misma muestra de 449 controles debe a su
la
crudo yobtenido reducción del colesterol HDL entre los sujetos con sobrepeso no se
mayor es índice
debidode masa corporal sino ade unregresión
consumo de
unaalcohol ligeramente
βj y correlación 2
v=jj menor). No
siguen
Esto
11.3.2 aproximadamente
Inferencia asobre
que una
ellos distribución
consumo
coeficientes de alcoholnormal con media
presenta leve varianza -σ1)negativa
en
8% la asociación inversa d
obstante, los efectos crudo y ajustado no difieren substancialmente, por lo que el consumo
b1∗ = ryx1 s y / s x1 = -0,273⋅0,295/3,61 b ∗ = 0-0,0222.
− ,0222 unLapequeño razón entre los coeficientes
Enconde
muestras alcohol no
el suficientemente
índice al
el Apéndice parece
definal
masadel ser un
corporal, factor
tema selodemuestra
grandes, 1 de confusión
=que induce que, importante
bajo
= 1,08 sesgopara
las asunciones en la
ladeasociación
estimación
linealidad, entre el
Esto es debido a que el consumo
índice de masa corporal y el colesterol b1 − 0HDL ,0207en los controles del estudio EURAMIC.
crudo y ajustado 11
aditividad y homogeneidadb de− la β varianza, los estimadores de mínimos cuadrados con el bj de masa corporal, l
índice
j j ~
11.3.2 indica Inferencia
que, si no sobre los coeficientes
se ajusta por → N de (0, regresión
1)de j = 0, 1, …,
, alcohol, p,
siguen aproximadamente una v jj b ∗consumo
el
σ distribución − 0 ,normal
0222 con
se sobreestima
media
un 100(1,08
βj y varianza σ 2vjj en
1
En el Apéndice = = 1,08 asunciones de linealidad, aditividad
- 1) = 8% al la final del tema
asociación se demuestra
inversa bdel
1 − 0,0207
índice que,
de bajo
masalas corporal con el colesterol HDL.
y homogeneidad de la varianza,
muestras suficientemente los estimadores de mínimos cuadrados bj siguen aproximadamente
grandes,
donde vjj es un valor conocido que depende del 2tamaño muestral y de las varianzas y
una distribución
Esto es debido normal conelmedia
a que consumo βj y de alcoholσ presenta
varianza vjj en muestras
una leve suficientemente
correlación negativa grandes,
indica que, si no se ajusta por el consumo de alcohol, se sobreestima un 100(1,08
covarianzas entre las variables b j − explicativas.
βj ~ Si se reemplaza el parámetro desconocido σ
con el índice de masa corporal, lo →que N (0induce
, 1) , jun = 0, 1, …, p,
pequeño sesgo en la estimación
- 1) = 8% la asociación inversa σ v jj del índice de masa corporal con el colesterol HDL.
por la desviación típica residual s, puede probarse que los estadísticos resultantes siguen 11
dondeEsto vjj es es
undebido
valor conocido que depende del tamaño muestral
a que el consumo de alcohol presenta una leve correlación negativay de las varianzas y covarianzas
aproximadamente
donde
entre vjj es un valor
las variables unaconocido
distribución
explicativas. Sique t de Student
depende
se reemplaza del con
el tamaño los nmuestral
parámetro - pdesconocido
- 1 grados
y de lasde libertad
σvarianzas
por y
la desviación
típica conresidual s, puede probarse que los estadísticos resultantes
el índice de masa corporal, lo que induce un pequeño sesgo en la estimación siguen aproximadamente una
correspondientes
distribución
covarianzas t deentre
Studenta la estimación de
con los nexplicativas.
las variables la desviación
– p – 1 grados típica
de reemplaza
Si se residual,
libertad correspondientes a la estimación
el parámetro desconocido σ
de la desviación típica residual, 11
por la desviación típica residual b j − βs,j puede~ t
probarse que los estadísticos resultantes siguen
→ n − p −1 , j = 0, 1, …, p.
aproximadamente una distribución s v jj t de Student con los n - p - 1 grados de libertad
Notar que estas distribuciones de los estimadores bj en muestras suficientemente grandes no
correspondientes
requieren de estas
la asunción a la estimación
de normalidad de la y,desviación
por tanto, típica residual,
Notar que distribuciones de los estimadores bj son válidas para
en muestras cualquier distribución
suficientemente
subyacente de la variable respuesta.
grandes no requieren de la basunción j − β j ~de normalidad y, por tanto, son válidas para
200 Pastor-Barriuso R. → t n − p −1 , j = 0, 1, …, p.
s v jj
cualquier distribución subyacente de la variable respuesta.
Utilizando estos resultados, los intervalosjj de confianza al 100(1 - α)% para los
los contrastes bilaterales de las hipótesis
variable explicativa H : β de
= 0ausencia de efecto
se realizan medianteindependiente de cada
los estadísticos
0 j
coeficientes de regresión βj vienen dados por
que H
ariable explicativa bajo dichas hipótesis nulas se distribuyen aproximadamente
0: βj = 0 se realizan mediante los estadísticos
como
Estimación una de
e inferencia t de Studentde regresión
la ecuación
Utilizando estos resultados, los intervalos bj de confianza al 100(1 - α )% para los
con n - p - 1 grados de libertad. t = ,
s v jj α /2 s v jj
bj ± tn-p-1,1-
coeficientes de regresión bβj j vienen dados por
Utilizando estos resultados,
t= , intervalos de confianza al 100(1 – α)% para los coeficientes
los
de regresión βj vienen dados s vporjj
Ejemplo
quey bajo
los dichas11.3
contrastes Los programas
bilaterales
hipótesis nulasdeselas estadísticos deconvencionales
hipótesis aproximadamente
distribuyen ausencia de efectofacilitan
como unadirectamente
independiente
t de Studentde cada
bj ± tn − p −1,1−α /2 s v jj
ue bajo dichas hipótesis
ycon las
- pestimaciones
variable
los nulas
- 1explicativa
ncontrastes grados depuntuales
sebilaterales
distribuyenH0:de
libertad. = 0de
las selos
βj aproximadamente coeficientes
realizan
hipótesis de mediante como
ausencia deunaregresión
los
de t de Student
estadísticos
efecto lineal múltipledey cada
independiente sus variable
explicativa H0: βj =bilaterales
y los contrastes 0 se realizan de mediante
las hipótesis los de estadísticos
ausencia de efecto independiente de cada
on n - p - 1 grados deerrores
libertad. estándar. Según la Tabla 11.1, los errores estándar de los coeficientes
Ejemplo 11.3 Los programas estadísticos bj
variable explicativa H t = convencionales
0: βj = 0 se realizan mediante los estadísticos
, facilitan directamente
estimados para el índice de masa corporal y
s v jj el consumo de alcohol son
Ejemplo 11.3 Loslasprogramas
estimaciones estadísticos
puntualesconvencionales
de los coeficientes facilitan directamente
de regresión lineal múltiple y sus
que bajo dichas hipótesis nulas se
respectivamente SE(b1) = s v11 = 0,0036byj SE(b2) = s v 22 =distribuyen aproximadamente como0,0006. unaPor t detanto,
Student con
n –que
las estimaciones p –puntuales
1 grados
bajo
errores dichas de hipótesis
estándar.
de libertad.
los Segúnnulas
coeficientes la Tabla sededistribuyen
11.1, t
regresión = los errores
lineal,
aproximadamente
estándar ydesus
múltiple loscomo una t de Student
coeficientes
s v jj
los ICs al 95% para estos coeficientes de regresión son
errores estándar. estimados
n - p -la1 Tabla
conEjemplo
Según para el
grados
11.3  deíndice
11.1,
Los losde
libertad.
programas masa estándar
errores corporal de
estadísticos y ellosconsumo
coeficientes
convencionales de alcohol son directamente las
facilitan
queestimaciones
bajo dichas hipótesis puntualesnulas de los coeficientesaproximadamente
se distribuyen de regresión lineal como múltiple
una t dey Student
sus errores
estimados para elestándar.
índice de b1Según
respectivamente ± t446;0,975
masa la (SE
b1)(=
corporal
SETabla b111.1,
ys) el
=v-0,0207
consumo
11 los= 0,0036
errores ± 1,97⋅0,0036
de y alcohol
SE (
estándar b2 ) son
= =
des (-0,0278;
v
los 22 = -0,0135),
0,0006.
coeficientes Por tanto,
estimados para el
Ejemplo 11.3 Los programas estadísticos convencionales facilitan directamente
coníndice - 1degrados
n - ppuede
Así, masa
afirmarse corporal
de libertad.
con una confianza y el consumo del 95% que deel nivel
alcohol medio son respectivamente
de colesterol
respectivamente SE ( b
los ICs ) = s
1 al 95%b 2 ±
v t = 0,0036SE ( b
11 para estos coeficientes
446;0,975 y 2 )
SE = (0,0028
b 2 ) = s ± v1,97⋅0,0006
=
de regresión
22 0,0006. son = (0,0016;
Por
Por tanto,
tanto, 0,0040),
los ICs al 95% para
las
estos estimaciones puntuales de son del estudio EURAMIC disminuye entre y sus
los coeficientes de regresión lineal múltiple
HDL coeficientes
en la población de regresión
de referencia
los ICs al 95% para Ejemplo
estos 11.3 Los programas deestadísticos convencionales facilitan directamente
queerrores
también bcoeficientes
±set446;0,975
1estándar.
incluyen SE de(bdentro
Según regresión
1 ) la= –Tabla
0,0207 son
los 11.1,±resultados
1,97⋅ 0,0036
los errores de la= Tabla
(– 0,0278;
estándar 11.1.
de –los Encoeficientes
general,
0,0135), el
3,50⋅0,0135 = 0,047 y 3,50⋅0,0278 = 0,097 mmol/l por cada incremento de c1 =
b2 ± t446;0,975puntuales
las estimaciones SE(b2 ) = de 0,0028 ± 1,97 ⋅ 0,0006
los subyacente
coeficientes = (0,0016;lineal 0,0040),
intervalo
SE(b1de
estimados
b1 ± t446;0,975 )2 =confianza
para el índice
-0,0207 ±para el
deefecto
1,97⋅0,0036 masa =corporal (-0,0278; cde
y el-0,0135),
regresión
βj asociado
jconsumo deaalcohol
múltipledeycsus
un aumento son j
que kg/m enseelincluyen
3,50también índice de dentromasade corporal
los resultados entre sujetos
de la Tabla con la11.1. misma En ingesta
general,de el intervalo
errores
unidades enestándar.
la variable Según lasubyacente
explicativa TablaX11.1, cjlos errores estándar de los coeficientes
de respectivamente
confianza para elSEefecto j se calcula como
βj asociado a=un aumento de cj unidades
b2 ± t446;0,975 SE
que también ( b ) = 0,0028
2 se incluyen dentro ± ( b1,97⋅0,0006
1 ) = s v == (0,0016;
0,0036 y 0,0040),
SE
de los resultados de la2 Tabla 11.1. ( b ) s v 22 =En 0,0006. Poreltanto,en la
general,
alcohol, explicativa
variable y que la media calcula 11
Xj sepoblacional como del colesterol HDL aumenta entre 20⋅0,0016
estimados para el índice de masa corporal y el consumo de alcohol son
intervalo
que también se incluyen los ICsde
= 0,032 dentro
95%
y 20⋅0,0040 decjlos
al confianza bj ±resultados
para tpara
estos
n − p −1,1
= 0,080 mmol/l
/2 SE(cjsubyacente
de labpor
el−coeficientes
α efecto
Tabla cj{11.1.
j ) = de
cada
bj ±ctjβ
regresión En−1,1
incremento
− α /2 SE(abun
n −jpasociado
son
general, de cel
j )}. aumento de cj
2 = 20 g/día en el
Así,respectivamente
puedeenafirmarse SEcon (b1una) = sconfianza v11 = 0,0036 del 95% y SEque (b2el s vmedio
) =nivel 22 = 0,0006. Por tanto,
de colesterol HDL en
unidades
intervalo de confianza para el la variable
efecto explicativa
subyacente c β X se
asociado
j calcula a como
un aumento de c
consumo
la población debalcohol
1de t446;0,975
± referenciaentre SEsujetosb1) estudio
(del = -0,0207
j con el
j ± 1,97⋅0,0036
mismo
EURAMIC índice de
disminuye= masa
(-0,0278; -0,0135),
corporal.
entre
j Estos = 0,047
3,50 ∙ 0,0135
los ICs al 95% para estos coeficientes
y 3,50 ∙ 0,0278 = 0,097 mmol/l por cada incremento de c1 = 3,50 kg/m en el índice dede regresión son 2

unidades en la variable
efectos
masa explicativa
independientes
corporal b2entre X setdel
± ctj446;0,975
bj sujetos
± calcula
SEíndice
n-p-1,1- (con como
bα2/2)SElade
= cmisma
jbmasa
(0,0028 j) = c± bj ± tn-p-1,1-
{1,97⋅0,0006
jcorporal
ingesta deyalcohol,
deα/2= SE(0,0016;
la (bjy)}.quede
ingesta la alcohol
0,0040),
media poblacional
13
del colesterol HDL aumenta entre 20 ∙ 0,0016
b1 ± t446;0,975SE(b1) = -0,0207 ± 1,97⋅0,0036 = (-0,0278; -0,0135), = 0,032 y 20 ∙ 0,0040 = 0,080 mmol/l por
sobre
cada
cjbque el colesterol
incremento
j ± tn-p-1,1- α/2SE de HDLc = son
20 muy
g/día significativos,
en el consumo ya de que sus
alcohol correspondientes
entre sujetos contest
el mismo
también se(cincluyen
jbj)2 cj{dentro
bj ± tn-p-1,1- de los α/2SE (bj)}. de la Tabla 11.1. En general, el
resultados
índice de masa corporal. Estos efectos
b2 ± t446;0,975SE(b2) = 0,0028 ± 1,97⋅0,0006 independientes del=índice
(0,0016; de 0,0040),
masa corporal y de la
estadísticos
ingesta de alcohol sobre el colesterol HDL son muy significativos, ya que sus
intervalo de confianza para el efecto subyacente cjβj asociado a un aumento 13 de cj
correspondientes test estadísticos
que también se incluyen dentro de los resultados de la Tabla 11.1. En general, el
b1 − 0,0207 como
unidades en la variablet explicativa = =Xj se calcula = − 5,68, 13
intervalo de confianza para el efecto SE ( b 1 ) 0 , 0036
subyacente cjβj asociado a un aumento de cj
cjbj ± tn-p-1,1-αb/22SE(cjb0j),0028 = cj{bj ± tn-p-1,1-α/2SE(bj)}.
unidades en la variable explicativa t= X=j se calcula = 4,68,
como
SE (b2 ) 0,0006
arrojan valores P bilaterales 2P(t446
cjbj ± tn-p-1,1- ≤ – 5,68) ≈ 2F(–5,68) < 0,001 y 2P(t446 ≥ 4,68) ≈
α/2SE(cjbj) = cj{bj ± tn-p-1,1-α/2SE(bj)}.
2{1 – F(4,68)} < 0,001, tal como muestra la Tabla 11.1.
arrojan valores P bilaterales 2P(t446 ≤ -5,68) ≈ 2Φ(-5,68) < 0,001 y 2P(t446 ≥ 4,68) 13

11.3.3 ≈ 2{1
Inferencia sobre
- Φ(4,68)} la ecuación
< 0,001, de muestra
tal como regresión
la Tabla 11.1.
13
La ecuación de regresión puede utilizarse para estimar el valor esperado de la variable respuesta
en función de los valores de las variables explicativas. Dados unos determinados valores x01, …,
11.3.3 Inferencia sobre la ecuación de regresión
Pastor-Barriuso R. 201
La ecuación de regresión puede utilizarse para estimar el valor esperado de la variable

respuesta en función de los valores de las variables explicativas. Dados unos


aproximadamente normal con media β0de+ una β1x01determinada
de+ una βpx0pvariable
… +determinada y varianza variable
o, dichoσ 2ho, 0 de
endicho
formadeequivalente,
forma equivalente, estos es
respuesta en función de los valores de las variables explicativas. Dados unos
muestras
Regresión suficientemente grandes,
lineal múltiple alrededor alrededor
de qué valor de qué sevaloragrupan se agrupan
los datoslosobservados. datos observados. Las medida Las
determinados valores x01, …, x0p de las variables explicativas, el estimador insesgado
~ N(β + central central
de la muestrade la muestra sirven tanto sirven para tanto para resumir
resumir los resultadoslos resultados
observ
AS DE TENDENCIA
TENDENCIA CENTRAL CENTRAL ŷ 0 → 0 β 1 x01 + … + β p x0p , σ 2 h0 ),
que,
x0p del de valorcomo
las se muestra
esperado
variables de la envariable
explicativas, el Apéndice elrespuesta de este
estimador es tema,
insesgado se distribuye
del valor deesperado
forma de la variable
realizar realizar inferencias inferencias
acerca de acerca de los parámetros
los parámetros poblacionales poblacionales
correspoc
sdencia
de tendencia respuesta
central central
informan informanes
acerca acerca de
es cuál esmediaelmás valor más representativo
donde h0 es elde
aproximadamente cuál
leveragenormal el valor
delcon punto (x representativo
β, …, + βx10p x ) que+ …puede + βpxinterpretarse
y varianza como σ 2h0 en una
ŷ 0 = b010 0+continuación
b1 x01 01+continuación
… +sebpdescribenx0p 0p se describen los principales los principales estimadores estimadores de la t
de la tendenci
minada
variablevariable
o, dichoo,de dichoforma de equivalente,
forma equivalente, estos estimadoresestos estimadores indicanindican
que, muestras
medida sesuficientemente
como estandarizada muestra ende el su grandes,
distancia
Apéndice
1.2 1.2
MEDIDAS MEDIDASderespecto
este DE tema,
DE al centro
TENDENCIAse distribuye
TENDENCIA de lasCENTRAL medias
de forma
CENTRAL muestrales
aproximadamente ( x1 ,
normal con media β0 + β1x01 + … + βpx0p y varianza σ h0 en muestras suficientemente grandes, variable. variable.
2
quésevalor
alor se agrupan
agrupan los datos losobservados.
datos observados. Las medidas Las medidas de tendencia de tendencia
…, x p ) de las variables explicativas. ŷLas ~ N(β +Aβpartir de
…la+ distribución 2
),tn-p-1 resultante de
0 → Las
medidas medidas
0 de 1 xtendencia
01 +
de tendencia p x0p
βcentralcentral h0informan
, σ informan acerca acerca de cuálde cuál es elesvalor
el valormásmás represe
repr
1.2.1 Media 1.2.1 aritmética
Media aritmética
ramuestra sirvenpara
sirven tanto tanto para resumir
resumir los resultados los resultados observados observados como para como para
donde h0 es el leverage del punto (x01, …, x0p) que puede interpretarse como una medida
sustituir σ 2 porŷsu±estimación de una
de s2huna
, determinada
se=sigue
determinada que el intervalo
variablevariable o,,de
o,⋅aritmética,
dicho dichoconfianza
de=forma de forma 100(1 - α)%
al1,15).
equivalente,
estandarizada
donde h es de
el t
su0 distancia
leverage del
446;0,975 s
respecto
punto 0 (x01 1,12
al, La
…, ±
centro x 1,97
media ) La
de
que 0puede
las,077
media
aritmética,medias 0interpretarse
0025
denotada
muestrales (1,09;
denotada
por
como( x 1,equivalente,
por
se
…,define
una x p,) se estos
14
decomoestos
define
las estimadores
estimadores
lacomo
sumaladesum ind
ca
rencias
acerca de acerca de los parámetros
los parámetros poblacionales
0 poblacionales correspondientes.correspondientes. A 0p A
variables explicativas. A partir de la distribución tn–p–1 resultante de sustituir σ por su estimación 2

s2, para el valor esperado


intervalo β0 de βconfianza
+alrededor x01 + …
1alrededor
alβp100(1
de +valores
qué
de xvalor
qué0p es valor–seα)%agrupan
se muestrales
agrupan losvalor los
datos datos observados.
el observados.
porβel βLas Las
medidasmedidas de tendenci
de tende
ncriben
se describen los
se sigue
medida
principales
los principales estimadores
que el
estandarizada
estimadores
Por el contrario, de
de la tendencia
el desu
valorladistancia
tendencia
central de
esperado respecto
central
del una
valores
muestrales
al
decentro
colesterol una HDL
para el
dedividida
lasentremedias los
esperado
dividida
por número
muestrales
sujetos con 0 +número
(de
un x11xobservaciones
,01 + … de observaciones
realizad
+ βpx0p es ŷ 0 ± t446;0,975 s h0 = 1,12 ± 1,97 0,077 ⋅ 0,0025 = (1,09; 1,15).
central central de la demuestra
la muestra sirven sirven
eltanto tantoparamuestral
pararesumirresumir los los
resultados
xi resultados
valorobservados observados como
paracom elpa
…, x píndice ) de las devariables
masa corporal explicativas. de 32 ±Atpor
ŷ 0 kg/m npartir
n el
−p2− 1,1
y −unαde
por slanhdistribución
tamaño
/2 consumo 0 .
tamaño
muestral
de alcohol tyn-p-1
por xi yel
resultante
de
por
valor
40 g/díade
el
observado
se
observado
para el sujeto i-

Como cabría Por elesperar,contrario, la estimación realizar


el valor realizar inferencias
esperadodelinferencias
ladel
valor media acerca
colesterol
esperado acerca
lavendría
media deHDL los
dede lalos
vendría
dada parámetros
entreparámetros
variable
por dada los por poblacionales
sujetos poblacionales
respuesta conenunel correspondientes.
puntocorrespondientes. A
aritmética (x01Como
ética sustituir estima
, …, x0pcabría σ 2 en 1,58 - 0,0207⋅32
por
) será esperar, su estimación
tanto máslaimprecisa s 2 + 0,0028⋅40 = 1,03 mmol/l, cuyo IC al 95%
, se sigue
cuanto másque el
extremo intervalo de confianza al 100(1 - α )%
estimación del valor 2 esperadosea de dicho
la variable puntorespuestao, más concretamente,
en el
índice de masa corporal continuación
continuación
cuanto mayor sea su distancia estandarizada h0 respecto al centro de las de 32 kg/m se describen
se
y describen
un consumo los los
principales
de principales
alcohol estimadores
de estimadores
40 g/día de
medias se la
detendencia
muestrales la tendencia central
central
de ud
βtanto βcada +0βuno 1 n n
x
1 x1 + x 2 +1... + 2x n + x + ... + x
itmética,
a, denotada para
por ( x 1,punto
denotada por
se el
…,define valor
x(p,x).
01 …,esperado
se, como
define x0pla)como
suma
será la +1,03
0 de suma x01
1más
±de +uno…cada de
imprecisa
1,97 px0p
,los
077 ⋅es
de 0,los
cuanto 0113 más = extremo
(0,97; 1,09) seax dicho= punto x x=i =  o, más xi = . n
.
variable.
variable.
estima en 1,58 - 0,0207⋅32 + 0,0028⋅40 = 1,03 mmol/l, cuyo IC aln95% i =1 n i =1 n n
strales dividida
dividida por
por el número elEjemplo
número
concretamente, de observaciones
de observaciones
11.4  Paramayor
cuanto realizadas.
un índice realizadas.
sea de Simasa
su denotamos
distancia Si denotamos
corporal de x = 25hkg/m
estandarizada 0 respecto
2
y un consumo
al centro de alcohol las
ŷ 0 ± tn-p-1,1-α/2 s h0 01 .
de es x02sensiblemente
= 20 g/día, el modelo más 1.2.1impreciso,
1.2.1
de Media
1,03 ± 1,97 0,077 Media
regresión ya que
aritmética
La media el
aritmética
múltiple punto
⋅ 0,0113 estima
Laesmedia lade estimación
un
medida
= (0,97; nivel
es la1,09) medio
medida (32,
de tendencia 40)
de está
colesterol
de tendenciacentral más HDL
central más utilizada
utilizada y de má
año
estral y por xiyelpor
muestral valor x
medias
i el valor
observado
de ŷ0muestrales observadopara
= 1,58 – 0,0207 ∙ 25 el para
sujeto el i-ésimo,
sujeto i-ésimo,
i = 1, i
..., =n, 1, ...,
( x1 , …, x+p ).0,0028 ∙ 20 = 1,12 mmol/l. El punto de estimación (x01, x02) = n,
Como (25,distante
20) está
cabría delpróximo
centro deal las
LacentroLamedias
media mediade lasmuestrales
aritmética,
aritmética,
medias
interpretación. (26,2;
denotada
denotada
muestrales
interpretación. 16,5)
depor la por
Corresponde y xpresenta
xCorresponde
1, se
(variable 2,)define
se define
=respuesta
al (26,2;
“centroun
como leverage
como
al16,5) lagravedad”
“centro
deen suma
dela ambas
suma
de de cada
de
de cada
gravedad” losuno uno
de
datosdelos
los
de
ded
ndríapor
ada dada por ŷesperar, la estimación del valor
0 ± t446;0,975 s h0 = 1,12 ± 1,97 0,077 ⋅ 0,0025 = (1,09; 1,15).
esperado el
variables explicativas
es sensiblemente más y, en consecuencia,
impreciso, ya que su leverage
el punto de hestimación
0 = 0,0025(32, es bajo.
40) está Así, el IC al
punto 95% alto
Ejemplo
(x01 ,de
para …,0,0113.
elx11.4
valorPara esperado
unvalores
índice delmuestrales
valores colesterol
de muestrales
masa
principal HDL
dividida
corporal dividida
principal entre
de
limitación por los
por
xlimitación
01 es
sujetos
el=número
el
25que número
kg/mestá con
esde que
muy un
2 observaciones
ydeunestá índice
observaciones
consumo de masa
realizadas.
de
muyo,influenciada
influenciada realizadas.
por Si denota
por
los valores Si den
los val
ext
0p) será tanto más imprecisa cuanto más extremo sea dicho punto más
1 n corporal
Por ndistante
el de
contrario,
1 x1 + x 2 x+1 ... 25
del kg/m
centro
el
2
valor
+ +x 2x+n ... + x n yde un las consumo
esperadomedias del de alcohol
muestrales
colesterol de
(26,2;
HDL 20 g/día
16,5)
entre es
ylos presenta
sujetos uncon leverage
un
x=  x=i =
xconcretamente, x i = decuanto . mayor porpor .nsea eln1,12
el tamaño
el distancia
tamaño muestral
muestral ypuede
por xun
ymúltiple
por elxhfiel
ivalor
elrespecto
valor
unobservado
fielobservado para para
laellas
sujeto
elcentral i-ésimo,
sujeto i-ésimo, i =dei1,=
alcohol ŷn0 ±xt02 n=ŷ20 g/día, modelo depuede
regresión
caso, estima un nivel medio
su caso, no
estandarizada ser i no 0ser reflejo reflejo
de
al de
la tendencia
centro de tendencia central
de la distrib l
n i =1 El n i =valor predicho s
es h
un =
estimador ± 1,97
insesgado 0 , 077 no ⋅ 0 ,
sólo0025 de =
la (1,09;
esperanza 1,15). o media
índicealto de
1
de masa0,0113. 446;0,975
corporal 0 0 2
de 32 kg/m y un consumo de alcohol de 40 g/día se
medias Pordeel colesterol
contrario,(HDL
muestrales xel1 ,valor
…, dela xmedia
ŷla media
= 1,58
esperado vendríavendría
-del dada
0,0207⋅25 dada
colesterol por+por 0,0028⋅20
HDL entre = 1,12 mmol/l.con
los sujetos El punto
un índice
p0 ).
es la medida
medida de tendencia poblacional
de tendenciacentral
de masa
estima
Por más de
central
el contrario, la variable
más
utilizada
en corporal
1,58 - 0,0207⋅32 utilizada
el valor y derespuesta
de 32esperadomás y
kg/m de
+ 0,0028⋅40 entre
2más
fácil ydel fácil
un colesterolEjemplo
aquellos
consumo
= 1,03 mmol/l, Ejemplo
sujetos1.4
de alcohol
HDL Encon
cuyo los
entre 1.4
este losIC En
y
dealmismos
eneste
40
95%los
sujetos y
g/día valores
en
sucesivos los
conseunestima deejemplos
sucesivoslas en ejemplossobre estimasobre
El
1,58 valor predicho ŷ es un estimador insesgado no sólo de la esperanza o media
de–estimación
0,0207 ∙ 32(x+0100,0028 ∙ 40 , x02) = (25,= 20) 1,03está mmol/l,próximo cuyoalIC centroal
1 95% n
1den lasxmedias 1 +x1x 2+ + xmuestrales
2...++... x+ xn
ón. Corresponde
responde al “centroalvariables
“centro
de gravedad”
índiceEjemplo explicativas,
de gravedad”
de masa de los
11.4corporal sino
de
datos
Para unde los también
de datos
la
32 kg/m
índice dede
muestra.
de masa 2lamuestra.
la respuesta
Su utilizarán
y uncorporalconsumo Su x
individual
de de =
utilizarán
los x
x01alcohol
= =
valores25
n 1,09)
i =n
dex
los i un
kg/m x inuevo
=de
valores
del 2=
40 y del
colesterol
g/día
un sujetose
consumo
n n
y0n =.de
colesterol
HDL .
HDL
obtenidos obtenidos
en los 10 enp
poblacional 1,03 ± 1,97 0 , 077 ⋅ 0 , 0113 = (0,97;
( x1 , x de la variable respuesta entre aquellos sujetos con los mismos valores de las 1 i =1
2 ) = (26,2; 16,5) de ambas variables explicativas y, en consecuencia, su
β0muy +esβsensiblemente
x + … de+losxβ02 xvalores +losεimpreciso,
0.valores
En el estudio estudio
“European “EuropeanStudy on Study onmedio
Antioxidants, Antioxidants, Myocardial Myocardial
Infarct
mitación es que
n es que está muy estáinfluenciada
estima influenciada
alcohol
1 01 por
en 1,58 por
=más
0p20
-p0,0207⋅32 g/día, +el0,0028⋅40
extremos Apéndice
extremos
yay,que
modelo ende =elde
estey, esteeste
en
regresión
punto
1,03 tema
de múltiple
mmol/l, se demuestra
cuyo estima
estimación IC(32, al 95% que,
un
40)nivel bajo
está las
distante del
variables explicativas, sino también La media La media de la la respuesta individual decentral
un central
nuevo sujeto y0 = y dey más
centro
es de lash0medias
sensiblemente másmuestrales
impreciso, yaes
(26,2; esel
el16,5)
que medida
lapunto
medida
al y95%
de
presenta
de tendencia
de tendencia
unvalor
estimación leverage (32,alto más
40) más
de utilizada
utilizada
del0,0113.
está de más fácilfácil
unno fiel
ser reflejo
un fiel reflejo de leverage
de laasunciones
tendenciala tendencia
central
de la =central
0,0025
de
regresión la deeslabajo.
distribución.
lineal Así,
distribución.
múltiple
de colesterol HDL de ŷ 0 = 1,58 - 0,0207⋅25 + 0,0028⋅20 = 1,12 mmol/l. El punto
ICthe
(linealidad, Breast“ para
the el
Breast“
(EURAMIC),
aditividad, esperado
(EURAMIC),
homogeneidadun estudio undeestudio
multicéntrico
la multicéntrico
de casosdey
βEl0 +valorβ1x01predicho
distante +del + βŷpxes
… centro 0p 1,03
+ las
deun εinterpretación.
0. ±En 1,97el Apéndice
interpretación.
estimador
medias 0insesgado
,077
muestrales ⋅ 0Corresponde
de,0113
Corresponde estesólo
no
(26,2; =
tema (0,97; se
alde“centro 1,09)
demuestra
allay“centro
esperanza de gravedad”
de un que,
gravedad”
o media bajo las
depoblacional
los
2de los datos datosde la demuestra.
la muestrS
colesterol HDL 0 entre los sujetos con unentre índice 1991 de16,5)
entre masa
y 1991
1992 presenta
corporal
y
en 1992
ocho de
en leverage
25
ocho
países kg/m países
Europeos y un Europeos
e Israel e Israel
para pa
evalu
varianza
de la variable y normalidad),
respuesta la diferencia ŷ - y sigue la distribución normal
(x01entre x02) =aquellos 0sujetos con los mismos valores demuestrales
las variables
0
plo
En 1.4esteEn
y eneste
losysucesivos
enasunciones deejemplos
los sucesivos estimación ejemplos
sobre , sobre
estimadores (25, 20)
estimadores estámuestrales,
muestrales, próximo se al secentro de las medias
explicativas,
altosensiblemente de latambién
sino
de 0,0113.
consumo
regresión
de alcohol deprincipal
la principal
lineal
de respuesta
20
limitación
múltiple
g/díayaesque
limitación es que
(linealidad,
individual esdeque está
un está
muymuy
aditividad,
nuevo influenciada
influenciada
y = βpor
homogeneidad
sujeto por
losdelos
0 + β1x01 + … +
valores
la valores extremos
extremos y, eny, e
es más impreciso, el punto de estimación (32,040) está
βpx0p + ε0(. xEn, xel )Apéndice de este ŷtema se~variables
demuestra que, )),bajo las asunciones de la su regresión
2 = (26,2; 16,5) de ambas explicativas y, en consecuencia,
2
rán los valores
valores delvarianza
del colesterol colesterol
HDL1 yobtenidosHDL
normalidad), obtenidos
en los la encaso,
10
caso, los
diferencia 0 10
primeros
puede y0primeros
-puede no
ŷ Nser
no
- (0,
sujetos y ser
unsigue (1
σsujetos
del
fiel
un +
fiel hdistribución
del
reflejo
la 0reflejo de la
de tendencia
la tendencia
normal centralcentral de la
dedistribución.
la distribución.
lineal múltiple (linealidad, aditividad, homogeneidad 0 0 de la varianza y normalidad), la diferencia
distante del centro de las medias muestrales (26,2; 16,5) y presenta un leverage
ŷ0 –Ely0valor siguepredichola distribución normal
ŷ 0 esInfarction
un estimador insesgado no sólo
opean Study on
o “European Study on Antioxidants,
Antioxidants, leverage h0 =Myocardial
Myocardial 0,0025 es bajo. Infarction
andAsí,Cancer eland IC Cancer
alof95% para of deellavalor esperanza o media
esperado del 15
de alto tal forma de 0,0113.que el intervalo de predicción
ŷ0 −Ejemplo
y0 ~ N al
(0,1.4 100(1
2
(1 + -
yhen α )% para una nueva observación
Ejemplo 1.4 En σ En este este 0 )),
y losen los sucesivossucesivos ejemplosejemplos sobre sobreestimadores
estimadores muestra
mue
east“ (EURAMIC),
EURAMIC), unpoblacional
estudio un estudio de lamulticéntrico
multicéntrico
colesterol variable
HDL deentre respuesta
casos de
los ycasos entre
controles
sujetos aquellos
y controles
con realizado
un índice sujetos
realizado de conmasalos mismosdevalores
corporal 25 kg/m de2 las y un
de individual
tal forma yque 0 viene el intervalo
dado por deutilizarán predicción
utilizarán los losal
valores100(1
valores del– del α)%
colesterol para HDL
colesterol unaHDL nueva
obtenidos observación
obtenidos en los en los10 primeros
10 primeros sujes
1991
1992 yen1992 individual
variables
ochoenpaíses
ochode tal
países
El Europeos
valor formay viene
explicativas,que
0Europeos
predicho
consumo e Israeldado
el sino
ŷe0para
de alcohol por
intervalo
Israel
es un también
depara
evaluar de
estimador
20 g/día de
evaluar la
predicción
el efecto respuesta
el de
insesgado
es al
efectolos no individual
100(1 desólo α
los de la esperanza o media0 =
- )% de
para un nuevo
una nueva sujeto y
observación
estudio
ŷ 0 estudio
± tn −“European “European
p −1,1 − α /2 s 1 + h0 .
Study Study on Antioxidants,
on Antioxidants, Myocardial
Myocardial Infarction
Infarction andand Canc C
β 0+ β 1x01 + …
individual y + β
vienepx0pdado + ε 0.por
poblacional de la variable respuesta entre aquellos sujetos En el Apéndice de este tema se condemuestra que, bajo las
5 los mismos valores de las
0
5
the the Breast“ Breast“ (EURAMIC),
(EURAMIC), un estudio
un estudio multicéntrico
multicéntrico de casos
de casos
15 y controles
y controles rea
asunciones
Este intervalo
202 variables
Pastor-Barriuso de la
explicativas,
R. regresión
de predicción lineal
sino también múltiple
paraŷla de±respuesta (linealidad,
latn-p-1,1-
respuesta individual aditividad,
individual de un homogeneidad
de único
un nuevo sujeto sujeto de
será y0 = la
0 α/2 s 1 + h0 .
entre entre1991 1991 y 1992 y 1992 en ocho en ocho países países Europeos
Europeos e Israel
e Israel parapara evaluar
evaluar el efecto
el efect d
varianza y
β0 +substancialmente normalidad),
β1x01 + … + βpxmás la diferencia ŷ - y sigue la
amplio que el 0intervalo de confianza para la respuesta media de distribución normal
0p + ε0. En el Apéndice de este tema se demuestra que, bajo las
0
predicción incorpora la varianza residual de cada respuesta individual alrededor de
Contrastes de hipótesis en regresión lineal múltiple
dicha ecuación de regresión. Notar, además, que los intervalos de predicción para una

nueva observación requieren de la hipótesis de normalidad, mientras que los intervalos


Este intervalo de predicción para la respuesta individual de un único sujeto será substancialmente
de
másconfianza paraelelintervalo
amplio que valor esperado tiendenpara
de confianza a serlacorrectos
respuestaenmedia
muestras suficientemente
de todos los sujetos con un
mismo patrón de variables explicativas ya que, además del error en la estimación del valor
grandes,
predicho independientemente de la distribución
por la ecuación de regresión, subyacente
el intervalo de la incorpora
de predicción variable respuesta.
la varianza residual
de cada respuesta individual alrededor de dicha ecuación de regresión. Notar, además, que los
intervalos de predicción para una nueva observación requieren de la hipótesis de normalidad,
Ejemplo
mientras 11.5intervalos
que los El valor predicho del colesterol
de confianza HDL esperado
para el valor para un nuevo sujeto
tienden concorrectos
a ser un en
muestras suficientemente grandes, independientemente de la distribución subyacente de la
índice
variable de masa corporal de 25 kg/m2 y un consumo de alcohol de 20 g/día es de
respuesta.

nuevo
Ejemplo ŷ 011.5 
= 1,58El- 0,0207⋅25 + 0,0028⋅20
valor predicho = 1,12HDL
del colesterol mmol/l.
paraSin
un embargo, el con un índice
nuevo sujeto
de masa corporal de 25 kg/m2 y un consumo de alcohol de 20 g/día es de nuevo ŷ0 = 1,58
– 0,0207 ∙ 25
intervalo + 0,0028 ∙ 20
de predicción = 1,12
al 95% mmol/l.
para Sin embargo,
esta nueva el intervalo de predicción al 95%
observación
para esta nueva observación
ŷ 0 ± t446;0,975 s 1 + h0 = 1,12 ± 1,97 0,077(1 + 0,0025) = (0,57; 1,67)
es notablemente más impreciso que el intervalo de confianza calculado en el ejemplo
anterior
es para el valor
notablemente medio delque
más impreciso colesterol HDLde
el intervalo enconfianza
todos los calculado
sujetos con
en dichos
el valores
del índice de masa corporal y del consumo de alcohol (IC al 95% 1,09-1,15 mmol/l).
ejemplo anterior para el valor medio del colesterol HDL en todos los sujetos con

11.4  dichos
CONTRASTES
valores del DE HIPÓTESIS
índice EN REGRESIÓN
de masa corporal LINEAL
y del consumo MÚLTIPLE
del alcohol (IC al 95%

Como1,09−1,15
se vio en mmol/l).
el Apartado 10.3.2 del tema anterior, el contraste de un modelo de regresión
lineal simple se reduce a evaluar si el coeficiente β1 asociado a la única variable explicativa es 0,
en cuyo caso el modelo no aportará explicación alguna sobre la variabilidad de la variable
respuesta. En regresión lineal múltiple, sin embargo, la presencia de múltiples variables
explicativas
11.4 permite realizar
CONTRASTES distintos contrastes
DE HIPÓTESIS de hipótesis,
EN REGRESIÓN que danMÚLTIPLE
LINEAL respuesta a diferentes
preguntas de investigación. En general, los contrastes de hipótesis en regresión lineal múltiple
pueden clasificarse en tres grandes grupos, a saber:
Como se vio en el Apartado 10.3.2 del tema anterior, el contraste de un modelo de
yy El contraste global determina si el modelo en su conjunto explica una parte significativa
de lalineal
regresión variabilidad de reduce
simple se la variable respuesta.
a evaluar si el coeficiente β1 asociado a la única
yy Los contrastes parciales individuales evalúan la contribución independiente de cada
variable explicativa
variable es 0, en
explicativa unacuyo caso el modelo
vez controlados no aportará
los efectos de lasexplicación alguna sobre
restantes variables explicativas.
yy Los contrastes
la variabilidad parcialesrespuesta.
de la variable múltiplesEnvaloran si un
regresión determinado
lineal subgrupo
múltiple, sin embargo,delados o más
variables explicativas contribuye significativamente a explicar la variabilidad residual de
la variable
presencia respuesta
de múltiples que noexplicativas
variables se explica por las otras
permite variables
realizar incluidas
distintos en el de
contrastes modelo.
En los siguientes apartados se describen los procedimientos estadísticos necesarios para realizar
hipótesis, que danConviene
dichos contrastes. respuestaresaltar
a diferentes preguntas
que estos de de
contrastes investigación. En general,
hipótesis asumen losy aditividad
linealidad
en los efectos de las variables explicativas y, en consecuencia, no deben interpretarse como pruebas
contrastes
de bondad dedelhipótesis
ajuste, yaen
queregresión lineal
no facilitan múltiple
ninguna pueden clasificarse
información en tres del
sobre la idoneidad grandes
modelo lineal
aditivo para describir la relación subyacente de las variables explicativas con la variable respuesta.
grupos, a saber:
11.4.1  Contraste global del modelo de regresión lineal múltiple 17
La hipótesis nula del contraste global de un modelo de regresión lineal múltiple establece que ninguna
de las variables explicativas se asocia linealmente con la variable respuesta, que puede formularse

Pastor-Barriuso R. 203
Regresión lineal múltiple
Al igual
antioxidantes en el riesgo que en regresión
de desarrollar lineal
un primer simple,
infarto este de
agudo contraste global
miocardio en se realiza

como descomponiendo
Hvalores = … la
: β1 = β2obtenidos = βvariabilidad de 1,58,
la variable respuesta. Una devez estimada la ecuación
hombres adultos. Los p= 0. Bajo
fueron esta
0,89, hipótesis 0,79, nula, la ecuación regresión se reduce al término
Al0 igual que en regresión lineal simple, este1,29, contraste 1,42, global 0,84, se realiza
constante β0 y el modelo no aportará entonces ninguna explicación sobre la variabilidad de la variable
1,06, 0,87, 1,96respuesta.y de1,53 regresión
El propósito
mmol/l. ŷLa=media b0es,+ por
bde1x1tanto, +…
los + bpxpdel
contrastar
niveles suma
, lacolesterol
la hipótesis de cuadrados
HDLnula en H0: β1total= β2 =SST …= deβla=variable
0 frente a la
descomponiendo la variabilidad de la variable respuesta. Una vez estimada lap ecuación
hipótesis alternativa bilateral de que al menos una de las variables explicativas se relaciona linealmente
estos 10 participantes conrespuesta es puede
la respuesta, quedescomponerse
corresponde a Hcomo : β ≠ 0 para algún j = 1, …, p.
de regresión ŷ = b0 + b1x1 + … 1+ bjpxp, la suma de cuadrados total SST de la variable
Al igual que en regresión lineal simple, este contraste global se realiza descomponiendo la
variabilidad
1 10
respuesta de 0la
puede ,89variable
+ 1,58=+respuesta.
descomponerse
n
...(+y1,−53ycomo 2Una vez estimada la ecuación
n
de regresión ŷ = b0 + b1x1
x+ =… + x = SST
b x i, la suma de cuadrados  i ) = = 
1,223 ( yˆmmol/l.
− y + yi − yˆ i ) 2
totali =1SST de la variable respuesta puede descomponerse
i
10 p p 10 i =1
como i =1 n n n
n n
SST =  ( yii − y ) = 
ˆ ( yˆii − yi + yi −
ˆ yˆ i )(2yˆ i − y )( yi − yˆ i )
2 2
= ( y − y ) 2 + ( y − y ) + 2
 i =1 en antioxidantes en el riesgo de desarrollar un primer infarto agu
riesgo aritmética
media de desarrollar presenta un primer infarto agudo
las siguientes i =1 de miocardio
i =1
propiedades:
i =1 i =1
n n
DAS DE TENDENCIA 1.2 MEDIDASCENTRAL DE TENDENCIA n CENTRAL n n

Los valores
=
= 
 (( yyˆˆi − − yy )) 22 ++  (( yyi −
1 cadahombres
− yyˆˆi ))22 + = 2SSR( +yˆ SSE,
 adultos. i − yLos − yˆ i ) obtenidos fueron 0,89, 1,58, 0,7
)( yi valores
Cambio de obtenidos fueron 0,89,
origen (traslación). Si se 1,58,suma 0,79, =1 1,29,
i una
i =1
i
constante 1,42,i =0,84,
i =a1
i i
uno de los i =1 datos
s de tendencia Las medidas
central informande tendencia acerca centralde cuál informan
n es el valor acerca n más de representativo
cuál 2es el valor más representativo
1,53 mmol/l.
de una muestra, layaLa mediamedia de los
de laniveles
muestra del = 
colesterol
resultante ( y ˆ − y
es
que las desviaciones i =ŷ1i - y y yi - iŷ=1i están incorrelacionadas
i
HDL
) 2
+
igual  ena( ylai −media 1,06,
yˆ i ) =0,87, SSR1,96
inicial +másSSE,y la1,53 mmol/l. La media de los niveles del co
rminada variable de una determinada
o, dicho de forma variable o, dicho deestos
equivalente, forma equivalente,
estimadores indicanestos estimadores indican
tes es
constante ya que
utilizada; si las
yi =desviaciones
xi + c, entonces ŷi – y y=yxi – +ŷicestán . Un cambio estos
incorrelacionadas de10 participantes
origen que es
e qué valor alrededor
se agrupan deque
ya qué
loslas valor
datos se nagrupan los datos observados.
observados.
desviaciones ŷ i Las
- y medidas y yi - ŷni de estántendencia Lasn medidas de tendencia
incorrelacionadas
se
1 realiza
10 con
0,89frecuencia
+ 1,58 + ...es + 1el,53 
centrado
( ˆ
y − y )(
i de la variable,y i − ˆ
y i ) =
que yˆ e
consiste
i i − y  ei
en restar a 1 10 0,89 + 1,58 + ... + 1,53
a10 i =1
x i =
muestracentralsirven de tanto la10muestra
para resumir =i =1
1,223
sirvenlostanto
n
mmol/l.
resultadospara resumir observados
i =1
los nresultados
n
comoppara
i =1

n
observados
n
x = como 
10n i =1
xpara
i =
10
= 1,223 m
= b0 
ii −  
cada valor de la muestra su media. La
 ( yˆmedia de una ˆ variable yˆ i eecentrada
+ y b ejserá, ei − y  ei = 0
xijpor
i − y )( y i − y i ) =  i
rencias acercarealizar deinferencias
los parámetros acerca i =1de los parámetros
poblacionales poblacionales
correspondientes. i =1 i =1 Aj =i1=correspondientes.
1 i =1 i =1 A

tanto, igual a 0.
resenta las siguientes de acuerdo propiedades:
a las ecuaciones lineales derivadas del n
La media métodoaritmética
p
de mínimos
n
presenta
cuadrados
n
las siguientes
(véase Apartado propiedades:
n se describen continuación
los se
principales
11.3.1).
de acuerdo
describenestimadores
En consecuencia, los
a las ecuaciones
principales
de
la suma la tendencia
lineales
=
estimadores b
de derivadas 
0 central
cuadrados
e +
i de de 
del
la
total
b
una j  ij i central
tendencia
j =1 método
SST
x e
se
− y 
de descompone
mínimos
ede
i =una 0
en dos(véase
cuadrados términos
Cambio de escala
(traslación). (unidades).
Si independientes:
se suma Silase
una constante multiplica
a cada uno cada de unolos de
datos los
i =1
suma de cuadrados de la regresión SSR, que representa la variabilidad de

datos
Cambio de una
i =1
de origen
i =1
(traslación). Si se suma unala constante a cad
variable. es cierta. Por otro lado, comopor elsemodelo vio la ensuma el regresión,
Apartado 11.3.1, la suma de
variable
Apartado respuesta11.3.1). explicada
En consecuencia, de de cuadrados y la suma total deSST se cuadrados
cuadrados descompone del errordelenSSE,
muestradepor
media unaque
la muestra constante,
derepresenta
acuerdo
resultante la amedia
es igual de la
a la muestra
media resultante
la variabilidad residual que permanece sin explicar. Por un lado,(véase
las ecuaciones lineales inicial derivadas
más esla igual
de deluna a la
método
muestra, media de mínimos
la media cuadrados
de la muestra laresultante
suma es igual a la
a aritmética 1.2.1 Media erroraritmética
de cuadrados
dos SSE contiene
términos deindependientes: n - p - 1 SSR
la regresión grados de libertad.
contiene
la suma p grados
de cuadrados Además, dedelibertad bajo
la lasya
regresión asunciones
que,SSR, conocida
quedel modelo la media
;inicial
si yi =por xi +lac,constante
entoncesApartado utilizada;
y = 11.3.1).
x + si
c . yEn
Un
i = cx
cambioi , entonces
consecuencia, de origen yla = c
suma
que x .
muestral , los valores estimados por la ecuación de regresión ŷi = b0 + ib1xi1i … + bpxipen= y += x + c. Un cam de cuadrados
constante total
utilizada; SSTsi y se
= descompone
x + c , entonces
2
itmética,La media
denotada de –regresión
b1(xrepresenta
aritmética,
por
i1 x 1,) se
+ la … lineal
+ bcomo
denotada
define
variabilidad múltiple,
p(xip por –lade xsuma
p,)la
sese comprueba
quedan
define
de cada
variable como unoque
completamente
respuesta la
desuma elloscociente dedeterminados
explicada cada SSE/unoσelde
por selos
distribuye
por
modelo losdepregresión,
coeficientes
Cambio simultáneo
uencia es el centrado dos
asociados de origen
términos
de laavariable, y escala.
independientes:
las variables Si se
explicativas.
que consiste multiplicala suma
en restar cada
de
De hecho, a uno
cuadradossepuedede
realiza los dedatos
probarse la de
regresión
con frecuencia SSR,
que el cociente que
es el centrado SSR/σ de 2
sigue
la variable, que con
valoresuna
strales dividida conforme
distribución
muestrales
por el número a una
dividida
de chi-cuadrado
chi-cuadradopor
observaciones el númerocon con
p den
grados
realizadas.
y la suma de cuadrados del error SSE, que representa la variabilidad residual - p - 1
de
observaciones Sigrados
libertad
denotamos de libertad
cuando
realizadas. la con independencia
hipótesis
Si denotamos nula H : βde
0 que 1 = la
β 2 = …
una muestra
uestra su media.=La por una
βp media constante
representa
= 0 es de la
cierta. y
una Por al resultado
variabilidad
variable otro centrada de se
lado, como la le suma
variable
será, otra
se por respuesta
vio encada constante, el Apartado la
explicada media
valor de 11.3.1, por
la muestrael modelo
la suma
su media. de regresión,
de cuadrados
La mediadel de una variable c
año muestral por nyel error
por hipótesis
x
tamaño SSE
permanece
i el nula.
contiene
muestral
valor Combinando
observado y n –
por p x –
parael 1 valor
el las
grados distribuciones
de
observado
sujeto libertad.
i-ésimo,
sin explicar. Por un lado, la suma de cuadrados de la regresión SSR contiene
i para i muestrales
Además,
= el1, sujeto
..., n, bajode ambas
las
i-ésimo, =sumas
asunciones
i 1, ..., de
n, del modelo de
de la muestra resultante y la suma
regresión es igual
lineal a la media
de múltiple,
cuadrados se del inicial
comprueba errorporSSE, laque primeraque constante,
representa
el cociente
tanto, igual SSE/σ a más
la 2 la
variabilidad
0. se distribuye residual que a una
conforme
ndría dada la por
media chi-cuadrado
pcuadrados,
vendría
gradosdada deconse n – p –que
tiene
por
libertad 1 grados
ya bajoconocida
que, ladehipótesis
libertad la con nulaindependencia
media 0: β1 = β2 y=,de
Hmuestral … βp = 0 estimados
losla=valores
hipótesis lanula.
razónCombinando
entrepor la
segunda constante;
(unidades). Si selasmultiplica si y
permanece =
distribuciones
i c x +
sin
cada uno
1 i c , entonces
explicar.
muestrales
2 de los datos Por y
de ambasun = c
lado,
de una
1 x +la c suma.
sumas• deCambio
2 de cuadrados
cuadrados, de escala de
se tienela regresión
que bajo Si
(unidades). SSR contiene
la hipótesis
se multiplica nulacada uno de los
2
β1 = βn2 = explicada
H0:ecuación
varianza … = β = 0 la
por razón
la regresión entre la varianza
SSR/ p y la explicada
varianza por
residualla regresión
s = SSE/( SSR/pn - y
p la
- 1) varianza
1 2 de x1 +p x 2 +ya...ŷque,
de regresión 1i+=nx nbconocida0 + bx11xi1 + +lax 2… + ...+ b+pxipn = y + b1(xi1 - x1 ) + … + bp(xip - x p )
onstante, la media residual
Ejemplo 1.5 Para transformar
xde la 
p=grados muestra
n i =1
= libertad
s =x i SSE/(n – px –= 1)es
resultante
los valores
 igual x.i =a la
n ndeli =1colesterol HDL
media media muestramuestral
n de mmol/l a mg/dl se
. por yuna , losconstante,
valores estimados la media de porlalamuestra resultante e

quedan completamente determinados SSR por los p coeficientes asociados a las variables
ante utilizada; si yiecuación = cxi, entonces de regresión y = c xŷ i. = b0 + b1xi12 + … + inicial bpxip = por y +labconstante + … + bp(sixipyi- =xcx
(x - x ) utilizada; p )i, entonces y = c x
multiplica por el factor de conversión 38,8. SSR Así, utilizando pσ la propiedad χ p2 del / p 1 i1 1
a es la medida Lade media
tendencia es la medida
explicativas. central DeFhecho,de= tendencia
más utilizada
puede= central y de más
probarse más fácil
que utilizada
~el cociente y deSSR/ más σfácil 2 = Fp,n −p −1
sigue una distribución
ps 2
SSE χ n2− p −1 /(n
Cambio −
simultáneo p − 1 ) de origen
o de origen y escala.
cambio de escala, quedan
Si se multiplica
la mediacompletamente
del colesterol HDL
cada uno
determinados de
en
los
mg/dl
datos porse
de los p coeficientes asociados

2 calcularía
a las yvariables
escala. Si se multiplica cada u
ón. Corresponde interpretación.
al “centro Corresponde
de gravedad” de los(ndatos
al “centro p −de1)la
de− gravedad” σ muestra. de los Su datos de la muestra. Su
chi-cuadrado con p grados de libertad cuando la hipótesis nula2H0: β1 = β2 = … = βp = 0
na constante y al resultado explicativas. se le suma
Deen hecho,otra constante,
puede probarse la media que el una muestra
cociente SSR/ porσunasigue constante y al resultado se le suma otra c
una distribución
directamente a se distribuye
partir de su media como el cociente
mmol/l de dos
como 1,223distribuciones
⋅38,8 = 47,45 chi-cuadrado
mg/dl. independientes divididas por
mitación es principal
que estálimitación
muy influenciada es que está pormuy los valoresinfluenciada extremos por los y, en valoreseste extremos y, en este
sussecorrespondientes
distribuye comogrados el cociente de libertad, de dos distribuciones
que equivale chi-cuadrado a una distribución F de Fisher con p
independientes
tante es igual a la chi-cuadrado
media inicial por la primeradeconstante, más ladelalahipótesis muestranula resultante β1es = igual
βentre a la= media
βp =19 0 inicial por la prim
grados de libertadcon en pelgrados numerador libertad
y n – pcuando – 1 en el denominador. H
La0: razón 2 = …las varianzas
no ser uncaso, puede no
fiel reflejo de ser un fiel reflejo
la tendencia central de de la la tendencia
distribución. central de la distribución. 6 a una distribución F
divididas por sus correspondientes grados de libertad, que equivale
; si yi = c1xi + c2, entonces y = c1 x + c2. segunda constante; si yi = c1xi + c2, entonces y = c1 x + c2.
R.con p grados de libertad en el numerador y n - p - 1 en el denominador. La 19
y endelos
Fisher
204 Pastor-Barriuso
plo 1.4 En este Ejemplo 1.4 En
sucesivos este y en lossobre
ejemplos sucesivos ejemplos
estimadores sobre estimadores
muestrales, se muestrales, se
ransformar los valores del colesterol HDL de mmol/l a mg/dl seEjemplo 1.5 Para transformar los valores del colesterol HDL
delrazón
arán los valoresutilizarán entre las varianzas
los valores
colesterol HDL explicada
del colesterol
obtenidos 10y primeros
HDL
en los residual constituye,
obtenidos 10 por
en los del
sujetos tanto, sujetos
primeros el estadístico
del para el
Contrastes de hipótesis en regresión lineal múltiple

Tabla 11.2  Tabla genérica del análisis de la varianza en regresión


Tabla 11.2 Tabla genérica del análisis de la varianza en regresión lineal múltiple.*
lineal múltiple.*
Suma de Grados de Razón de
Suma de
cuadrados Grados de
libertad Varianza Razón de
varianzas
cuadrados libertad Varianza varianzas
n
SSR SSR
Regresión SSR =  ( yˆ
i =1
i − y) 2 p
p
F=
ps 2

n n
SSE
Error SSE =  ei2 =  ( y i − yˆ i ) 2
i =1 i =1
n − p −1 s2 =
n − p −1

n
Total SST = (y
i =1
i − y) 2 n −1

*  Coeficiente
* Coeficiente de determinación
de determinación R2 = SSR/SST.
R2 = SSR/SST.

explicada y residual constituye, por tanto, el estadístico para el contraste global del modelo de
regresión lineal múltiple. La descomposición de la variabilidad de la variable respuesta, junto
con la razón de varianzas resultante, suele resumirse en la tabla del análisis de la varianza
(Tabla 11.2).
Como complemento al contraste global del modelo, suele calcularse el coeficiente de
determinación R2 = SSR/SST, que es una medida cuantitativa de la proporción de la variabilidad
equivale al cuadrado del coeficiente de correlación r yˆ entre los valores observados yi
de la variable respuesta explicada por el modelo de yregresión múltiple. El coeficiente de
determinación R2 varía entre 0 y 1 y aumenta siempre que se incluyen nuevas variables
de la variable
explicativas en elrespuesta
modelo, yaunque
los valores incrementoŷ i puede
este predichos por la no
ecuación de regresión,
ser significativo que
(ver se
apartado
siguiente). Otra de sus principales propiedades es que equivale al cuadrado del coeficiente de
coeficiente de correlación
correlación ryyˆ entre
conoce como entre losvalores
los valores
coeficiente observadosyyimúltiple
de observados
correlación ide la variable
, respuesta y los valores predichos ŷi
por la ecuación de regresión, que se conoce como coeficiente de correlación múltiple,
y los valores predichos ŷ i por la ecuación de regresión, que se 2
n
 n 2
 ( yˆ − y )
SSR i =1 i
2


i =1
( ˆ
y i − y ) 

de correlación múltiple, 2
R = = n = n n
SST
 ( y i − y ) 2  ( y i − y ) 2  ( yˆ i − y ) 2
i =1 i =1 i =1
2
n
 n 
 ( yˆ   ( yˆ i − y ) 2 
2 2
− y)  n n

i =1
i
 i =1    ( y i − y )( yˆ i − y ) −  ( y i − yˆ i )( yˆ i − y ) 
= n = n  i =1 i =1 
2 =
n

 ( y − y ) 2
 ( y − y ) 2
 ( ˆ
y − y ) n n

 ( y i − y ) 2  ( yˆ i − y ) 2
i i i
i =1 i =1 i =1
2 i =1 i =1
 n n

  ( y i − y )( yˆ i − y ) −  ( y i − yˆ i )( yˆ i − y )   n
2

=
i =1 i =1    ( y i − y )( yˆ i − y ) 
= n  = 2
i =1
n n
ryyˆ .
 ( y − y ) 2
 ( ˆ
y − y ) 2 n

 ( y i − y )  ( yˆ i − y )
i i 2 2
i =1 i =1 64
2 i =1 i =1
 n 
  ( y i − y )( yˆ i − y ) 
Notar quelas estimaciones de los coeficientes de regresión minimizan la suma de cuadrados del
= n Notar que las estimaciones de los coeficientes de regresión minimizan R la2 suma de
i =1 2
error
n
= r yyˆ .
SSE y, en consecuencia, maximizan el coeficiente de determinación del modelo. De la
 ( y i − y ) 2
 (
relaciónˆ
y i − y )
entre
2
los coeficientes de determinación y correlación múltiple, se deriva
i =1 cuadrados del error SSE y, en consecuencia, maximizan el coeficiente de determinación
entonces que
i =1
las estimaciones b0, b1, …, bp maximizan la correlación entre los valores observados yi y los
R2 del modelo. De la relación entre los coeficientes de determinación y correlación
es de los coeficientes de regresión minimizan la suma de
Pastor-Barriuso R. 205
múltiple, se deriva entonces que las estimaciones b0, b1, …, bp maximizan la correlación
y, en consecuencia, maximizan el coeficiente de determinación
entre los valores observados y y los valores predichos ŷ = b + b x + … + b x , de tal
estimada ŷ = 1,58 - 0,0207x1 + 0,0028x2
correlación con la variable respuesta.
Regresión lineal múltiple 449
SSR =  (1,58 − 0,0207 x i1 + 0,0028 x i 2 − 1,08) 2 = 4,58
Ejemplo 11.6 En la primera
i =1
parte de la Tabla 11.1 se presenta el análisis de la

valoresvarianza de ŷlai =regresión


predichos b0 + b1xi1lineal
+…+ múltiple
bpxip, dedel
talcolesterol
forma queHDL sobreotra
cualquier el índice de
combinación lineal
y la suma de cuadrados residual
de las variables explicativas tendrá menor correlación con la variable respuesta.
semasa
descompone
corporal en y ellaconsumo
suma de decuadrados
alcohol.explicada
La suma deporcuadrados
la ecuación de del
total regresión
colesterol
Ejemplo 11.6  En la449primera parte de la Tabla 11.1 se presenta el análisis de la varianza
estimada
HDL ŷ =SSE
1,58=-  { y i −1(1+,58
0,0207x − 0,0207
0,0028x x i1 + 0,0028 x i 2 )}2 = 34,33.
de la regresión lineal
se descompone en lai =suma
1
múltiple
de cuadrados explicada por la ecuación de
del colesterol
2 HDL sobre el índice de masa corporal y el
regresión
consumo de alcohol. La suma de cuadrados total del colesterol HDL
estimada ŷ = 1,58
se en=la- 0,0207x
449 + 0,0028x
449
Pordescompone suma de 1 cuadrados
tanto, el SSR 
coeficiente (1de
, SST
58 =  (xyi1i −+2explicada
determinación
− 0, 0207
i =1
1,08 ) 2 x=i 2por
0se,0028
estima − 1la
en ,08ecuación
38,91
R 2 2
= 4,58de regresión
=) 4,58/38,91 = 0,118 y
i =1
estimada
se ŷ = 1,58
descompone la- 0,0207x + 0,0028x2explicada por la ecuación de regresión estimada
deencorrelación
suma de1múltiple
cuadrados
449
el coeficiente en r = 0,118 = 0,343. Es decir, la 21
ŷ = 1,58 – SSR
0,0207x =
1 + (1,58
0,0028x
y la suma de cuadrados residual

i =1
2
0,0207 x i1 +yyˆ0,0028 x i 2 − 1,08) 2 = 4,58
449
combinación lineal del índice de masa corporal y el consumo2 de alcohol presenta
SSR =  (1,58 − 0,0207 x i1 + 0,0028 x i 2 − 1,08) = 4,58
y la suma de cuadrados 449 i =1
residual
una correlación de 
SSE = 0,343 { y i con
− (1,el − 0,0207 xHDL,
58colesterol i1 + 0,0028 x i 2 )}2 = así
consiguiendo 34,33.
explicar el
y la suma de cuadrados i =1 residual
y11,8%
la suma devariabilidad
de la cuadrados 449 residual
SSE =  { ydel colesterol HDL en los controles2 del
i − (1,58 − 0,0207 x i1 + 0,0028 x2i 2 )}
estudio
= 34,33.
Por tanto, el coeficiente i =1 de determinación se estima en R = 4,58/38,91 = 0,118 y
EURAMIC. Esta variabilidad
449
Por tanto, el coeficiente de determinación explicada por se el modelo
estima en de regresión lineal múltiple
R2 = 4,58/38,91 = 0,118 y el
SSE =  { y i − (1,58 − 0,0207 x i1 + 0,0028 x i 2 )}2 = 34,33.
elcoeficiente
coeficiente
Por tanto, el dede correlación
correlación
coeficiente múltiple
múltiple
de determinación en r = 0 ,118 = 0,343.
2
yyˆse estima en R = 4,58/38,91 = 0,118 Es
Es decir,
decir, lala combinación
ya y
i =1
representa una parte significativa de la variabilidad
lineal del índice de masa corporal y el consumo de alcohol presenta una correlacióntotal del colesterol HDL, de
0,343
combinacióncon el colesterol
lineal del índice HDL, consiguiendo
de masa corporal así explicar
yrazón el 11,8% de la variabilidad del
el coeficiente
Por tanto, deglobal
correlación múltiple en ryse =la 0el,118
consumo
=R0,343.
2 devarianzas
alcohol
Es decir,=presenta
la0,118 y
que
incluidas en elel
el contraste
colesterol HDL coeficiente
modeloen los delde modelo
determinación
controles
contribuyan demediante
del estudio
forma estima
yˆ EURAMIC.
significativa enentre =las
4,58/38,91
Esta variabilidad
a explicar una parteexplicada
explicada
de la por
el
una modelo de regresión lineal múltiple representa una
correlación de 0,343 con el colesterol HDL, consiguiendo así explicar el parte significativa de la variabilidad
ycombinación
el residual
total de lalineal
coeficiente de
del colesterol
variabilidad del índice
correlación
HDL,
respuesta, ya quedeelmasa
múltiple
pudiendo en
contraste
haber runa
corporal
yyˆ global y0,118
=o varias eldel
consumo
= 0,343.de
modelo
variables alcohol
Es decir,
mediante
que lapresenta
tenganlarazón
nula entre
o las
varianzas explicada y residual
11,8% de la variabilidad del colesterol HDL en los controles del estudio
una contribución.
escasa correlación
combinación deEn
lineal 0,343
del este con
índice el
de4colesterol
sentido, cabría
,masa
58 HDL,2,29yconsiguiendo
preguntarse
/ 2 corporal si es posible
el consumo asíalcohol
de explicar
eliminar el
algunas
presenta
F= = = 29,72
EURAMIC. Esta variabilidad explicada 34,33 / 446por 0el,077 modelo de regresión lineal múltiple
11,8%
variables
una de la variabilidad
explicativas
correlación del modelo
de 0,343 del
concolesterol
elsin HDL
afectar
colesterol en los
sensiblemente
HDL, controles
consiguiendo del
asíestudio
a la capacidad
explicarpredictiva
el del
resulta en un valor P = P(F2,446 ≥ 29,72) < 0,001 bajo la distribución F de Fisher con 2
representa una parte significativa de la variabilidad total del colesterol HDL, ya
grados
EURAMIC.
resulta
mismo.
11,8% Losde libertad
Esta
encontrastes
de en
unvariabilidad
la el P(F
valorvariabilidad
Pparciales
= numerador
se
del2,446 y 446
explicada
≥ocupan
29,72)
colesterol <en0,001
por
de
HDL darel denominador.
enmodelo
losbajo
respuesta ladedistribución
controles regresión
este delineal
tipoestudio
del múltiple
F de Fisher
preguntas,
que el contraste global del modelo mediante la razón entre las varianzas explicada
11.4.2 representa
Contrastes
valorando
con
EURAMIC. una parte
Esta significativa
deparciales
la contribución
2 grados libertad adicional
en el numerador
variabilidad deuna
de
explicada la variabilidad
opor
ymás
446 en eltotal
el variables
modelo del colesterol
deexplicativas
denominador.
regresión HDL,
a lo
lineal ya ya
múltiple
y residual
Cuando queelelcontraste
explicado
representacontraste
por una global
global
las otras
parte de
del regresión
variables modelo
significativa presentes es variabilidad
demediante
la significativo,
en el la razóntotal
modelo. el del
entre modelo
las en suHDL,
varianzas
colesterol conjunto
ya resulta
explicada
efectivo a la hora de explicar la variabilidad observada en la variable respuesta. No obstante,
11.4.2 Contrastes parciales
esto noLa
que implica
y residual
hipótesis
el contrastenecesariamente
nulaglobal
del contraste
del que4parcial
,todas
58 mediante
/ 2 las 2,29 que,explicativas
variables
establece una
entrevez incluidas
lasincluidas las en el modelo
variables
F =modelo = la razón = 29,72 varianzas explicada
contribuyan de forma significativa 34a,33explicar
/ 446 0una
,077parteel de la variabilidad de la respuesta,
Cuando el contraste global de regresión es significativo, modelo en su conjunto
pudiendo haber una o varias variables
y residualX1, ..., Xp-r, 1 ≤ r < p, las que tengan nula o escasa contribución. En esteno sentido,
explicativas 4,58restantes
/2 2r ,variables
29 Xp-r+1 , ..., Xp del modelo se
cabría preguntarse si es posibleFeliminar = algunas = variables explicativas del modelo sin afectar
= 29,72
resulta efectivo a lavalor
horaPde = explicar
P(F2,44634 ≥la,29,72)
33 variabilidad
/ 446 < 0,0010,077 observada
bajocontrastes en la variable
la distribución F derespuesta.
resulta
sensiblemente en aun la capacidad
relacionan linealmente conpredictiva
la variabledel mismo.
respuesta. Los
Más concretamente, parciales seFisher
ocupan de dar
se pretende
respuesta a este tipo de preguntas, 4 ,58 / 2 2 , 29
No obstante, esto no implica F = valorando que la=contribución = 29,72 adicional de una o más variables
con 2 grados
explicativas a lo ya libertad necesariamente
deexplicado en
por ellas
numerador
34 otras
,33 / y 446
variables
446 0
todas
, 077en las
presentes
variables explicativas
el denominador.
enhipótesis
el modelo.
resulta en
contrastar un valor P
la hipótesis = P(F
nula H0:2,446βp-r+1≥ 29,72)
= … =<βp0,001 bajo laa la
= 0 frente distribución F de Fisher
alternativa
La hipótesis nula del contraste parcial establece que, una vez incluidas las variables 22
con 2 H
explicativas
bilateral
resulta grados
Xen βun
11:, ...,
j≠ de
0,,libertad
Xvalor
p–r para p,enlas
1 ≤Pr=algún
<P(F el
2,446
numerador
j =restantes
p≥ -29,72)
r + 1, <y0,001
…, 446
r variables p, en enbajo
Xelel denominador.
la, ...,
modelo
p–r+1 Xpde
delregresión
distribución modelo
F deno se relacionan
lineal
Fisher
11.4.2 Contrastes parciales
linealmente con la variable respuesta. Más concretamente, se pretende contrastar la hipótesis
nula 0: β2
Hcon
múltiple grados
p–r+1 = …de β p = 0 frente
= libertad a la hipótesis
en el numerador y 446 alternativa bilateral H 1: βj ≠ 0, para algún
en el denominador.
Cuando
j11.4.2 rel+contraste
= p – Contrastes global
1, …, p, parciales
en de regresión
el modelo de regresión es significativo,
lineal múltiple el modelo en su conjunto

resulta efectivo a la Yhora β 1 x1 + …


0 +explicar
= β de β p −r xp − r + β p observada
la+variabilidad − r+1 xp − r+1 + en
… la p xp + ε . respuesta.
+ βvariable
CuandoContrastes
11.4.2 el contrasteparciales
global de regresión es significativo, el modelo en su conjunto
NoPastor-Barriuso
obstante,
Notar queR.
206 resulta
esto
esteno implica parcial
contraste necesariamente que todas
eslaequivalente a la las variables explicativas
comparación de dos modelos: el
Cuandoefectivo a la
el contraste hora dede
global explicar
regresión variabilidad
es significativo, observada en laen
el modelo variable respuesta.
su conjunto
22
No anterior
obstante, modelo
esto no completo
implica que incorpora las
necesariamente que p todas
variableslas explicativas
variables y el modelo
explicativas
resulta efectivo a la hora de explicar la variabilidad observada en la variable respuesta.
Y = β 0 + β 1 x1 + … + β p-r xp-r + β p-r+1 xp-r+1 + … + β p xp + ε .
explicativas sometidas al contraste, asegurándose de utilizar las mismas observaciones
Contrastes de hipótesis en regresión lineal múltiple
Notar que este contraste parcial es equivalente a la comparación de dos modelos: el
en ambos modelos. Al incluir nuevas variables explicativas sobre la misma muestra de
anterior modelo completo que incorpora las p variables explicativas y el modelo
observaciones,
Notar la variabilidad
que este contraste parcial esde equivalente
la variable respuesta explicadade
a la comparación pordosel modelo
modelos:completo
el anterior
modelo completo que incorpora las p variables explicativas y el modelo
reducido que resulta de excluir las r variables Xp-r+1, ..., Xp objeto del contraste,reducido que resulta
de SSR 1 será
excluir las siempre mayor
r variables o,igual
Xp–r+1 ..., Xpque la variabilidad
objeto explicada por el modelo reducido
del contraste,
Y = β 0 +SSR
SSR0, de tal forma que la diferencia β 1 x 1 + … + β p −r x p − r + ε ,
1 - SSR0 representa el incremento en la
dado que los coeficientes asociados a dichas variables son 0 bajo la hipótesis nula. Así, los
variabilidad
dado que
contrastes losexplicada
parciales al incluir
coeficientes las variables
asociados
son particularmente aútiles
dichas Xp-r+1
variables
para comparar Xp.el0Puede
, ..., son bajo probarse
ajuste que,
ladehipótesis si la
nula.
dos modelos Así,
anidados,
lo que permite decantarse entre el modelo más simple o el modelo extendido con variables
hipótesis
los nula
contrastes
adicionales en H0: βp-r+1
parciales
función del son = βpdel
= …particularmente
resultado = 0contraste.
es cierta, el cociente
útiles para comparar (SSR1el- SSR
ajuste σ 2 dos
0)/de sigue una
El procedimiento
modelos anidados, más sencillo
lo que permitepara realizar un contraste parcial
máses ajustar por separado el
distribución chi-cuadrado con los rdecantarse
grados de entre el modelo
libertad simple
correspondientes alonúmero
el modelode
modelo completo y el modelo reducido excluyendo las r variables explicativas sometidas al
contraste,
extendidoasegurándose
con variables deadicionales
utilizar lasenmismas
funciónobservaciones en
delambos modelos. Al incluir
variables explicativas a contrastar. Asimismo, ladel resultado
suma contraste.
de cuadrados del error del
nuevas variables explicativas sobre la misma muestra de observaciones, la variabilidad de la
variable respuesta explicada
El procedimiento más por el modelo completo SSR1 será siempre mayor poro igual que la
modelo completo SSE 1 essencillo para realizar
independiente un contraste
del incremento parcial
en la es ajustar
variabilidad explicada
variabilidad explicada por el modelo reducido SSR0, de tal forma que la diferencia SSR1 – SSR0
representa elelincremento en la variabilidad explicada alexcluyendo
incluir las variables Xp–r+1, ..., Xp. Puede
separado
SSR1 - SSR 0modelo completo
y el cociente SSEy1/elσ 2modelo reducido
se distribuye según las r variables
una chi-cuadrado con n - p - 1
probarse que, si la hipótesis nula H0: βp–r+1 = … = βp = 0 es cierta, el cociente (SSR1 – SSR0)/σ 2
sigue una distribución chi-cuadrado con los r grados de libertad correspondientes al número de
grados explicativas
variables de libertad. De estos resultados
a contrastar. se deriva
Asimismo, la suma de H
que, bajo 0: βp-r+1 = del
cuadrados βp = del
… =error 0, lamodelo
23
completo SSE1 es independiente del incremento en la variabilidad explicada SSR1 – SSR0 y el
razón SSE
cociente entre/σel2 incremento
se distribuyedesegún
la varianza explicada por
una chi-cuadrado conambos
n – p –modelos
1 grados(SSR 1 - SSRDe
de libertad. 0)/restos
1
resultados se deriva que, bajo H0: βp–r+1 = … = βp 2= 0, la razón entre el incremento de la varianza
y la varianza
explicada por ambosresidual del modelo
modelos (SSRcompleto s = SSE1/(n - p - 1)
1 – SSR0)/r1 y la varianza residual del modelo completo
s1 = SSE1/(n – p – 1)
2

SSR 1 − SSR 0
2
SSR 1 − SSR 0 r σ
2 χr /r
F= = ~ 2 = Fr,n −p −1
rs12 SSE1 χ n − p −1 /( n − p − 1)
(n − p − 1)σ 2
sigue una distribución F de Fisher con r y n – p – 1 grados de libertad al ser el cociente de dos
sigue una distribución
distribuciones F de
chi-cuadrado Fisher con r ydivididas
independientes n - p - 1 grados
por susderespectivos
libertad al ser el cociente
grados de libertad.
Este análisis de la varianza para el contraste parcial de un modelo de regresión lineal múltiple
de dos distribuciones
se representa chi-cuadrado
esquemáticamente independientes
en la Tabla 11.3. divididas por sus respectivos grados

de libertad. Este análisis de la varianza para el contraste parcial de un modelo de


Tabla11.3
11.3  Análisis de la varianza para el en
contraste lineal
parcial en
regresiónTabla Análisis
lineal múltiple de la varianza
se representapara el contraste
esquemáticamenteparcial
enregresión
la Tabla 11.3.múltiple.
regresión lineal múltiple.
Suma de Grados de Razón de
Suma de Grados
cuadrados libertadde Varianza Razón de
varianzas
cuadrados libertad Varianza
[Tabla 11.3 aproximadamente aquí] varianzas
Regresión SSR1 p

X1,..., Xp − r SSR0 p −r

SSR 1 − SSR 0 SSR 1 − SSR 0


Xp − r+1,..., Xp|X1,..., Xp − r SSR1 − SSR0 r F=
r rs12
SSE 1
Error SSE1 n − p − 1 s12 = 24
n − p −1
Total SST n–1
Total SST n-1
Pastor-Barriuso R. 207
Regresión lineal múltiple

Ejemplo 11.7   La Tabla 11.4 muestra los resultados obtenidos en el grupo control del
estudio EURAMIC al ajustar un modelo de regresión lineal múltiple con el colesterol
HDL como variable respuesta, el índice de masa corporal, el consumo de alcohol y la
edad en años como variables explicativas continuas y el estatus socioeconómico como
variable explicativa dicotómica (xi4 = 1 en sujetos con bajo nivel socioeconómico y 0 en
sujetos con alto nivel socioeconómico). De la tabla del análisis de la varianza se
desprende que el modelo en su conjunto explica el 11,9% de la variabilidad del colesterol
HDL, lo que representa una parte significativa de la variabilidad total de la respuesta ya
que la razón de varianzas del contraste global del modelo F = 14,85 resulta en un valor
P = P(F4,440 ≥ 14,85) < 0,001 bajo la distribución F de Fisher con 4 y 440 grados de
libertad. No obstante, una vez incluidos el índice de masa corporal y la ingesta de alcohol,
ni la edad (t = b3/SE(b3) = 0,0002/0,0014 = 0,12, P = 2P(t440 ≥ 0,12) ≈ 2{1 – F(0,12)} =
0,90) ni el estatus socioeconómico (t = b4/SE(b4) = 0,021/0,027 = 0,80, P = 2P(t440 ≥ 0,80)
≈ 2{1 – F(0,80)} = 0,43) presentan efectos independientes significativos sobre los niveles
de colesterol HDL. De hecho, cada incremento de 10 años en la edad se asocia con un
aumento despreciable de 10 ∙ 0,0002 = 0,002 mmol/l en la media del colesterol HDL entre
sujetos con igual índice de masa corporal, consumo de alcohol y nivel socioeconómico.
De igual forma, ajustando por diferencias en el índice de masa corporal, la ingesta de
alcohol y la edad, la media del colesterol HDL difiere únicamente en 0,021 mmol/l entre
los sujetos con nivel socioeconómico bajo y alto.
A partir de estos resultados, sería razonable preguntarse si la edad y el estatus
socioeconómico contribuyen conjuntamente a explicar la variabilidad residual del
colesterol HDL que permanece sin explicar por el índice de masa corporal y el consumo
de alcohol, lo que equivale a contrastar este modelo frente al modelo reducido de la
Tabla  11.1 que incluye únicamente el índice de masa corporal y la ingesta de alcohol
como variables explicativas. No obstante, los resultados de ambos modelos no son

Tabla 11.4  Resultados de la regresión lineal múltiple del colesterol HDL sobre
el índice de masa corporal (IMC), el consumo de alcohol, la edad y el estatus
socioeconómico (ESE) en el grupo control del estudio EURAMIC.
Análisis de la varianza*
Suma de Grados de Razón de
cuadrados libertad Varianza varianzas
Regresión 4,58 4 1,14 14,85
Error 33,93 440 0,077
Total 38,51 444
*  Coeficiente de determinación R2 = 4,58/38,51 = 0,119.
Coeficientes de regresión
Test H0: βj = 0
Estimación Error estándar IC al 95% t Valor P
Constante 1,56 0,12 (1,33; 1,79) 13,24 < 0,001
IMC – 0,021 0,0037 (– 0,028; – 0,014) – 5,66 < 0,001
Alcohol 0,0028 0,0006 (0,0016; 0,0040) 4,64 < 0,001
Edad 0,0002 0,0014 (– 0,0026; 0,0030) 0,12 0,90
ESE 0,021 0,027 (– 0,031; 0,074) 0,80 0,43

208 Pastor-Barriuso R.
consumo de alcohol, lo que equivale a contrastar este modelo frente al modelo
Contrastes de hipótesis en regresión lineal múltiple
reducido de la Tabla 11.1 que incluye únicamente el índice de masa corporal y la

ingesta de alcohol como variables explicativas. No obstante, los resultados de


Tabla 11.5  Análisis de la varianza para el contraste parcial múltiple de la
edad
ambosymodelos
el estatus socioeconómico
no son directamente (ESE) en la ya
comparables regresión lineal reducido
que el modelo del colesterol
HDL sobre el índice de masa corporal (IMC), el consumo de alcohol, la edad y
el ESE en
emplea el grupo control
4 observaciones másdel
queestudio EURAMIC.
el modelo completo (449 versus 445). Esto es
Suma de Grados de Razón de
debido a que hay 4 sujetoscuadrados
con valores ausentes
libertadpara el estatus socioeconómico,
Varianza varianzas
Regresión 4,58 4
que
IMC,pueden
alcoholutilizarse en el ajuste
4,53 del modelo reducido,
2 pero no en el modelo
Edad, ESE|IMC, alcohol 0,053 2 0,026 0,34
completo
Error que incluye dicha variable.
33,93 Para comparar
440 ambos modelos,
0,077 es preciso
Total 38,51 444
ajustar el modelo reducido a la misma muestra de 445 controles del estudio

EURAMIC, de
directamente donde se obtiene
comparables ya queuna suma de
el modelo cuadrados
reducido explicada
emplea por el modelo
4 observaciones más que el
modelo completo (449 versus 445). Esto es debido a que hay 4 sujetos con valores ausentes
reducido
para de SSR
el estatus 0 = 4,53. Así, el que
socioeconómico, incremento en la variabilidad
pueden utilizarse explicada
en el ajuste al incluir
del modelo reducido,
pero no en el modelo completo que incluye dicha variable. Para comparar ambos modelos,
la edad
es y elajustar
preciso estatuselsocioeconómico
modelo reducido enaellamodelo
mismacompleto es SSR
muestra de - SSR0 = del
445 1controles 4,58estudio
EURAMIC, de donde se obtiene una suma de cuadrados explicada por el modelo reducido
- 4,53
de SSR=0 0,053.
= 4,53.LaAsí,
razón
el entre el incremento
incremento de la varianza
en la variabilidad explicada
explicada y la varianza
al incluir la edad y el
estatus socioeconómico en el modelo completo es SSR1 – SSR0 = 4,58 – 4,53 = 0,053. La
residual
razón del modelo
entre completo
el incremento de es
la entonces
varianza explicada y la varianza residual del modelo
completo es entonces
0,053 / 2 0,026
F= = = 0,34,
33,93 / 440 0,077
que corresponde a un valor P = P(F2,440 ≥ 0,34) = 0,71 bajo la distribución F de Fisher con
2que
y 440 grados dea libertad.
corresponde un valor Este contraste
P = P(F 2,440 ≥ parcial
0,34) =múltiple
0,71 bajoselarepresenta en la
distribución Tabla 11.5.
F de
En conclusión, la edad y el estatus socioeconómico no contribuyen significativamente a
explicar la 2variabilidad
Fisher con y 440 gradosdeldecolesterol
libertad. HDL una vez tenidos
Este contraste parcial en cuentaseelrepresenta
múltiple índice de masa
corporal y el consumo de alcohol, de tal forma que el modelo reducido a estas dos últimas
variables explicativas
en la Tabla resulta igualmente
11.5. En conclusión, la edad yefectivo.
el estatus socioeconómico no

Loscontribuyen significativamente
contrastes parciales a explicar para
pueden emplearse la variabilidad
evaluar la del colesterol HDL
contribución una de una
adicional
única variable explicativa o de múltiples variables explicativas. El contraste parcial individual
vez tenidos
de la variable en cuenta
explicativa Xj el
se índice
reducede masa corporal
a evaluar y el consumo
la hipótesis nula H0: βde alcohol, de tal
j = 0 frente a la hipótesis
alternativa H1: βj ≠ 0 y, en consecuencia, es equivalente al test para los coeficientes de regresión
presentado en el Apartado 11.3.2. De hecho, puede probarse que el estadístico F de la razón de
varianzas del contraste parcial individual es igual al cuadrado del estadístico t = bj/SE(bj) del
correspondiente coeficiente, de tal forma que los valores P resultantes de ambos procedimientos 26
son idénticos (la distribución F de Fisher con 1 grado de libertad en el numerador y n – p – 1 en
el denominador es, por definición, el cuadrado de la distribución t de Student con n – p – 1
grados de libertad).

Ejemplo 11.8  Para evaluar si el estatus socioeconómico contribuye a explicar la


variabilidad del colesterol HDL que no se explica por las diferencias de índice de masa
corporal, consumo de alcohol y edad, se podría comparar la variabilidad explicada por el
modelo completo con la variabilidad explicada por el modelo que excluye el estatus

Pastor-Barriuso R. 209
explicada por el modelo completo con la variabilidad explicada por el modelo que

excluye el estatus socioeconómico en la misma muestra de 445 controles,


Regresión lineal múltiple

obteniéndose una diferencia SSR1 - SSR0 = 4,58 - 4,53 = 0,049. Así, el estadístico

F del contraste parcial


socioeconómico individual
en la misma es de 445 controles, obteniéndose una diferencia SSR1
muestra
– SSR0 = 4,58 – 4,53 = 0,049. Así, el estadístico F del contraste parcial individual es
0,049 0,049
F= = = 0,64,
33,93 / 440 0,077
que corresponde a un valor P = P(F1,440 ≥ 0,64) = 0,43 bajo la distribución F de Fisher
con 1 y 440 grados de libertad. Notar que este contraste es equivalente al test del coeficiente
2 27
asociado al estatus socioeconómico en la Tabla 11.4 ya que 2P(t440 ≥ 0,80) = P( t 440 ≥ 0,802)
= P(F1,440 ≥ 0,64).

11.5  VARIABLES EXPLICATIVAS POLITÓMICAS

La regresión lineal no establece ninguna asunción respecto a la distribución de las variables


explicativas, que pueden ser tanto continuas como categóricas. En anteriores apartados, se ha
tratado con modelos de regresión lineal que incorporan variables explicativas continuas y
pero sí a las estimaciones e interpretación de los coeficientes asociados a las variables
dicotómicas. Queda pendiente de estudiar, por tanto, el ajuste e interpretación de modelos de
regresión lineal múltiple con variables explicativas politómicas, que clasifican a los sujetos en
indicadoras. En este apartado se presenta la codificación de la categoría de referencia,
tres o más categorías en función de sus distintas características. Estas variables politómicas
pueden ser nominales (nunca fumadores, ex fumadores o fumadores actuales), ordinales (nivel
que es el método más extendido para definir variables indicadoras, de fácil
socioeconómico bajo, medio o alto) o incluso variables continuas categorizadas (normopeso,
sobrepeso u obesidad para un índice de masa corporal < 25, 25-30 ó ≥ 30 kg/m2, respectivamente).
interpretación y válido para cualquier tipo de variable politómica. Para cada una de las k
En general, las variables explicativas politómicas no se introducen directamente en los
modelos
categorías j = 1, …,yak que
de regresión de lalos valorespolitómica,
variable asignados aseestas variables
define la variable sirven paraXdiscernir
sólo indicadora j=1 u
ordenar las distintas categorías, pero no tienen interpretación numérica. La forma adecuada de
incluir este
en los tipo de
sujetos variables explicativas
pertenecientes a la categoría j y regresión
en una es mediante
0 en los restantes variables
sujetos, tal comoindicadoras
se
que identifiquen cada una de las categorías de la variable. Existen diversos métodos para
codificar
indica adecuadamente
en la Tabla 11.6.variables indicadoras.
Estas variables La elección
indicadoras Xk no
X1, …,entre uno u otroincluirse
pueden procedimiento de
codificación no afecta al ajuste del modelo (la tabla del análisis de la varianza permanece
simultáneamente
inalterable en un modelo
ante cualquier de regresión
codificación que contenga
que permita el término
diferenciar constante,
todas las ya que
categorías de una
variable politómica), pero sí a las estimaciones e interpretación de los coeficientes asociados a
las su
variables + … + Xk = 1Enpara
suma X1indicadoras. estetodos los sujetos
apartado la codificación
y cualquier
se presenta de la categoría
variable indicadora puede de
referencia, que es el método más extendido para definir variables indicadoras, de fácil
expresarse entonces
interpretación y válidocomo
para una combinación
cualquier tipo delineal exacta
variable de la constante
politómica. y de las
Para cada unademás
de las k
categorías j = 1, …, k de la variable politómica, se define la variable indicadora Xj = 1 en los
variables
sujetos indicadoras,
pertenecientes a lacon lo que jely modelo
categoría 0 en losincurriría en un problema
restantes sujetos, tal comodesecolinealidad
indica en la Tabla
11.6. Estas variables indicadoras X1, …, Xk no pueden incluirse simultáneamente en un modelo
perfecta (véase
de regresión Ejemploel11.1).
que contenga términoParaconstante,
solventarya este
queproblema,
su suma Xbasta
1 + … con
+ Xexcluir unatodos los
k = 1 para
sujetos y cualquier variable indicadora puede expresarse entonces como una combinación lineal
cualquiera
exacta de las variables
de la constante y de lasindicadoras,
demás variablesdigamos Xk, manteniendo
indicadoras, con lo que en el
el modelo
modelo incurriría
las otras en
un problema de colinealidad perfecta (véase Ejemplo 11.1). Para solventar este problema, basta
convariables indicadoras
excluir una cualquieraX1de lasXvariables
, …, k-1, indicadoras, digamos Xk, manteniendo en el modelo
las otras variables indicadoras X1, …, Xk–1,
E(Y|x1 , ..., xk −1) = β 0 + β 1 x1 + … + β k − 1 xk−1,
donde por simplicidad se omiten otras posibles variables explicativas. En este modelo, la
donde por
constante simplicidad se
β0 corresponde al omiten otras posibles
valor esperado de lavariables
respuestaexplicativas. En este
en la categoría k demodelo,
la variable
politómica, que toma valores cero en todas las variables indicadoras incluidas en el modelo,
la 1constante
E(Y|x β0 =corresponde
= 0, ..., xk–1 al valor cada
0) = β0. Asimismo, esperado de la respuesta
coeficiente en laβcategoría
de regresión k de
j determina la
el cambio en

variable politómica, que toma valores cero en todas las variables indicadoras incluidas
210 Pastor-Barriuso R.
en el modelo, E(Y|x1 = 0, ..., xk-1 = 0) = β0. Asimismo, cada coeficiente de regresión βj

determina el cambio en el valor esperado de la respuesta en la categoría j = 1, …, k - 1


cualquiera de las variables indicadoras, digamos Xk, manteniendo en el modelo las otras

variables indicadoras X1, …, Xk-1, Variables explicativas politómicas

E(Y|x1 , ..., xk-1 ) = β 0 + β 1 x1 + … + β k-1 xk-1,


Tabla 11.6  Variables indicadoras para las k categorías
de una se
donde por simplicidad variable
omitenpolitómica.
otras posibles variables explicativas. En este modelo,
Variable indicadora
la constante β0 corresponde al valor esperado de la respuesta en la categoría k de la
Categoría X1 X2 … Xk
1 1 0 … 0
variable politómica, que toma valores cero en todas las variables indicadoras incluidas
2 0 1 … 0
en el modelo, E(Y|x1 = 0, ..., xk-1 = 0) = β0. Asimismo, cada coeficiente de regresión βj


k 0 0 … 1
determina el cambio en el valor esperado de la respuesta en la categoría j = 1, …, k - 1

el valor esperado
respecto de la respuesta
a la categoría en la categoría
k de la variable j = 1, …, k – 1 respecto a la categoría k de la
politómica,
variable politómica,
E(Y|x1 = 0, ..., xj−1 = 0, xj = 1, xj+1 = 0, ..., xk −1 = 0)
− E(Y|x1 = 0, ..., xk−1 = 0) = β 0 + β j − β 0 = β j.
Como puede apreciarse, la categoría cuya variable indicadora se deja fuera del modelo actúa
como grupo de referencia, de tal forma que los coeficientes asociados a las variables indicadoras
presentes en el modelo determinan los cambios medios en la respuesta respecto a dicha categoría
de referencia. Aunque en principio la elección del grupo de referencia es arbitraria, en la práctica
suele utilizarse como categoría de referencia aquella que representa la ausencia o el menor 29 nivel
de exposición (nunca fumadores, nivel socioeconómico alto, normopeso), siempre y cuando su
tamaño muestral sea lo suficientemente grande para obtener comparaciones precisas con el
resto de categorías de la variable politómica.
En general, la contribución de las variables indicadoras a la capacidad predictiva del modelo
debe evaluarse conjuntamente, dado que estas variables no representan más que las distintas
categorías de una misma variable politómica. En este sentido, los contrastes parciales presentados
en el apartado anterior pueden aplicarse al conjunto de todas las variables indicadoras para
contrastar la hipótesis nula H0: β1 = … = βk–1 = 0, lo que equivale a un test de homogeneidad
del valor medio de la respuesta en las k categorías de la variable politómica. Notar que este test
de homogeneidad permanece inalterable ante cualquier codificación de las variables indicadoras
o selección del grupo de referencia, ya que éstas alteran los coeficientes de regresión, pero no
cambian la contribución global de la variable politómica al ajuste del modelo.

Ejemplo 11.9  En la Tabla 11.7 se presentan los resultados de ajustar un modelo de


regresión lineal múltiple del colesterol HDL sobre el índice de masa corporal, el consumo
de alcohol y el hábito tabáquico en 448 controles del estudio EURAMIC con información
completa de estas variables. El hábito tabáquico es una variable politómica con tres
categorías, que diferencia a los sujetos según sean nunca fumadores (113 sujetos), ex
fumadores (163) o fumadores actuales (172). Se designa como categoría de referencia a
los nunca fumadores y, en consecuencia, el modelo incluye dos variables indicadoras
para los ex fumadores (xi3 = 1 en ex fumadores y 0 en el resto) y los fumadores actuales
(xi4 = 1 en fumadores actuales y 0 en el resto).
Para evaluar si el nivel medio de colesterol HDL difiere en las tres categorías del hábito
tabáquico una vez tenidas en cuenta las diferencias de índice de masa corporal y consumo
de alcohol, se realiza el contraste parcial múltiple de las dos variables indicadoras del hábito
tabáquico H0: β3 = β4 = 0. Para ello, se compara la variabilidad explicada SSR1 = 5,44 por el

Pastor-Barriuso R. 211
la variabilidad explicada SSR1 = 5,44 por el modelo completo de la Tabla 11.7

con
Regresión lamúltiple
lineal variabilidad explicada SSR0 = 4,58 por el modelo que excluye ambas

variables indicadoras en la misma muestra de 448 controles, obteniéndose un test


modelo completo de la Tabla 11.7 con la variabilidad explicada SSR0 = 4,58 por el modelo
estadístico
que excluye ambas variables indicadoras en la misma muestra de 448 controles, obteniéndose
un test estadístico
(5,44 − 4,58) / 2 0,43
F= = = 5,69,
33,42 / 443 0,075
que corresponde a un valor P = P(F2,443 ≥ 5,69) = 0,004 bajo la distribución F de Fisher
con
que 2corresponde
y 443 grados a undevalor
libertad. Así,2,443
P = P(F se detectan
≥ 5,69) =diferencias
0,004 bajosignificativas
la distribuciónenFlas
de medias
ajustadas del colesterol HDL entre los nunca fumadores, ex fumadores y fumadores
actuales.
Fisher conLos2 y coeficientes
443 grados de asociados
libertad. aAsí,
lassevariables
detectan indicadoras del hábito tabáquico
diferencias significativas
permiten cuantificar estas diferencias de acuerdo a la codificación elegida. Por un lado,
una vezmedias
en las controladas las diferencias
ajustadas del colesterolen HDL
el índice
entredelos
masa corporal
nunca y la ingesta
fumadores, ex de alcohol,
la media del colesterol HDL presenta una diferencia insignificante de b3 = 0,009 mmol/l
entre los exy fumadores
fumadores fumadores actuales.
y los nunca fumadores. Sin
Los coeficientes embargo,
asociados a laslos fumadores actuales
variables
presentan una disminución significativa en el nivel medio de colesterol HDL de b4 = – 0,085
mmol/l en comparación
indicadoras con los nunca
del hábito tabáquico fumadores,
permiten incluso
cuantificar después
estas de ajustar
diferencias por el índice
de acuerdo
de masa corporal y el consumo de alcohol.
a la general,
En codificación elegida. Por
las variables un lado, una
indicadoras vez tratarse
deben controladas las diferencias
conjuntamente paraenpreservar
el su
interpretación. No obstante, en vista de que los niveles medios de colesterol HDL no
índice deenmasa
difieren corporal
nunca y la ingesta
fumadores de alcohol,selapodría
y ex fumadores, mediaeliminar
del colesterol HDL la variable
del modelo
indicadora de los ex fumadores. En tal caso, el coeficiente asociado a la variable indicadora
presenta
de una diferencia
los fumadores insignificante
actuales cambiaría de b3 = 0,009 mmol/l
deinterpretación, entrealos
pasando ex fumadores
representar el cambio
medio en el colesterol HDL entre fumadores actuales y no fumadores actuales (nueva
y los nunca
categoría defumadores. Sin embargo,
referencia donde los fumadores
se englobarían tanto losactuales presentan
nunca como una
los ex fumadores).

El test de homogeneidad permite contrastar si el nivel medio de la respuesta31difiere


significativamente en al menos 2 de las k categorías de una variable explicativa politómica. En
el caso de que las categorías estén intrínsecamente ordenadas, como ocurre con las variables

Tabla 11.7  Resultados de la regresión lineal múltiple del colesterol HDL sobre el
índice de masa corporal (IMC), el consumo de alcohol y las variables indicadoras
de ex fumadores y fumadores actuales en el grupo control del estudio EURAMIC.
Análisis de la varianza*
Suma de Grados de Razón de
cuadrados libertad Varianza varianzas
Regresión 5,44 4 1,36 18,03
Error 33,42 443 0,075
Total 38,86 447

*  Coeficiente de determinación R2 = 5,44/38,86 = 0,140.

Coeficientes de regresión
Test H0: βj = 0
Estimación Error estándar IC al 95% t Valor P
Constante 1,61 0,099 (1,42; 1,81) 16,31 < 0,001
IMC – 0,021 0,0036 (– 0,028; – 0,014) – 5,79 < 0,001
Alcohol 0,0030 0,0006 (0,0018; 0,0042) 5,03 < 0,001
Ex fumador 0,009 0,034 (– 0,058; 0,075) 0,26 0,80
Fumador actual – 0,085 0,034 (– 0,151; – 0,019) – 2,53 0,012

212 Pastor-Barriuso R.
Variables explicativas politómicas

ordinales y las variables continuas categorizadas, cabría preguntarse además si los niveles
medios de la respuesta siguen algún patrón específico a lo largo de las categorías. En particular,
sería relevante contar con un test de tendencia que permitiera detectar la existencia de una
componente lineal creciente o decreciente entre las respuestas medias de las sucesivas categorías.
Para ello, la variable explicativa politómica X debe tomar valores que preserven el orden de las
categorías. En el caso de variables ordinales, suelen asignarse los valores xi = 1, 2, ..., k según
el sujeto pertenezca a la primera, segunda o sucesivas categorías. En el caso de variables
continuas categorizadas, es preferible utilizar valores xi que representen alguna medida de
tendencia central de cada categoría (media o mediana) para preservar no sólo el orden de las
categorías, sino también la distancia entre las mismas. La variable politómica así codificada se
incluye directamente en el modelo de regresión, de tal forma que el contraste de su coeficiente
determina la existencia de una tendencia lineal creciente o decreciente en el valor medio de la
respuesta al aumentar la categoría de exposición. Conviene resaltar que este test de tendencia
no permite evaluar la idoneidad de la relación lineal, sino únicamente la existencia de una
componente lineal significativa a través de las categorías, independientemente de cuál sea la
relación subyacente.

Ejemplo 11.10  Dado que en el ejemplo anterior los niveles medios de colesterol HDL
no diferían significativamente en nunca fumadores y ex fumadores, ambas categorías se
colapsaron en una única categoría de no fumadores actuales. Además, como se dispone de
información sobre el número de cigarrillos al día en 154 de los 172 fumadores actuales, se
construyó una nueva variable politómica que clasificaba a los sujetos en no fumadores
actuales (276 sujetos), fumadores actuales de 1-10 (50 sujetos), 11-20 (67 sujetos) y > 20
cigarrillos/día (37 sujetos). La Tabla 11.8 muestra los resultados obtenidos en los controles
del estudio EURAMIC al ajustar una regresión lineal múltiple del colesterol HDL sobre
el índice de masa corporal, el consumo de alcohol y esta nueva variable explicativa
politómica, donde los no fumadores actuales constituyen la categoría de referencia.

Tabla 11.8  Resultados de la regresión lineal múltiple del colesterol HDL sobre
el índice de masa corporal (IMC), la ingesta de alcohol y las variables
indicadoras de fumadores actuales de 1-10, 11-20 y > 20 cigarrillos/día en los
controles del estudio EURAMIC.
Análisis de la varianza*
Suma de Grados de Razón de
cuadrados libertad Varianza varianzas
Regresión 4,70 5 0,94 12,62
Error 31,59 424 0,075
Total 36,29 429
*  Coeficiente de determinación R2 = 4,70/36,29 = 0,130.
Coeficientes de regresión
Test H0: βj = 0
Estimación Error estándar IC al 95% t Valor P
Constante 1,59 0,10 (1,40; 1,79) 15,90 < 0,001
IMC – 0,020 0,0037 (– 0,027; – 0,013) – 5,36 < 0,001
Alcohol 0,0028 0,0006 (0,0017; 0,0040) 4,70 < 0,001
Fumador 1-10 – 0,086 0,042 (– 0,168; – 0,003) – 2,04 0,042
Fumador 11-20 – 0,120 0,038 (– 0,193; – 0,046) – 3,19 0,002
Fumador > 20 – 0,055 0,048 (– 0,149; 0,040) – 1,14 0,26

Pastor-Barriuso R. 213
Regresión lineal múltiple

0,2
Diferencia en la media del colesterol HDL (mmol/l)

0,1

-0,1

-0,2

-0,3

0 10 20 30 40

Número de cigarrillos/día
Figura11-20
Figura 11.4  Diferencia en la media ajustada del colesterol HDL de los fumadores actuales de 1-10, 11.4
y > 20 cigarrillos/día respecto a los no fumadores actuales del grupo control del estudio EURAMIC. Las
barras verticales representan los intervalos de confianza al 95% para estas diferencias.
cigarrillos/día, ya que la comparación de la variabilidad explicada SSR1 = 4,70

porcontraste
El el modelo completo
parcial de lade
múltiple Tabla 11.8variables
las tres y la variabilidad explicada
indicadoras = β4 0==β3,76
H0: β3 SSR 5 = 0 revela
que existen diferencias significativas en las medias ajustadas del colesterol HDL entre los
porfumadores
no el modelo actuales
que excluye
y loslasfumadores
tres variables indicadoras
de 1-10, 11-20 yen> la20misma muestra de
cigarrillos/día, ya que la
comparación de la variabilidad explicada SSR1 = 4,70 por el modelo completo de la Tabla
430 controles
11.8 resulta explicada
y la variabilidad en un test SSR
estadístico
0 = 3,76 por el modelo que excluye las tres variables
indicadoras en la misma muestra de 430 controles resulta en un test estadístico
(4,70 − 3,76) / 3 0,31
F= = = 4,22,
31,59 / 424 0,075
que corresponde a un valor P = P(F3,424 ≥ 4,22) = 0,006. En comparación con los no
fumadores actuales
que corresponde de valor
a un igual índice
P = P(F de3,424
masa corporal
≥ 4,22) y consumo
= 0,006. de alcohol, con
En comparación los fumadores
los
de 1-10, 11-20 y > 20 cigarrillos/día presentan una disminución en el nivel medio de
colesterol
no fumadores de b3 = de
HDLactuales igual bíndice
– 0,086, 4 = – 0,120 y b5corporal
de masa = – 0,055 mmol/l, respectivamente.
y consumo de alcohol, los Esta
tendencia decreciente en la media ajustada del colesterol HDL se representa en la
Figura 11.4,
fumadores dedonde
1−10,el11−20
eje horizontal corresponde presentan
y > 20 cigarrillos/día al númerouna medio de cigarrillos
disminución en eldiarios
para cada categoría (0 en el caso de no fumadores actuales).
nivel contrastar
Para medio de colesterol
si esta tendencia 3 = -0,086, b4es
HDL de bdecreciente = -0,120 y b5 = -0,055
significativa, se creammol/l,
una variable
politómica con valores xi = 0, 7,1, 18,3 y 34,3 correspondientes al número medio de
respectivamente.
cigarrillos diariosEsta tendencia
de los sujetosdecreciente
no fumadores en la ymedia ajustadadedel1-10,
fumadores colesterol
11-20 y > 20
cigarrillos/día, respectivamente. Esta variable politómica se incluye directamente en un
HDL sede
modelo representa
regresiónen la Figura
múltiple 11.4,
junto condonde el eje
el índice dehorizontal corresponde
masa corporal al de alcohol.
y la ingesta
El coeficiente asociado a la variable politómica y su error estándar se estiman en b3 =
número medio
– 0,0030 y SE(b3de
) = cigarrillos diariossepara
0,0012, de donde cadauncategoría
obtiene (0 ten
estadístico = bel caso de no
3/SE(b3) = – 0,0030/0,0012
= – 2,46 y un valor P = 2P(t426 ≤ – 2,46) ≈ 2F(–2,46) = 0,014 bajo la distribución t de
fumadores actuales).
214 Pastor-Barriuso R.
Para contrastar si esta tendencia decreciente es significativa, se crea una variable

politómica con valores xi = 0, 7,1, 18,3 y 34,3 correspondientes al número medio


[Tabla 11.8 aproximadamente aquí]

Regresión polinomial
[Figura 11.4 aproximadamente aquí]

Student con n – p – 1 = 430 – 3 – 1 = 426 grados de libertad. Así, puede concluirse que la
11.6 REGRESIÓN
media ajustada delPOLINOMIAL
colesterol HDL no sólo difiere entre las categorías (P de homogeneidad
= 0,006), sino que tiende a decrecer significativamente conforme aumenta la categoría de
La exposición (P demúltiple
regresión lineal tendencia = 0,014).
permite No obstante,
explorar la Figura
relaciones 11.4 entre
no lineales muestra que la relación
las variables
subyacente podría no ser estrictamente lineal al presentar un leve repunte en la categoría
de fumadores
explicativas de más de
y la variable 20 cigarrillos/día.
respuesta. El modelo más habitual para acomodar un efecto no

lineal
11.6  de una variable
REGRESIÓN explicativa continua X es la regresión polinomial de orden k, que
POLINOMIAL
polinomios de orden superior al cuadrático tienden además a producir curvas con puntos
k
La incorpora
regresiónenlineal múltiple
el modelo permite polinomiales
los términos X2, …, Xno
explorar relaciones lineales
además del entre
propiolas variables
término
de inflexión y otras formas extrañas de difícil interpretación en términos
explicativas y la variable respuesta. El modelo más habitual para acomodar un efecto no lineal
de lineal
una variable
X, explicativa continua X es la regresión polinomial de orden k, que incorpora en
epidemiológicos.
el modelo los términos Porpolinomiales
ello, esta presentación se limitadel
X 2, …, X k además a los modelos
propio polinomiales
polinomios
término linealde de superior al cuadrátic
X, orden

segundo orden o cuadráticos Y = ,βque 1 x + β 2 x un


0 + βincluyen
2
+… + β k xklineal
término + ε , X ydeotro inflexión
cuadrático y otras X2 de formas extrañas de d
donde sin pérdida de generalidad se omiten otras posibles variables explicativas. Estos modelos
la variable
donde
polinomiales explicativa.
sin pérdida
pueden La tendencia
de generalidad
considerarse como resultante
se omiten otras
casos particularesdeposibles
estos de modelos
variables
la regresión epidemiológicos.
cuadráticos
explicativas. será Estos
lineal múltiple una Porcuyas
ello, esta presentac
variables explicativas son distintas potencias de una misma variable básica y, en consecuencia,
parábola
losmodelos que, aunque
polinomiales
procedimientos no se amolda
pueden
de estimación a cualquier
considerarse
e inferencia son forma
como casossubyacente
idénticos particulares
a los descritossegundo
dedela la ordensío cuadráticos
relación,
regresión
anteriormente para , que inclu
el modelo general de regresión.
permite
lineal capturar
múltiple cuyaslas desviaciones más frecuentes
variables explicativas del modelo
son distintas lineal,
potencias ladeincluyendo
variable
una misma explicativa. La tendencia resu
En teoría, los modelos polinomiales de orden k elevado permiten aproximar cualquier tipo
1.2 MEDIDAS
de tendencias
relación curvilínea. DENo 1.2 MEDIDAS
TENDENCIA
obstante, DE TENDENCIA
si elCENTRAL
número requerido deCENTRAL
términos polinomiales es muy
variable básica monótonas cuya
y, en consecuencia, pendiente losaumenta
procedimientos o disminuye progresivamente,
de estimación parábola que,así
e inferencia como
aunque
son no se amolda a cua
elevado, la regresión polinomial 1.2 MEDIDAS
puede ocasionar DE TENDENCIA
problemas deCENTRAL sobreajuste y dar lugar a
1.2 MEDIDAS
estimaciones DE
inestables TENDENCIA CENTRAL 1.2 MEDIDAS DE TENDENCIA alCENTRAL
Las
curvas
idénticos medidas
en aforma
los descritos Ude
dedetendenciaoLaslosUmedidas
de coeficientes
central
invertida
anteriormente decon
informan deun
para
regresión.
tendencia
elacerca
cambio
modelocentral
dedeLos
cuál polinomios
informan
esde
dirección.
general acerca
el regresión.
valor
permite de
más orden
de cuálsuperior
eslaseldesviaciones
representativo
capturar valor más represent
más fre
cuadrático tienden además a producir curvas con puntos de inflexión y otras
Las medidas de tendencia central informan acerca de cuál es el valor más repre formas extrañas de
difícil
Lasde interpretación
una determinada en términos
de una
variable epidemiológicos.
determinada
o, dicho variable
de acerca
forma Por o, ello, esesta
dicho de presentación
forma equivalente,sedelimita estos a cuya
los
estimadores indic
Aunque
medidas los
de modelos
tendencia cuadráticos
En teoría, los modelos polinomiales central se ajustan
informan orden mediante
de cuál
elevado Las
kequivalente, los medidas
el estos
métodos
valor
permiten de tendencia
estimadores
estándar
tendencias
más central
indican
monótonas
representativo
aproximar informan acerca
pendiente aud
modelos polinomiales de segundo orden o cuadráticos, que incluyen un
de una determinada variable o, dicho de forma equivalente, estos estimadores i término lineal X y
otro cuadrático
alrededor de X  2
qué de lavariables
valor variable
alrededor
se agrupan Xdeexplicativa.
qué
los 2
valor
datos La
se tendencia
agrupan
aobservados. los resultante
datos detendencia
observados. estos Lasde modelos
medidas deinvertida
tendencia
regresión
decualquier
una múltiple,
determinada las
variable
tipo de relación curvilínea. o, dicho XNo
y de están
forma
obstante, menudosi el de
equivalente, muyuna
Las
estos
número determinada
medidas
correlacionadas
curvas
estimadores
requerido deendevariable
forma
indican
términos o, Udicho
o de deU forma equi
co
cuadráticos será una parábola alrededor que, aunque no se amolda a cualquier
de qué valor se agrupan los datos observados. Las forma subyacente demedidas
la de tenden
relación, sí depermite capturar las tanto
central desviaciones
deregresión
la para
muestra más
sirven frecuentes
tanto para del modelo
resumir los lineal, se incluyendo
resultados
central
alrededor
(típicamente,
polinomiales de qué
laes
rmuestra
valor
muy sesirven
> 0,95), agrupan
elevado, provocando
la los datos resumir
observados.
estimaciones
polinomial los alrededor
resultados
Las
inestables
puede medidas dedesus
ocasionar qué
observados
Aunque
de valor como
tendencia
coeficientes
problemas los de deobservados
agrupan
para
modelos los datoscomo
cuadráticos separa
observa aj
tendencias monótonas xx 2 cuya pendiente aumenta o disminuye progresivamente,
central de la muestra sirven tanto para resumir los resultados así como curvas observados como
encentral
forma de la U o de U invertida coninferencias
unparámetros
cambio delosdirección. X2 ere
realizar
de
sobreajuste
regresión. inferencias
muestra
y darmitigar
Para arealizar
acerca
sirven
lugar de
tanto los
estimaciones
este problemapara resumir acerca
inestables
de colinealidad, delos los
poblacionales
resultados
de parámetros
central decentrar
observados
coeficientes
conviene la poblacionales
muestra
correspondientes.
regresión
de como sirven
regresión.
primero AlaLos
múltiple,
para correspondientes.
tanto para resumir
las variables X yAlos
Aunque los modelos cuadráticos realizarseinferencias
ajustan mediante acerca delos losmétodos
parámetros poblacionales
estándar de regresión correspondientes. A
continuación
realizar
múltiple,
variable inferencias
las seXdescriben
variables
original ycontinuación
acerca los principales
X deestán
eXincluir
2
después se describen
parámetros
a menudo
dicha estimadores los
poblacionales principales
muy correlacionadas
variable realizar
centrada su estimadores
inferencias
decorrespondientes.
laytendencia (típicamente,
(típicamente,
cuadrado enAde
acerca
central eldelade
rmodelo
xx 2
tendencia
una>>los
0,95),
0,95), centralpoblac
parámetros
provocandode unaes
continuación se describen
provocando estimaciones inestables de sus coeficientes de regresión. Para mitigar este problema los principales estimadores de la
35 tendencia central d
devariable.
decontinuación
regresión,seconviene
colinealidad, describen variable.
los principales
centrar primero laestimadores
variable original decontinuación
la Xtendencia
e incluir se describen
central
después
regresión. de una
dicha
Para losvariable
mitigar principales estimador
este problema de
variable.
centrada y su cuadrado en el modelo de regresión,
variable. variable. variable original X e incluir después dich
1.2.1 Media aritmética 1.2.1 Media aritmética
Y = β 0 + β 1 (x − x ) + β 2 (x − x )2 + ε .
1.2.1 Media aritmética
Las desviaciones
1.2.1LaMedia respecto
media aritmética deLa la
aritmética, denotada pormedia
media x – x y, se
aritmética, denotada
susdefine
cuadrados comopor 1.2.1
(x x )Media
,2 se
la– suma estarán
dedecada
define regresión,
aritmética
como
menos la los
suma de cada uno de los
unocorrelacionadas
de
2
queLaslos desviaciones
valores x y x ,respecto
2
ya que los deLa lamedia
cuadrados xde x ydesviaciones
- las
mediaaritmética, susdenotada
cuadrados (x (–x x-),xse
por 2 ) define
estarán
serán elevados menos
como la suma
tanto parade cada uno de l
valores altos
La valores de X (desviaciones
muestralesdenotada
media aritmética, valorespor
dividida x –
muestrales
el positivas)
x ,número
se define como
dividida por
de observacionespara
la La valores
media
el número
suma bajos
aritmética, (desviaciones
dedenotada
de observaciones
derealizadas.
cada uno Si denotamos
los x
por– x , seSidefine
realizadas. denotamcom
2 Y = β 0 + β 1 (x -
correlacionadas
negativas). El centrado que los devalores
la valores x y xmuestrales
variable , ya que los
explicativa cuadrados
X
dividida no afecta
por el denúmero
allasajuste
desviaciones
deglobal del
observaciones x )2 realizadas.
(x - modelo Si deno
cuadrático
valores ni tamaño
el a la tendencia
por nmuestrales muestral
divididapor ny el
parabólica
por por resultante,
xi el
eltamaño
número muestral
valor se ytrata
deobservado
observaciones xvalores
por únicamente
i el realizadas.
para valor dei-ésimo,
una
observado
muestrales
el sujeto reparametrización
i = 1,
para
dividida
Si denotamos el por n,
sujeto
..., i-ésimo,dei =observ
el número 1, ...
delserán
modelo elevados tanto para
que reduce valores
por n altos
la correlación entre
el tamaño de Xelmuestral
(desviaciones
términoylineal Las observado
porxx-i yelxcuadrático, desviaciones
positivas)
valor como para
produciendo
para respecto
el sujeto la mediai x= -
así dei-ésimo,
estimaciones
porlan media
el tamañomás estables
vendría
muestral dadalade
yporsus xcoeficientes
media
por i elvendría dada
valor observado y contrastes
por parapor más n fácilmente
el tamaño
el sujeto i-ésimo, interpretables.
muestral
i = 1, ...,y por n, xi el valor observado
valores bajos (desviaciones la x -media
x negativas).
vendría El centrado
dada por de la variable correlacionadas
explicativaque X no los valores x y x2, ya
Una vez ajustado el modelo cuadrático, el primer paso es contrastar si el coeficiente β2
la mediaalvendría
asociado términodada por
cuadrático es 0. Si1 este coeficiente la media vendría dada por del valor
n
x1 + x 2 +no ... difiere
+1 xnn significativamente
x1 + x 2 + ... + x n
afecta al ajuste global del modelo 
x =cuadrático
n i =1
x i = ni a la tendencia
x =
n nx i==1 1
 x
. i n serán elevados
parabólica
= resultante, tanto
x1 +n x 2 + ... +. x n
se para valores altos de
1 n x + x 2 + ... + x n  xi =
n i =1 valores
.
Pastor-Barriuso1R. n 215 x1 + x 2 +
trata únicamente de una reparametrización x =  x i = 1del modelo que. reduce bajosn (desviaciones
la correlación entre x =el  xxi = - x negativ
n i =1 n n i =1 n
La media es la medidaLademedia tendencia es la central
medidamás de tendencia
utilizada ycentral de más más fácilutilizada y de más fácil
término lineal y cuadrático, produciendo La media es asílaestimaciones
medida de tendencia más estables afecta
centraldeal sus
ajusteutilizada
más global del y demodelo cuadrá
más fácil
alrededor de qué valor se agrupan los datos observados. Las medi
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia
Regresión lineal múltiple central de la muestra sirven tanto para resumir los resultados obse
central de la muestra sirven tanto para resumir los resultados observados como para
realizar inferencias acerca de los parámetros poblacionales corres
realizar inferencias acerca de los parámetros poblacionales correspondientes. A
nulo, la inclusión del término cuadrático no mejorará significativamente la capacidad predictiva
del modelo, de tal forma que podrá eliminarse continuación
dicho términose describen
cuadrático los principales
y volver alestimadores
modelo de la tenden
continuación se describen los principales estimadores de la tendencia central de una
lineal en la variable explicativa 1.2 MEDIDAS X. Por el DEcontrario,
TENDENCIA si el coeficiente
CENTRAL del término cuadrático
resulta significativo, el modelo cuadrático variable. presentará un mejor ajuste que el modelo lineal,
variable.
debiendo mantener ambos términos lineal y cuadrático en el modelo. La interpretación del
modelo cuadrático no esLas tanmedidas
sencillade tendencia
como la del
1.2.1 central
modelo
Media informan
lineal, ya
aritmética acerca
que de la cuál es el valor
pendiente de lamás representat
1.2.1varía
relación Media a loaritmética
largo del rango de la variable explicativa. En un modelo cuadrático con la
variable X centrada, la pendiente de una determinada variable o, dichopor de denotada
forma
β1 + 2β equivalente, esestos
decir,estimadores
β1 la suma indican
de la relación La viene
media dada
aritmética, 2(x
por– x );, se define como de
La mediaa aritmética,
corresponde la pendientedenotada
en la media por x ,de seladefine como
variable la suma de
explicativa cada
y 2β uno de los
2 representa el cambio
de pendiente por cada incremento alrededor dedequé unavalor se agrupan
unidad
valores en X. No
muestrales los obstante,
datos
divididaobservados.
el interés
por el número Las
no medidas
es
de tanto de tendencia
observaciones realiz
valoreslos
interpretar muestrales dividida
coeficientes por el número
individuales, sino de observaciones
representar realizadas.laSitendencia
gráficamente denotamos global
resultante del modelo cuadrático. central de la muestra porsirven tanto para
n el tamaño resumir
muestral los xresultados
y por i el valor observados
observado como
para para
el sujeto
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n,
Ejemplo 11.11  Enrealizar la Figura inferencias
10.10(b)laacerca media
del temadevendría
los parámetros
anterior, dada porpoblacionales
el análisis de los residuos correspondientes.
de la A
laregresión
media vendría linealdada por del colesterol HDL sobre el índice de masa corporal en los
simple
controles del estudio EURAMICse
continuación describen
mostró los principales
indicios de una posible estimadores de la tendencia
relación1 cuadrática
n entre
x1 +
central de una
x 2 + ... + x n
ambas variables. Para contrastar 1 formalmente
n
x1 + x 2esta
+ ... tendencia,
+ xn = 
se xajustó unx imodelo
= de .
variable. n n
regresión múltiple para el colesterol x =  HDL
n i =1
x i = .
que incluía un término lineal y otro cuadrático
n
i =1

del índice de masa corporal, además del consumo de alcohol y de la variable indicadora
de los fumadores actuales (Tablaaritmética
1.2.1 Media 11.9). Como el índice
La media es lademedida
masa corporal
de tendencia X1 y su cuadrado
central más utilizada y de
X La
 presentaban
2
1 una correlación lineal casi perfecta
media es la medida de tendencia central más utilizada y de más fácil de 0,995, esta variable fue
previamente centrada alrededor
La media de su interpretación.
aritmética, media muestral
denotada x 1, =se26,2
por Corresponde kg/m
define como
al
2
antes
“centro de
la suma deincluir
de cadaen uno
gravedad” de deloslos
datos
el modelo los términos lineal
interpretación. Corresponde al “centro X 1 – 26,2 y cuadrático (X – 26,2)
de gravedad” de los1 datos de la muestra. Su2
, cuya correlación era
únicamente de 0,297. valores muestrales principal dividida por el número
limitación de observaciones
es que está muy influenciada realizadas. porSilosdenotamos
valores
principal
El contrastelimitación
para laesnulidad
que está delmuy influenciada
coeficiente por los
asociado valores extremos
al término cuadráticoy,del en este
índice de
por n el tamaño muestral
caso, y por
puede x
noi elservalor
masa corporal resulta en un valor P = 0,021, lo que indica que el modelo cuadrático un observado
fiel reflejo para
de la el sujeto
tendencia i-ésimo,
mejora central ide= la ..., n
1, dist
caso, puede no ser un fiel reflejo de la tendencia central de la distribución.
la media vendría dada por
Tabla 11.9  Resultados de la regresión múltiple Ejemplodel 1.4colesterol
En este y en HDL los sobre
sucesivos los ejemplos sobre estim
Ejemplo
términos 1.4yEn
lineal este y en del
cuadrático los índice
sucesivos ejemplos
de masa sobre (IMC),
corporal estimadores muestrales,
el consumo de se
1 n x1 + x 2 + ... + x n
alcohol y la variable indicadora de fumadores = 
x actuales
utilizarán en
losxvalores
i = el grupo
del control
colesterol . del
HDL obtenidos en los 1
estudioutilizarán
EURAMIC. n
los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
i =1 n
Análisis de la varianza*
estudio “European Study on Antioxidants, Myocardial Infar
estudio “European LaStudy
Suma media
de
onesAntioxidants,
medidadedeMyocardial
la Grados tendencia central Infarction
más and Cancer
utilizada
Razón
of
de y de más fácil
cuadrados libertad the Breast“ (EURAMIC),
Varianza un estudio
varianzas multicéntrico de casos
the Breast“ (EURAMIC),
interpretación. un Corresponde
estudio multicéntricoal “centro dede casos y controleslosrealizado
Regresión 5,84 4 1,46 gravedad” de 19,57 datos de la muestra. Su
entre 1991 y 1992 en ocho países Europeos e Israel para eva
Error 33,02 443 0,075
entre 1991 y 1992 en ocho
principal países Europeos
limitación es que está e Israel para evaluarpor
muy influenciada el efecto de losextremos y, en este
los valores
Total 38,86 447
*  Coeficiente de determinación R = 5,84/38,86 = 0,150.
2
caso, puede no ser un fiel reflejo de la tendencia central de la distribución.
5
Coeficientes de regresión
Test H0: βj = 0
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales
Estimación Error estándar IC al 95% t Valor P
Constante 1,05 0,020 (1,01; 1,09) 52,62 < 0,001
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos d
IMC – 26,2 – 0,024 0,0038 (– 0,031; – 0,016) – 6,25 < 0,001
(IMC – 26,2)2 0,0016estudio 0,0007
“European (0,0002;
Study on 0,0029) 2,32 Myocardial
Antioxidants, 0,021Infarction and Cancer o
Alcohol 0,0030 0,0006 (0,0018; 0,0042) 5,00 < 0,001
Fumador actual – 0,098 the Breast“
0,027(EURAMIC),
(– 0,150; un estudio multicéntrico
– 0,045) – 3,63 de casos y controles realiza
< 0,001

entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de lo
216 Pastor-Barriuso R.
Regresión polinomial

2,25

alrededor de su media muestral x1 = 26,2 kg/m2 antes de incluir en el modelo los


2

términos lineal X1 - 26,2 y cuadrático (X1 - 26,2)2, cuya correlación era


Colesterol HDL (mmol/l)

únicamente
1,5
de 0,297.

El contraste para la nulidad del coeficiente asociado al término cuadrático del


1.2 MEDIDAS DE TENDENCIA CENTRAL
índice de1 masa corporal resulta en un valor P = 0,021, lo que indica que el modelo
Laselmedidas
cuadrático mejora significativamente de tendencia
ajuste del central
modelo lineal. Eninforman acerca de cuál es el valor m
consecuencia,

la pendiente
0,5 de la relación entre elde una determinada
colesterol HDL y elvariable o, masa
índice de dichocorporal
de forma equivalente, estos estim

varía según alrededor


siendo b1de
= qué valor se agrupan de
losladatos observados. Las medidas d
EDIDAS DE 1.2
TENDENCIA
MEDIDAS DEelTENDENCIA
nivel de exposición,
0,25 CENTRAL CENTRAL -0,024 la estimación

pendiente en el20nivel medio x1 24 central


= 26,2 de2ladel
kg/m muestra
índice sirven
de masa tanto para resumir
corporal y 2b2 = los resultados observad
28 32
edidas de tendencia
Las medidas
centraldeinforman
tendenciaacerca
central
de informan
cuál es el acerca
valor másde cuál
representativo
es el valor más representativo36
realizar inferencias
Indice de masa corporalacerca
(kg/m²)de los parámetros
2 poblacionales correspond
a determinada de una 2⋅0,0016
variable o, dicho= de
determinada 0,0032
formaelequivalente,
variable cambio
o, dichodedependiente
estos por
formaestimadores cada indican
equivalente, incremento de 1 kg/m
estos estimadores en el
indican Figura 11.5
Figura 11.5  Relación lineal (línea fina) y cuadrática (curva gruesa) entre el índice de masa corporal y el
colesterol HDL obtenidas de modelos de
continuación
regresión múltiple
se describen
ajustados por
los principales
consumo de alcohol
estimadores
y hábito tabá-
de la tendencia
dor de qué valor índice
alrededor
se agrupan
de delosmasa
qué valor
datoscorporal.
se Nolos
observados.
agrupan obstante,
Las
datos es más
medidas
observados.
de informativo
tendencia
Las representar
medidas de la tendencia
tendencia
quico actual en el grupo control del estudio EURAMIC.
variable.
sirvenglobal
l de la muestracentral de
tanto estimada
la muestra
para resumira partir
sirven los delpara
tanto modelo
resultados cuadrático.
resumir
observados Para ello,
los resultados
como para se calculan
observados los para
como valores

significativamente el ajuste del modelo lineal.


1.2.1por
Media En consecuencia,
aritmética la pendiente de la relación
acerca medios
ar inferencias realizarde
entre
del colesterol
inferencias
loselparámetros deHDL predichos
acercapoblacionales
colesterol HDL losy parámetros
el índice
el modelo
correspondientes.
depoblacionales
masa corporal Acuadrático para
correspondientes. losAdistintos
varía según el nivel de exposición,
siendo bobservados
valores 1 = – 0,024xla estimación
1 del índice de de
La la pendiente
media
masa en
aritmética,
corporal, eldenotada
nivel medio
manteniendo por x 1, =se26,2
constantes el kg/m
define como
2
della suma de cada
uación se describen
continuación
los principales
se describen
estimadores
los principales
de la tendencia
estimadores
central
de la
de tendencia
una central
índice de masa corporal y 2b2 = 2 ∙ 0,0016 = 0,0032 el cambio de pendiente por cada de una
incremento
consumo de de
alcohol y la en
1 kg/m 2
el índice
variable de masa
valores
indicadora decorporal.
muestrales Noactuales
dividida
fumadores obstante,
por elen essus
más de
número informativo
observaciones realizadas
le. variable.representar la tendencia global estimada a partir del modelo cuadrático. Para ello, se
calculan losmedias
valoresxmedios del colesterol HDL predichos
por n el tamaño muestral por el xmodelo
y por cuadrático
i el valor observadoparapara el sujeto i-és
respectivas 2 = 16,5 g/día y x 3 = 172/448 = 0,38 (proporción de
Media aritmética los distintos
1.2.1 Media aritmética valores observados x 1 del índice de masa corporal, manteniendo constantes
el consumo de alcohol y la variable indicadora
la media vendríade fumadores
dada por actuales en sus respectivas
fumadores actuales),
medias
dia aritmética,Ladenotada = 16,5 g/día
por x 2, se denotada
media aritmética, define como y =
por lax 3suma 172/448
, se define
de cada =
como 0,38 (proporción
unoladesuma
los de fumadores
de cada uno de los actuales),
1 n 2 x + x 2 + ... + x n
s muestrales dividida
valores muestrales
por el númeroŷ dividida
(x1 ; de
16,5; 0,38)
observaciones
por el número −de
= 1,05realizadas.
0,024( x1 − Si26,2)
observaciones denotamos 0,0016(xx1 −
+realizadas. = 
Si26,2)
denotamos
n i =1
xi = 1
n
.
+ 0,0030⋅16,5 − 0,098⋅0,38
por n yelpor
el tamaño muestral xi el valor
tamaño muestral y por xipara
observado el valor
el sujeto
observadoi-ésimo, para i =el1,sujeto
..., n, i-ésimo, i = 1, ..., n,
2
= 1,06 − 0,024( x − 26,2)
La media es la medida
1 + 0,0016( de xtendencia
1 − 26,2) . central más utilizada y de más
dia vendría dada
la media
por vendría dada por
Notar que la elección de los valores fijos de las otras
interpretación. variablesalexplicativas
Corresponde es arbitraria,
“centro de gravedad” de los datos de la
ya que sólo afectan a la constante de la relación cuadrática. En la práctica, es habitual fijar
Notar 1 la elección
que
n
x + xde +los
... n
x n en sus
1 +valores xfijos xde
1 +medias
2 +las x n variables
+otras
...muestrales explicativas es absolutos
=  x i variables
lasx restantes = 1 2 de
x = ajuste x i. =principal limitación . es que para obtener
está valores
muy influenciada por los valores extre
n i =1 respuestanrepresentativos
de la variable n i =1 de lan población a estudio. La tendencia cuadrática
arbitraria,
estimada ya entrequeelsólo afectan
índice de amasala constante
corporal deylaelrelación cuadrática.
HDLdeseEn la
caso, puede no sercolesterol
un fiel reflejo la representa en la de la distribuc
tendencia central
media es la medida Figura 
La media
de 11.5,
tendencia
es la junto
medida
centraldecon
más la
tendenciarelación
utilizada central lineal
y devariables
más obtenida
másfácil
utilizada del mismo
y deenmás modelo
fácil de la Tabla 11.9
práctica, es habitual fijar las restantes de ajuste
excluyendo el término cuadrático del índice de masa corporal. En comparación con la sus medias muestrales
retación. Corresponde tendencia
interpretación.
al “centro lineal,
Corresponde
de el modelo
gravedad” de cuadrático
al “centro los estima
Ejemplo deunalos disminución
1.4 En este mássucesivos
deylaenmuestra.
los pronunciada de lasobre estimado
ejemplos
para obtener valores absolutos dededatos
lagravedad”
de
variablela muestra.
respuesta datos
Surepresentativos deSula
pal limitaciónprincipal
es que está
limitación
muy influenciada
es que estápor
muy utilizarán
losinfluenciada
valores extremos y,los
por los en valores
valores del colesterol
este extremos HDL obtenidos en los 10 pri
y, en este
Pastor-Barriuso R. 217
38
puede no ser un
caso,
fielpuede
reflejono
deser
la tendencia
un fiel reflejo
central
de la
detendenciaestudio
la distribución. “European Study on
central de la distribución. Antioxidants, Myocardial Infarction
Regresión lineal múltiple

media del colesterol HDL dentro del rango de normopeso (< 25 kg/m2), que se atenúa
progresivamente al aumentar los niveles del índice de masa corporal.

Aunque los modelos cuadráticos permiten detectar efectos no lineales de las variables
explicativas, la tendencia global resultante de estos modelos puede estar fuertemente influenciada
por una o muy pocas observaciones con valores extremos de la variable explicativa. En este
sentido, resulta especialmente importante evaluar los cambios que se producen en la tendencia
cuadrática, o incluso la propia idoneidad del modelo cuadrático, al excluir del análisis las
observaciones más influyentes (véase apartado de análisis diagnóstico).

11.7  CONFUSIÓN E INTERACCIÓN EN REGRESIÓN LINEAL

La regresión lineal múltiple puede utilizarse con dos propósitos claramente diferenciados. Por
un lado, los modelos de regresión pueden emplearse para predecir el valor de la variable
respuesta en función de los valores de las variables explicativas. En tal caso, el interés se centra
en identificar e incluir todas aquellas variables explicativas que se asocien de forma significativa
e independiente con la variable respuesta, de tal forma que el modelo resultante se ajuste bien a
los datos observados (elevado coeficiente de determinación) y prediga con cierta precisión la
respuesta en nuevos sujetos. Los contrastes parciales descritos en el Apartado 11.4.2 son
particularmente útiles para este propósito, ya que permiten seleccionar las variables explicativas
que mejoran significativamente la capacidad predictiva del modelo. Por otro lado, los modelos
de regresión pueden utilizarse para estudiar la relación de una o varias variables explicativas de
interés con la variable respuesta, controlando por otras variables explicativas o covariables que
pudieran afectar a dicha relación. En este caso, no es necesario que el modelo incluya todos los
determinantes de la variable respuesta, sino únicamente aquellos que influyan en la asociación
objeto de estudio; es decir, aquellas covariables cuya inclusión afecte a las estimaciones de los
coeficientes de regresión asociados a las variables explicativas de interés.
La confusión y la interacción son dos conceptos epidemiológicos estrechamente relacionados
con este segundo propósito. A continuación se presenta una descripción general de ambos
conceptos y su tratamiento dentro de los modelos de regresión lineal múltiple.

11.7.1  Control de la confusión en regresión lineal


La confusión se define como una distorsión en el efecto estimado de una variable explicativa sobre
la variable respuesta debido a la interposición de otra covariable, denominada factor de confusión
o simplemente confusor, cuyo efecto se confunde o se mezcla con el verdadero efecto de la variable
explicativa de interés. La distorsión inducida por el factor de confusión puede ser grande y dar lugar
tanto a una sobreestimación como a una infraestimación del efecto subyacente, dependiendo de la
dirección de las asociaciones del factor de confusión con las variables explicativa y respuesta. El
factor de confusión puede producir incluso un cambio en la dirección del efecto observado.
Para que una covariable X2 pueda confundir la asociación entre la variable explicativa de
interés X1 y la variable respuesta Y en un modelo de regresión lineal debe cumplir tres condiciones
necesarias:
yy El factor de confusión X2 debe estar linealmente relacionado con la variable explicativa X1.
Si las variables X1 y X2 están incorrelacionadas, sus efectos sobre la variable respuesta Y
no podrán confundirse o mezclarse, de tal forma que la estimación del coeficiente asociado
a la variable explicativa de interés X1 no se verá afectada por la inclusión de la covariable

218 Pastor-Barriuso R.
1

• El factor de confusión X2 debe estar asociado con la variable respuesta Y


variables X1 y X2 estén correlacionadas, el efecto estimado de la variable
Confusión e interacción en regresión lineal
independientemente de su asociación con la variable explicativa X1. Aunque las
explicativa X1 sólo podrá estar confundido por la covariable X2 cuando ésta tenga
variables X1 y X2 estén correlacionadas, el efecto estimado de la variable
Xun efecto independiente sobre la variable respuesta Y. Si la covariable X2 se
2 en el modelo. Este requisito ya se comprobó formalmente en el Apartado 11.3.1 y se
ilustró gráficamente en la X
explicativa Figura
sólo11.1(a).
podrá estar confundido por la covariable X2 cuando ésta tenga
relaciona con la respuesta Y1 únicamente a través de su asociación con la variable
yy El factor de confusión X2 debe estar asociado con la variable respuesta Y independientemente
de su asociación un efecto
con laindependiente sobre la variable
variable explicativa respuesta
X . Aunque Y. Si la covariable
las variables X2 se
X y X2 estén
explicativa X1, puede probarse que ryx2 = ryx1 rx1x2 ,1 de donde se deriva que las1
correlacionadas, el efecto estimado de la variable explicativa X1 sólo podrá estar confundido
por la covariablerelaciona con ésta
X2 cuando tenga unYefecto
la respuesta únicamente a través sobre
independiente de su la
asociación con la variable
variable respuesta
Y.estimaciones de los
Si la covariable X2coeficientes
se relacionade conregresión múltiple
la respuesta asociadosaatravés
Y únicamente las variables X1
de su asociación
explicativaXX11,,puede
con la variableexplicativa puede probarse
probarse que
que ryx2 = ryx1 rx1x2,,de
dedonde
dondese sederiva
derivaque
quelas
las
y X2 se reducen
estimaciones a. coeficientes de regresión múltiple
de los asociados a las variables X1 y X2 se
reducen a estimaciones de los coeficientes de regresión múltiple asociados a las variables X 1
ryx1 − ryx2 rx1x2 s y ryx1 (1 − rx21 x2 ) s y sy
b =
y X2 se reducen = = r ,
1 − rx21a.
1 yx
x2 s x1 1 − rx21 x2 s x1 1
s x1
ryx2 − ryx1 rx1 x2 s y ryx1 rx1x2 − ryx1 rx1x2 s y 2
b2 = ryx1 =− ryx2 rx1x2 s2y ryx1 (1 − =
rx 0.
x ) sy sy
1 − rx21xb2 1 = s x2 2 1 − rx1 x2
= sx 2 1 2 = ryx1 ,
1 − rx1x2 s x1 1 −2 rx1 x2 s x1 s x1
Así, la covariable X2 no se relacionará con la respuesta al controlar por X1, mientras que el
ryx2 − ryxX1 r1x1permanecerá
efecto estimado para la variable explicativa x2 s y − ryx1 rx1x2 saly ajustar por X2,
ryx1 rx1xinalterable
Así, la covariable X no se relacionará
b = con
con lo que la covariable X2 no será un factor la respuesta = al controlar
2
por X1, =entre
0. X e Y.
1 − r 2de confusión para
1 − rla2 asociación
2 2
s
x1 x2 x2 x1 x2 s x2
1

yy El factor de
mientras queconfusión X2 no debe
el efecto estimado serlaun
para paso intermedio
variable explicativa enX1 la relación de la variable
permanecerá
explicativa X1 con la variable respuesta Y. A diferencia de las dos condiciones anteriores,
Así, la covariable
este requisito epidemiológico noXpuede
2 no secomprobarse
relacionará con
con la
losrespuesta al controlar
datos disponibles por X1,
y 41
requiere
de información externa o juicio experto sobre los mecanismos subyacentes que relacionan
mientras con
la variable explicativa que la
el efecto estimado
respuesta. para la variable
Por ejemplo, el índiceexplicativa X1 permanecerá
de masa corporal podría
considerarse a simple vista un potencial factor de confusión para la asociación entre la
actividad física y el colesterol HDL, ya que se relaciona de forma independiente con 41
ambas variables. Sin embargo, el índice de masa corporal no es un factor extraño que
distorsiona dicha asociación, sino más bien un factor intermedio, ya que la actividad física
reduce el índice de masa corporal, que a su vez provoca un aumento del colesterol HDL.
En general, los modelos de regresión no deben incluir factores intermedios para la
asociación objeto de estudio, a no ser que se pretenda estimar el efecto que no está mediado
por dichos factores.
La selección de los potenciales factores de confusión debe limitarse, por tanto, a las covariables
que satisfagan estas tres condiciones necesarias, a saber, aquellas covariables que se asocien de
forma independiente con las variables explicativa y respuesta y que no constituyan un paso
intermedio en la relación entre ambas variables. No obstante, es posible que una covariable
cumpla los tres requisitos y no sea un factor de confusión, en el sentido de no introducir un sesgo
en la asociación a estudio. Esto puede ocurrir, por ejemplo, cuando existen varios factores cuyos
potenciales sesgos de confusión se compensan al actuar en direcciones opuestas.
En la práctica, para determinar si una o varias covariables son en realidad factores de
confusión, se compara la estimación cruda de la asociación objeto de estudio con la estimación
ajustada por los potenciales factores de confusión. Como se vio en el Apartado 11.2, estas
estimaciones ajustadas pueden obtenerse directamente a partir de modelos de regresión múltiple
que incorporen los potenciales factores de confusión además de la variable explicativa de
interés. Así, los factores de confusión vendrán determinados por aquellas covariables cuya
inclusión en el modelo produzca un cambio substancial en la estimación del coeficiente de
regresión asociado a la variable explicativa de interés. La comparación entre los coeficientes

Pastor-Barriuso R. 219
asociaran también con el índice de masa corporal, verificarían los tres requisitos
Regresión lineal múltiple

para ser potenciales factores de confusión.

La Tabla
estimados con y11.10 muestra
sin ajuste porlaslos
estimaciones
potencialesdel coeficiente
factores asociadono
de confusión al índice de mediante
se realiza
pruebas estadísticas, ya que la significación estadística no depende únicamente de la magnitud
masa corporal
del cambio, en distintos
sino también modelos
del tamaño de regresión
muestral lineal, a saber,
(véase Apartado 5.4.2).un primerelmodelo
Aunque criterio varía
según el ámbito de aplicación, en general se considera necesario controlar la confusión cuando
sin covariables
la estimación de ajuste,
cruda difiere de laun segundo
ajustada enmodelo
más delajustado
10%. por el consumo de alcohol,
asociaran también con el índice de masa corporal, verificarían los tres requisitos
un tercer 11.12 
Ejemplo modelo En ajustado por el hábito
los ejemplos tabáquico
anteriores se hanactual y un último
considerado otrosmodelo
determinantes del
para ser potenciales factores de confusión.
colesterol HDL distintos del índice de masa corporal, pero no se ha prestado especial
ajustado apor
atención la ambas
confusióncovariables. Todos los modelos se obtuvieron a partir de la el índice
La Tabla 11.10 muestraque podrían
las estimaciones inducir delestos factores
coeficiente en la asociación
asociado al índiceentre
de
de masa corporal y el colesterol HDL. La edad y el estatus socioeconómico no mostraron
misma
un muestra
efecto de 448 controles
independiente sobre losdel estudio
niveles deEURAMIC
colesterol con información
masa corporal en distintos modelos de regresión lineal, aHDL
saber,(Tabla 11.4),modelo
un primer por lo que no
cumplen una de las condiciones necesarias para ser factores de confusión. Sin embargo,
completa
el consumo dedetodas las variables.
alcohol y elunhábito Tomando
tabáquico como referencia el modelo
conajustado por
sin covariables de ajuste, segundo modeloactual sí sepor
ajustado asociaron
el consumo el
decolesterol
alcohol, HDL
independientemente del índice de masa corporal (Tablas 11.7, 11.8 y 11.9). Además, el
ambas covariables,
alcohol el cambio relativo queque se no produce en el la
coeficientedelestimado
un tercery modelo
el tabacoajustado
son factores
por elexternos
hábito tabáquico median
actualeny un relación
último modelo índice de masa
corporal con el colesterol HDL. Si ambas covariables se asociaran también con el índice
del masa
de índice corporal,
de masa corporal al excluir
verificarían el consumo
los tres de alcoholser es potenciales factores de
ajustado por ambas covariables. Todos los requisitos
modelos separa obtuvieron a partir de la
confusión.
misma
La Tabla muestra
11.10demuestra
448 controles b1|3del estudio
las estimaciones − 0,0225 EURAMIC
del coeficiente conasociado
información al índice de masa
= = 1,08;
corporal en distintos modelos de regresión
b1|2,3 − 0,0209 lineal, a saber, un primer modelo sin covariables
completa
de ajuste,de untodas las variables.
segundo Tomandopor
modelo ajustado como referenciade
el consumo el modelo
alcohol,ajustado
un tercerpormodelo
ajustado por el hábito tabáquico actual y un último modelo ajustado por ambas covariables.
es decir,
ambas
Todos losuna vez tenido
covariables,
modelos se en cuenta
elobtuvieron
cambio el hábito
relativo
a partirquedeselatabáquico
produce actual,
en
misma muestra las448
diferencias
el coeficiente
de endel
estimado
controles elestudio
EURAMIC con información completa de todas las variables. Tomando como referencia
consumo
del
el índicede
modelo de alcohol provocan
masa corporal
ajustado por ambas una
al excluir sobreestimación
el consumo
covariables, dedel
el cambio 100(1,08
alcohol es - que
relativo 1) = se
8%produce
en la en el
coeficiente estimado del índice de masa corporal al excluir el consumo de alcohol es
asociación inversa del índice de masa corporal con el colesterol HDL. Como se
b1|3 − 0,0225
= = 1,08;
apuntó en el Ejemplo 11.2, esto b1|2,es
3 − 0
debido , 0209
a que una pequeña parte de la reducción
es
deldecir, una vez
colesterol HDLtenido enlos
entre cuenta el hábito
sujetos tabáquico
con mayor índiceactual, las diferencias
de masa corporal seendebe el consumo
de decir,
es alcohol provocan
una unaen
vez tenido sobreestimación
cuenta el hábito deltabáquico
100(1,08actual,
– 1) = 8% en la asociación
las diferencias en el inversa
del índice dea su
en realidad masa corporal
menor con el
consumo decolesterol
alcohol. PorHDL. otraComo
parte,sesi apuntó en ellaEjemplo 11.2,
se excluye
consumo de alcohol
esto es debido a queprovocan una sobreestimación
una pequeña parte de la reduccióndel 100(1,08 - 1) = 8%HDL
del colesterol en laentre los
sujetos
variablecon mayor índice
indicadora de los de masa corporal
fumadores se debe
actuales, en realidad
el cambio relativoa essu menor consumo de
asociación
alcohol. Porinversa del índice
otra parte, de masalacorporal
si se excluye variablecon el colesterol
indicadora de los HDL. Como se
fumadores actuales, el
cambio relativo es
el hábitoentabáquico
apuntó el Ejemplo no11.2,
se asocia
estob1|es
2con el
− 0índice
debido ,0206
a quede una
masa corporal
pequeña en eldegrupo
parte control
la reducción
= = 0,99;
b1|2,3 − 0,0209 2
del
del estudio EURAMIC
colesterol HDL entre(lalos media
sujetosdelconíndice de masa
mayor índicecorporal
de masaescorporal
26,3 kg/m en los
se debe
esto es, una vez controladas las diferencias en la ingesta de alcohol, el hábito tabáquico
2
no fumadores
estorealidad
actual
en es,no y 26,1
unaintroduce
avez
su menor kg/m
controladas enlaslos
virtualmente
consumo defumadores
diferencias
ningún en
alcohol. actuales).
Porla otra
sesgo ingestalaPor último,
deasociación
enparte, alcohol,
si sielse
se excluye excluyen
hábito
objeto
la de estudio
(infraestimación del 100(0,99 – 1) = – 1%). Esto es consecuencia de que el hábito tabáquico
simultáneamente
tabáquico
no se asocia
variable actual
con el
indicadora ambas
noíndice
de covariables
introduce
los de masa
fumadores del
virtualmente
corporalmodelo,
ningún
en
actuales, el cambio
sesgo
elelgrupo
cambio enrelativo
control la del
relativo en el EURAMIC
asociación
estudio
es objeto (la
media del índice de masa corporal es 26,3 kg/m2 en los no fumadores y 26,1 kg/m2 en los
coeficiente
fumadores estimado del
de estudio (infraestimación
actuales). Poríndice
último, desimasa
del 100(0,99 corporal
- 1) = -1%).
se excluyen es Esto es consecuencia
simultáneamente de que del
ambas covariables
b − 0,0206
modelo, el cambio relativo en el1|2coeficiente
= estimado
= 0,99; del índice de masa corporal es
b1|2,3 − 0,0209 44
b1 − 0,0222
= = 1,06.
b1|2,3 − 0,0209
esto es, una vez controladas las diferencias en la ingesta de alcohol, el hábito
Pastor-Barriuso R.
220
Notar que actual
tabáquico esta sobreestimación del 6% es resultado
no introduce virtualmente de la en
ningún sesgo combinación de objeto
la asociación los

sesgos inducidos
de estudio de forma independiente
(infraestimación del 100(0,99 -por
1) =el-1%).
consumo
Estode
esalcohol y el hábito
consecuencia de que
Confusión e interacción en regresión lineal

Tabla 11.10  Estimación de la relación del índice de masa


corporal (IMC) con el colesterol HDL a partir de diferentes
modelos de regresión lineal múltiple ajustados por distintas
combinaciones del consumo de alcohol y el hábito tabáquico
actual en el grupo control del estudio EURAMIC.
Coeficiente asociado al IMC
Covariable de ajuste Estimación Error estándar IC al 95%
Ninguna – 0,0222 0,0037 (– 0,0295; – 0,0149)
Alcohol – 0,0206 0,0036 (– 0,0278; – 0,0135)
Fumador actual – 0,0225 0,0037 (– 0,0297; – 0,0152)
Alcohol, fumador actual – 0,0209 0,0036 (– 0,0279; – 0,0138)

Notar que esta sobreestimación del 6% es resultado de la combinación de los sesgos


inducidos de forma independiente por el consumo de alcohol y el hábito tabáquico. Si se
adoptara el criterio estándar del 10%, se concluiría que el consumo de alcohol y el hábito
tabáquico no son factores de confusión importantes para la asociación entre el índice de
masa corporal y el colesterol HDL en los controles del estudio EURAMIC. No obstante,
a pesar de no cumplir este criterio cuantitativo, se podría decidir ajustar por ambas
covariables por razones de credibilidad, ya que el alcohol y el tabaco son determinantes
conocidos del colesterol HDL y cualquier estudio sobre este tópico generaría desconfianza
si no incluyera estas variables en el análisis.

La confusión es un sesgo introducido por un factor externo en la asociación objeto de estudio


que debe prevenirse en el diseño o controlarse en el análisis de los datos. En este sentido, la
regresión lineal múltiple es una herramienta útil para controlar la confusión en el análisis, ya
que facilita estimaciones ajustadas por las restantes variables explicativas incluidas en el
modelo. No obstante, la capacidad de ajuste de los modelos de regresión está condicionada por
los siguientes factores:
yy La disponibilidad de información sobre los potenciales factores de confusión. Obviamente,
no se podrá controlar en el análisis ningún factor de confusión que no se haya medido
previamente.
yy El efecto conjunto de la variable explicativa de interés y de los factores de confusión. La
regresión lineal múltiple asume que los efectos conjuntos son aditivos, de tal forma que si
esta asunción no se cumple, la estimación del coeficiente de regresión asociado a la
variable explicativa de interés puede estar sesgada.
yy Los errores de medida y la especificación de los factores de confusión. Si los factores de
confusión están medidos con un error considerable, o si su efecto sobre la variable respuesta
se modela de forma inadecuada (por ejemplo, usando términos lineales para relaciones
subyacentes curvilíneas), el ajuste no será completo, pudiendo quedar una apreciable
confusión residual.

11.7.2  Evaluación de la interacción en regresión lineal

La interacción o modificación de efecto se refiere al cambio en la magnitud de la asociación


entre la variable explicativa de interés y la variable respuesta a diferentes niveles de otra
variable, que se denomina modificador de efecto. A diferencia de la confusión, que es un sesgo

Pastor-Barriuso R. 221
la covariable y, en consecuencia, deben obtenerse estimaciones específicas para cada
Regresión lineal múltiple

nivel, que están libres de confusión al referirse a sujetos con idéntico valor de la

covariable.
a corregir Porestimación
en la el contrario,
delcuando
efecto,nolaexiste interacción,
interacción el efecto
es una se asumeinherente
característica igual en de la
asociación a estudio, que debe describirse mediante estimaciones específicas del efecto de la
todosexplicativa
variable los niveles de
de interés
la covariable
en los ydistintos
basta entonces conmodificador
niveles del obtener una de
única estimación
efecto.
La confusión y la interacción son fenómenos diferentes que pueden o no ocurrir
para todos los sujetos, que sí podría estar confundida por diferencias en la distribución
simultáneamente. No obstante, cuando existe evidencia de interacción con una determinada
covariable, la valoración de la confusión inducida por dicha covariable es irrelevante. En
de la covariable. Por ello, en la práctica sólo tiene sentido controlar la confusión cuando
presencia de interacción, la magnitud del efecto varía según el nivel de la covariable y, en
consecuencia, deben obtenerse estimaciones específicas para cada nivel, que están libres de
se ha descartado previamente la presencia de interacción.
confusión al referirse a sujetos con idéntico valor de la covariable. Por el contrario, cuando no
existe interacción, el efecto se asume igual en todos los niveles de la covariable y basta entonces
Los efectos independientes de una variable explicativa de interés X y otra covariable
con obtener una única estimación para todos los sujetos, que sí podría 1estar confundida por
diferencias en la distribución de la covariable. Por ello, en la práctica sólo tiene sentido controlar
X2 sobre la variable respuesta Y se obtienen a partir del modelo de regresión lineal
la confusión cuando se ha descartado previamente la presencia de interacción.
Los efectos independientes de una variable explicativa de interés X1 y otra covariable X2
múltiple
sobre la variable respuesta Y se obtienen a partir del modelo de regresión lineal múltiple
Y = β 0 + β 1 x1 + β 2 x2 + ε ,
que incluye distintos términos para cada variable explicativa. Bajo este modelo, la relación entre
X1 eque incluye
Y para distintos términos
un determinado para
valor fijo cada
c2 de variable explicativa.
la covariable X2 viene dada Bajopor
este modelo,
E(Y|x la
1, c2) = (β0 + β2c2)
+ β1x1. Así, este modelo asume que no existe interacción entre X1 y X2 ya que el cambio esperado
en Yrelación
por cadaentre X1 e Y para
incremento de una un unidad
determinado valor
en X1 es fijo cigual
siempre 2 de la
a βcovariable X2 viene dada
1, independientemente del nivel
de X2. De hecho, los cambios en el valor de la covariable X2 sólo afectan a la constante de la recta
de regresión , c2Y) =sobre
por E(Y|x1de (β0 +Xβ1,2cpero β1xa1. su
2) + no Así, este modelo
pendiente. Estaasume quede
ausencia nointeracción
existe interacción
se representa
gráficamente en la Figura 11.6(a), donde las rectas de regresión de Y sobre X1 son líneas paralelas
de igual X1 y X2 yapara
entre pendiente quelos
el cambio
distintosesperado en Y pory cada
valores (puntos incremento
círculos) de una unidad
de una covariable en X1 X2.
dicotómica
En regresión lineal múltiple, la forma más sencilla de modelar la interacción entre la variable
es siempre igual a β , independientemente del nivel de X2. De hecho, los cambios en el
explicativa de interés X11 y la covariable X2 consiste en añadir al modelo un nuevo término con
el producto de ambas variables,
valor de la covariable X2 sólo afectan a la constante de la recta de regresión de Y sobre
Y = β 0 + β 1 x1 + β 2 x2 + β 3 x1 x2 + ε .
X1, pero no a su pendiente. Esta ausencia de interacción se representa gráficamente en la
Notar que el modelo ha de incluir el término producto X1X2 además de los términos
Figura 11.6(a), donde las rectas de regresión de Y sobre X1 son líneas paralelas de igual
principales para las variables X1 y X2. Bajo este modelo extendido con el término
pendiente para los distintos valores (puntos y círculos) de una covariable dicotómica X2.
producto,
y la recta de regresión de Y sobre X1 para un determinado valor fijo c2 de la
[Figura 11.6 aproximadamente aquí]
covariable X2 viene dada por E(Y|x1, c2) = (β0 + β2c2) + (β1 + β3c2)x1. Así, el nuevo

modelo contempla
En regresión la posibilidad
lineal múltiple, ladeforma
interacción entre Xde
más sencilla X2 ya que
1 ymodelar el cambio esperado
la interacción entre la

en Y por explicativa
variable cada incremento xde
de interésuna
X1 unidad en X1 es X
y la covariable igual a β1 +en
2 consiste β3añadir
c2, que depende
x1 al modelodel
un
1

nuevodetérmino
nivel con elque
X2 siempre el(a)coeficiente
producto de ambasβ3 del
variables, (b)
término producto sea distinto de 0. La
Figura 11.6  Rectas de regresión de la variable respuesta Y sobre la variable explicativa X1 para distintos
47
presencia
valores (puntosde interacción
y círculos) se covariable
de una ilustra en dicotómica
la Figura 11.6(b),
X2 que nodonde las rectas
interacciona con Xde regresión de
1 (panel a) y que inte-
racciona con X1 (panel b).
Y sobre X1 presentan distintas pendientes para los dos valores (puntos y círculos) deFigura
una11.6

222 covariableR. dicotómica


Pastor-Barriuso X2.

A diferencia de la confusión, la interacción sí se evalúa estadísticamente mediante el


Confusión e interacción en regresión lineal

Notar que el modelo ha de incluir el término producto X1X2 además de los términos principales
+ b3clas
para 2)x1variables
, de tal forma X2. elBajo
X1 yque cambio
este en el nivel
modelo medio decon
extendido Y por
el cada incremento
término delauna
producto, recta de
regresión de Y sobre X1 para un determinado valor fijo c2 de la covariable X2 viene dada por
E(Y|x
unidad c2) X=1 se
1, en (β0estima ) + (β1 +bβ1 3+c2b)x3c1.2.Así,
+ β2c2mediante Estaelcombinación
nuevo modeloconstituye un estimador
contempla la posibilidad de
interacción entre X1 y X2 ya que el cambio esperado en Y por cada incremento de una unidad en
X
insesgado
1 es igualdea βla1 pendiente
+ β3c2, queespecífica del nivel de X2 siempre que el coeficiente β3 del término
depende subyacente,
producto sea distinto de 0. La presencia de interacción se ilustra en la Figura 11.6(b), donde las
rectas de regresión de Y sobre X1 presentan distintas pendientes para los dos valores (puntos y
E(b + b3 c2 ) = E(b1 ) + E(b3 )c2 = β 1 + β 3 c2 ,
círculos) de una covariable1dicotómica X2.
+ b c )x ,
A diferencia
3 2 1 de tal forma que el cambio
de la confusión, la interacción en elsínivel de Y por cada incremento
medioestadísticamente
se evalúa mediante elde una
contraste
cuya varianza viene dada por (véase Apartado 3.4)
parcial del coeficiente β3 asociado al término producto. Si este coeficiente no difiere
unidad en X1 se estima
significativamente mediante
del valor nulo, elb1 + b3c2. de
efecto EstaX combinación constituye
sobre la variable un estimador
respuesta Y no variará
1
significativamentevar(b en los
1 +distintos niveles
b3 c2 ) = var(b 1) +decX22 2var(b
. En ausencia de interacción,
3 ) + 2c2 cov(b 1 , b3 ) ha de eliminarse el
insesgado de la pendiente específica subyacente,
término producto y volver al modelo con los términos principales de ambas variables, que
permite estimar el efecto global =deσ X2 (v 1 ajustado
2 por X . Por el contrario, si el coeficiente β del
11 + c 2 v33 + 2c22 v13 ), 3
término producto resulta significativo,
E(b1 + b3 c2 ) el efecto
= E(b 1 ) +de X13 )c
E(b diferirá
2 = β1 +significativamente
β 3 c2 , según el nivel
de X+2 by, cen)xconsecuencia, se tendrá una interacción significativa entre ambas variables. Aunque
3 2 1, de tal forma que el cambio en el nivel medio de Y por cada incremento de una
queestimaciones
las depende de las de varianzas de b1 ydel
los coeficientes b3 ymodelo
tambiéncon de elsutérmino
covarianza ya que,nocomo
producto tienenseen general
cuya varianza viene dada por (véase Apartado 3.4)
una+unidad
interpretación
b3c2)xen , de tal directa,
forma que pueden
el cambiocombinarse
en el nivel para
medioobtener
de
1 X se estima mediante b + b c . Esta combinación constituye un estimador Y estimaciones
por cada especificas
incremento de la
de una
1 1 3 2
muestra en
relación de elX1Apéndice
con la variable tema, las Yestimaciones
de esterespuesta en los distintos de los de X2. Para
coeficientes
niveles de regresión
un determinado
valor fijo
unidad
insesgadocen
2 deX la
de secovariable
estima X ,
mediantela ecuación
var(b1 + bespecífica
1 la pendiente b +
23 c2 ) = var(b b c de . regresión
Esta
2
estimada
combinación es ŷ(x
constituye
31 ) 2+ c 2 var(b3 ) + 2c2 cov(b1 , b31) 2
1 subyacente, , c )
un= (b0 + b2c2) + (b1
estimador
+ b3c2)x1,están
múltiple de talcorrelacionadas.
forma que el cambio Así, elenintervalo
el nivel medio de Y poralcada
de confianza 100(1 - α)% paradelauna unidad
incremento
en X se
insesgado
1 estima de mediante
la b
pendiente 1 + b c .
específicaEsta combinación
2 subyacente, 2
3 2 = σ (v11 + c v33 + 2c2 v13 ), constituye un estimador insesgado de la
pendiente específica
subyacentesubyacente, E(b +
β1 + β3c12 de lab c ) = E(b ) +
2
E(b )c =
3 2relación1 entre X3 e2Y en1 el valor
1
β + β c ,
3 2 c de la covariable
2

E(b1 + b3 c2 ) = E(b1 ) + E(b3 )c2 = β 1 + β 3 c2 ,


X2 que
se depende
calcula
cuya deviene
como
varianza las varianzas
dada porde (véase b3 y también
b1 y Apartado 3.4)de su covarianza ya que, como se
cuya varianza viene dada por (véase Apartado 3.4)
cuya varianza
muestra viene dadadepor
en el Apéndice este(véase
tema,Apartado 3.4)
las estimaciones de los coeficientes de regresión
2
b1 + 1b+3 cb2 3±c2t)n -=p-1,1-
var(b var(b v11c +
α /2 s1 ) + 2 var(b
c 2
v
2 333 )
+ +22c
c 2 v2 cov(b
13 . 1 , b3 )

múltiple están correlacionadas. Así,


var(b1 + b3c2) == var(b σ el(vintervalo
2
11) +
2
2c2 v13 ), al 100(1 - α)% para la
c 2 v33de+ confianza
1 + c22 var(b3) + 2c2cov(b1, b3)

11.13 Paraβ1evaluar β3cb21 una


quependiente
depende de las varianzas+de y bla 2yrelación
también de suXcovarianza
1 e Y en el valor ya que, como
c2 índice se muestra en
Ejemplosubyacente de
= σ
3posible
(v + c 2
entre
modificación
v + 2c v del
), efecto del de la covariable
de
el Apéndice de este tema, las estimaciones de los coeficientes de regresión múltiple están
11 2 33 2 13

Xque sedepende
correlacionadas.
calcula
2 masa
de
Así,
como laselvarianzas
intervalo de 1 y b3 y también
de bconfianza al 100(1 de–suα)% covarianza ya que, como
para la pendiente se
subyacente β1
corporal sobre el colesterol HDL en los estratos de fumadores actuales y no
3c2 de
+ βque la relación
depende entre X1 e Y de en bel1 valor
y blas ctambién
2 de la covariable X2 se calcula como
muestra en eldeApéndice
las varianzas
de este tema, 3 y estimaciones de sudecovarianza ya que,
los coeficientes decomo se
regresión
fumadores actuales,bse+ ajustó b3 c2 ±un tn−pmodelo de regresión 2 lineal múltiple en los
1 −1,1−α /2 s v11 + c 2 v 33 + 2c 2 v13 .
muestra en el Apéndice de este tema, las
múltiple están correlacionadas. Así, el intervalo de confianza estimaciones de los coeficientes
al 100(1 - αde )%regresión
para la
controles del estudio EURAMIC que incluía los términos principales del índice de
Ejemplo
múltiple 11.13 
están Para evaluar
correlacionadas. Así,unael posible
intervalomodificación
de confianzadel efecto- del
al 100(1 α)%índice
para lade masa
pendiente subyacente β1 + β3c2 de la relación entre X1 e Y en el valor c2 de la covariable
corporal
masa sobre
corporal
Ejemplo 11.13 el colesterol
X1, el consumo
Para HDL
evaluardeuna en los
alcohol
posible estratos de
X2modificación fumadores
y la variable indicadora actuales
del efecto del X3 de y no fumadores
los
índice de
actuales,subyacente
pendiente se ajustó β un1 +modelo
β c de de
la regresión
relación lineal
entre X múltiple
e Y en el en los
valor ccontroles
de la del
covariable estudio
X2 EURAMIC
se calcula como
que incluía los
3 2
términos principales del
1
índice de masa
2
corporal X , el consumo
fumadores actuales,
masa corporal así el
sobre como un término
colesterol HDLadicional
en los estratoscon elde producto
fumadores entre el 1índice
actuales y no
de alcohol
X2 se calcula comoX 2 y la variable indicadora X 3 de los fumadores actuales, así como un término
adicional con
de fumadores
masa corporal el producto
y la entre
b1 variable el índice
c2 ± indicadora de masa corporal y la variable indicadora de los
actuales, +seb3ajustó α/2 s de
un modelo vdelosregresión
fumadores actuales,
lineal múltiple en los
2
tn-p-1,1- 11 + c 2 v 33 + 2c 2 v13 .
fumadores actuales,
2
controles del estudio b1 + bEURAMIC
3c2 ± tn-p-1,1-que α/2 sincluía
v + clos 2 v 33 + 2c 2 v13principales
términos . del índice de
Y = β 0 + β 1 x1 + β 2 x2 + 11 β 3 x3 + β 4 x1 x3 + ε .
Ejemplo
masa 11.13XPara
corporal evaluar una posible modificación del efecto del índice de
1, el consumo de alcohol X2 y la variable indicadora X3 de los

Ejemplo 11.13 sobre


masa corporal Para evaluar una posible
el colesterol HDL enmodificación
los estratos del efecto del actuales
índice dey no
fumadores actuales, así como un término adicional condeelfumadores
producto entre el índice
Pastor-Barriuso R. 223
masa
de
corporal
fumadores sobre el
actuales,
masa corporal
colesterol
y lasevariable
ajustó un HDL ende
modelo
indicadora
los estratos de
de regresión
fumadores
lineal
los fumadores actuales, en los y49no
múltipleactuales
fumadores actuales,
controles del estudioseEURAMIC
ajustó un modelo de regresión
que incluía linealprincipales
los términos múltiple en
dellosíndice de
entre el índice de masa corporal y el hábito tabáquico actual en los controles del
específicos del índice de masa corporal sobre el colesterol HDL dentro de cada
estudio EURAMIC. No obstante, este contraste podría tener escasa potencia
Regresión lineal múltiple
estrato, ya que el estudio cuenta únicamente con 276 no fumadores actuales y 172
estadística para detectar cambios relevantes en la magnitud de los efectos
fumadores actuales. En este sentido, es aconsejable utilizar los resultados del
La Tabla 11.11 muestra las estimaciones de los coeficientes de este modelo y las
específicos del índice de masa corporal sobre el colesterol HDL dentro de cada
correlaciones
modelo con elentre término los distintos
producto pares para estimarde coeficientes,
los efectos queespecíficos
forman parte de los la
y valorar resultados
facilitados por los programas estadísticos convencionales. El contraste para la nulidad
estrato, ya que el estudio cuenta únicamente con 276 no fumadores actuales y 172
del coeficiente
relevancia del cambio. β4 asociado al término producto arroja un valor P = 0,16, lo que indica
que no existe una interacción estadísticamente significativa entre el índice de masa
fumadores actuales. En este sentido, es aconsejable utilizar los resultados del
corporal
Por un lado, y el en hábito tabáquico
el estrato de los actual en los controles
no fumadores actuales, del la estudio
variable EURAMIC.
indicadoraNo X3obstante,
1.2 MEDIDAS DE TENDENCIA CENTRAL
este contraste podría tener escasa potencia estadística para detectar cambios relevantes
modelo con el término producto para estimar los efectos específicos y valorar la
en
tomala magnitud
valor 0 y la deecuación
los efectos de específicos
regresión estimada del índice de masaa corporal sobre el colesterol
se reduce
Las medidas de tendenciaHDL dentro de cada estrato, ya que el estudio cuentarepresentativo
central informan acerca de cuál es el valor más únicamente con 276 no fumadores
relevancia del cambio.
actuales y 172 fumadores actuales. En este sentido, es aconsejable utilizar los resultados
de una determinada variable
del modelo o, dicho con de el forma
término ŷ (x 1 , x2 , 0) =
equivalente,
producto b0 +estimar
estos
para b1 x1 + blos
estimadores 2 x2 .efectos
indicanespecíficos y valorar la
Por un lado, en el estrato de los no fumadores actuales, la variable indicadora X3
relevancia del cambio.
ŷ (x1 ; 16,5; 0) = 1,49 - 0,016x1 + 0,0029⋅16,5 = 1,54 - 0,016x1 .
alrededor de qué valorAsí, se agrupan
una los datos observados.
vez0 controladas Las medidas de tendencia
Por un
toma lado,
valor estratolas
yenlaelecuación dediferencias
de los no fumadores
regresión en el consumo
estimada actuales,
se reduce de la alcohol,
avariable cadaindicadora X3 toma
valor 0 y la ecuación de regresión estimada se reduce a
central de la muestraPor sirven
otrotanto
incremento lado, para
de en 3,50elresumir
kg/m2los
estrato de resultados
en losíndice
el fumadores deobservados
masa actuales,
corporal como depara
la variable fumadoresX3
los noindicadora
ŷ (x1 , x2 , 0) = b0 + b1 x1 + b2 x2 .
realizar inferencias acerca
toma
actualesde los
valor se parámetros
1asocia
ycontroladas
la ecuación
con 0) poblacionales
una de regresióncorrespondientes.
disminución estimada
media en viene A por
dada
el colesterol HDL de 3,50b
Así, una vezŷ (x ; 16,5; = las
1,49 diferencias
- 0,016x en
+ el consumo
0,0029⋅16,5 = de1,54alcohol,
- 0,016xcada 1=
incremento de
1 1 1.
3,50 una
Así, kg/m vezencontroladas
2
el índice delasmasa corporalendeellos
diferencias no fumadores
consumo de alcohol, actuales
cadase asocia con una
continuación se describen los principales
3,50(-0,016) = -0,057 estimadores
mmol/l, con deun la ICtendencia
al 95% central
comprendido de unaentre
disminución media en el colesterol HDL de 3,50b
ŷ (x1 , x2 , 1) = (b0 + b3 ) + (b1 +1b4 )x1 + b2 x2 . = 3,50(– 0,016) = – 0,057 mmol/l, con
Por otro lado, en el estrato 2 de los fumadores actuales, la variable indicadora X
un IC al 95%
incremento decomprendido
3,50 kg/m enentre el índice de masa corporal de los no fumadores 3
variable.
Así, 3,50{b1 ±det443;0,975 SE(b )} = 3,50(−de 0,016 ± 1,97⋅0,0049) = (− 0,090; − 0,023).
kg/m=2 en
tomadespués 1 y laajustar por disminución
1la
actuales valorse asocia ecuación
con una deingesta
regresión media alcohol,
estimada en los incrementos
viene
el dada por
colesterol HDL de de
3,503,50b 1
1.2.1 Media aritmética La Figura ŷ11.7 muestra
(x1 ; 16,5; en
0) = de trazo
1,49 fino
- fumadores la recta
0,016x1 + 0,0029⋅16,5 de regresión estimada
= 1,54 -con 0,016x del colesterol HDL
1.
elLaíndice
sobreFigura
el de 11.7
índice masa
3,50(-0,016) = -0,057ŷ (x de corporal
muestra
masa en
corporal
mmol/l, los
trazo fino
entre la recta
los noactuales
de regresión
fumadores
con un IC al 95% comprendido entre se asocian
estimada
actuales conuna
del uncolesterol
consumo medio
1 , x2 , 1) = (b0 + b3 ) + (b1 + b4 )x1 + b2 x2 .
de alcoholpor
La media aritmética, denotada de x 2, =se16,5 define g/día,como la suma de cada uno de los
disminución
HDLotro
Por sobre lado, elmediaíndice
en el en deelmasa
estrato colesterol
de corporal HDL
los fumadores de 3,50(b
entre los + bla4)variable
no1fumadores
actuales, = 3,50(-0,016
actuales - 0,010)
con
indicadora unX3 =
3,50{b ŷ1 (x
± ; 16,5; SE(b
1t443;0,975 0) = 11,49 )} = 0,016x1 + 0,0029⋅16,5
−3,50(-0,016 ± 1,97⋅0,0049) = 1,54 = − 0,016x-0,023).
(-0,090; 1.
Así, después
valores muestrales dividida por el número de ajustar depor la ingesta derealizadas.
observaciones alcohol, los denotamos de 3,50 kg/m2 en
Si incrementos
-0,092
consumo
Por
toma otro mmol/l.
valor medio
lado, 1 yen Para
la de
el obtenerde
alcohol
estrato
ecuación deuna
de losx 2estimación
= 16,5estimada
fumadores
regresión por intervalo
g/día,
actuales, viene del por
la variable
dada efecto específico
indicadora en valor
X3 toma
por n el tamaño muestral1elyíndice
La
Por la ecuación
y por
Figura
otro x11.7
de
lado, i masa
el en deelcorporal
valor
muestraregresión
observado
estrato deestimada
en trazo lospara
fino ellaviene
fumadores rectadada
sujeto i-ésimo,
actuales
de por se
regresión
actuales, ila=asocian
1, ..., n,con
estimada
variable unacolesterol
del
indicadora X3
este estrato, se calcula en primer lugar la varianza muestral de b1 + b4
ŷ (x1 , x2 , 1) = (b0 + b3 ) + (b1 + b4 )x1 + b2 x2 . 50
la media vendría dadaHDL disminución
sobre 1elmedia
por valor
toma yíndice en
la ecuacióndeelmasa colesterol
de corporal
regresión HDL de los
entre 3,50(b
estimada noviene + b4dada
1fumadores ) = 3,50(-0,016
actuales con
por - 0,010)
un =
Así, var(b
después de ajustar por la ingesta de alcohol, los incrementos de 3,50 kg/m2 en el
1 + b4 ) = var(b1 ) + var(b4 ) + 2cov(b1 , b4 )
-0,092
índice
Así, mmol/l.
de
después masa Para
decorporal
ajustar obtenerde los
por launa
ingestaestimación
fumadores de alcohol,por intervalo
actuales losse incrementos
asocian del conefecto kg/m2en
de específico
una disminución
3,50 enmedia
consumo medio 1 n de alcohol ŷ x(x de
1 1+, 2x22, +1)x...=
2 +=(bx216,5 g/día,
0n + b3) + (b1 + b4)x1 + b2x2.
x =  x=i SE(b
en el colesterol HDL de
= 1 ) + SE(b 3,50(b +
1 4) + b ) = 3,50(– 0,016
4. 2SE(b1 )SE(b4 ) rb b – 0,010) = – 0,092 mmol/l. Para
este
obtener
el estrato,
índice una n
de masase i =1calcula
estimación corporal enpor n
primer los lugar
deintervalo fumadores la varianza
del efecto
actuales muestral
específico
se asocian
1 4
de beste
en con buna
1 + estrato,
4 se calcula en
50
primer lugar la varianza
Así, después de ajustar por2 la ingesta2 de muestral de b + b
1 alcohol,
4 los incrementos de 3,50 kg/m2 en
= 0,0049 + 0,0072HDL + 2⋅0,0049⋅0,0072(-0,679) = 0,000028,
La media es la medidadisminución
de tendencia media en
central el colesterol y de
de 3,50(b 1 + b4) = 3,50(-0,016 - 0,010) =
var(b 1 + b4 ) = var(b 1más utilizada
) + var(b 4 ) + 2cov(b más1 , bfácil
4)
el índice de masa corporal 2de los fumadores 2
actuales se asocian con una
-0,092
donde mmol/l.
la correlación
interpretación. Corresponde al “centro de gravedad” de Para= SE(b
obtener
entre 1 )b1+una
y SE(b
b 4 los datos de1 )SE(b
se4 )
estimación+
obtiene 2SE(b por
de la 4 ) rb1b4 del
laintervalo
segunda
muestra. Su efecto
parte de laespecífico
Tabla 11.11. en
disminución media en el colesterol HDL de 3,50(b1 + b4) = 3,50(-0,016 - 0,010) =
= 0,00492 + 0,00722 + 2⋅0,0049⋅0,0072( −0,679) = 0,000028,
este
El IC estrato,
al 95% separa calcula
el
principal limitación es que está muy influenciada por los valores en
efecto primer
específico lugar la varianza
del índice
extremos demuestral
masa y, en de b1 +enb4los
corporal
este
donde la
-0,092 correlación
mmol/l. entre b1una
Para obtener y b4estimación
se obtiene por de laintervalo
segundadel parte de la
efecto Tabla 11.11.
específico en El IC
al 95%
fumadores
caso, puede no ser undonde para
fiel reflejo el
actuales
debla efecto se específico
calcula del
entonces índice como de masa corporal en los fumadores actuales se
var(b 1+
la correlación 4) tendencia
= var(b entre1) b+central
1 var(b
y b4 se 4de +la2cov(b
) obtiene distribución.
de b4)segunda parte de la Tabla 11.11.
1, la
calcula
este entonces
estrato, se calcula como en primer lugar la varianza muestral de b1 + b4
2 2
3,50{b1 +=bSE(b 1) + SE(b
4 ± t443;0,975 SE(b4)1 ++ b2SE(b
4 )} 1)SE(b4) rb1b4
Ejemplo 1.4 EnEleste yalen
ICvar(b los
95% sucesivos
para
b el ejemplos
efecto sobre
específico estimadores
del índice muestrales,
de masa se en los
corporal
1 + 4 ) = var(b 1 ) + var(b 4 ) + 2cov(b 1, b4)
= 3,50(− 0,0162 − 0,010 ±21,97 0,000028 ) = (−0,129; −0,056).
utilizarán los valores del colesterol = 0,0049
HDL + 0,00722en+los
obtenidos 2⋅0,0049⋅0,0072(-0,679)
10 primeros sujetos del= 0,000028,
fumadores actuales se
= SE(bcalcula
2 entonces como
1) + SE(b4) + 2SE(b1)SE(b4) r b1b4

estudio “European
En laStudy
donde Figuraon11.7
Antioxidants,
la correlación
3,50{b 1+
se entre b2Myocardial
representa
= b0,0049
4 ± t443;0,975
b4 se
1 y en trazo
SE(b
+ 0,0072
Infarction
obtiene
2 gruesode la and Cancer
la recta
segunda parteofde laestimada
de regresión
1 ++b2⋅0,0049⋅0,0072(-0,679)
4)}
Tabla 11.11.
= 0,000028,del
224 Pastor-Barriuso R.
the Breast“ (EURAMIC),
El IC al 95%
colesterol unpara
HDL estudio
sobre multicéntrico
el efecto
el específico
índice dedel
de masa casos y controles
índice
corporal de masa
entre losrealizado
corporal
fumadores en actuales
los con
= 3,50(-0,016 - 0,010 ± 1,97 0,000028
donde la correlación entre b1 y b4 se obtiene de la segunda ) = (-0,129;
parte de -0,056).
la Tabla 11.11.
entre 1991 y 1992 en
fumadores
una ochoactuales
ingesta países de
media Europeos
calculaede
sealcohol Israel
x =para
entonces evaluar
g/día, el efecto de los
como
16,5
= 3,50(-0,016 - 0,010 ± 1,97 0,000028 ) = (-0,129; -0,056).
continuación se describen los principales estimadores de la tendencia central de una
En la Figura 11.7 se representa en trazo grueso la recta de regresión estimada
Confusión e interacción en del
regresión lineal
variable.
colesterol HDL sobre el índice de masa corporal entre los fumadores actuales con
En la Figura 11.7 se representa en trazo grueso la recta de regresión estimada del colesterol
1.2.1 Media aritmética
una
HDL ingesta media
sobre el índice dede
alcohol de x 2 = 16,5
masa corporal entreg/día,
los fumadores actuales con una ingesta media
La media aritmética, denotada de x 2, =se16,5
de alcoholpor g/día,
define como la suma de cada uno de los
ŷ (x1 ; 16,5; 1) = (1,49 + 0,18) − (0,016 + 0,010)x1 + 0,0029 ⋅16,5
valores muestrales dividida por el número de observaciones realizadas. Si denotamos
= 1,72 − 0,026x1 .
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n,
En conclusión, a partir del modelo con la interacción se tiene que un mismo incremento
de 3,50 kg/m2 en el índice de masa corporal se asocia con distintas disminuciones en el
la media vendría dada por
nivel medio de colesterol HDL de – 0,057 mmol/l en los no fumadores y – 0,09251mmol/l
en los fumadores actuales. El cambio en la magnitud del efecto es notable pero, debido
al limitado1 tamaño
n
xmuestral
+ x 2 + ...de
+ xambos estratos, las estimaciones específicas son
x =  xi = 1 n
.
relativamente imprecisas
n i =1 y el
n test de interacción no alcanza la significación estadística.
Por tanto, los resultados de este estudio no son concluyentes respecto a la posible acción
sinérgica del índice de masa corporal y el tabaco en los niveles de colesterol HDL, y se
La media es la medida de tendencia
requeriría de un central
estudiomásmásutilizada
potente ypara
de más fácil un cambio subyacente de dicha
detectar
magnitud en los efectos específicos del índice de masa corporal en fumadores y no
interpretación. Corresponde al “centro
fumadores de gravedad” de los datos de la muestra. Su
actuales.

principal limitación es que está muy influenciada por los valores extremos y, en este
Tabla 11.11  Resultados de la regresión lineal múltiple del colesterol HDL
caso, puede no ser unsobre
fiel reflejo de la de
el índice tendencia central de(IMC),
masa corporal la distribución.
el consumo de alcohol, la variable
indicadora de fumadores actuales y el producto entre IMC y fumador actual
en el grupo control del estudio EURAMIC.
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
Coeficientes de regresión
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
Test H0: βj = 0
Estimación Error estándar IC al 95% t Valor P
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of
Constante 1,49 0,13 (1,24; 1,75) 11,47 < 0,001
IMC – 0,016 0,0049 (– 0,026; – 0,007) – 3,30 0,001
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado
Alcohol 0,0029 0,0006 (0,0018; 0,0041) 4,88 < 0,001
Fumador
entre 1991 y 1992 0,18
en ocho países Europeos 0,19para evaluar
e Israel (– 0,20; 0,55) de los0,91
el efecto 0,36
IMC·Fumador – 0,010 0,0072 (– 0,024; 0,004) – 1,40 0,16

Matriz de correlaciones de las estimaciones 5


IMC Alcohol Fumador IMC ∙ Fumador
Constante – 0,990 – 0,052 – 0,670 0,664
IMC – 0,016 0,674 – 0,679
Alcohol – 0,134 0,120
Fumador – 0,990

Pastor-Barriuso R. 225
Regresión lineal múltiple

2,25

2
Colesterol HDL (mmol/l)

1,5

0,5

0,25

20 24 28 32 36

Indice de masa corporal (kg/m²)


Figura 11.7
Figura 11.7  Rectas de regresión del colesterol HDL sobre el índice de masa corporal en fumadores actuales
(puntos y línea gruesa) y no fumadores actuales (círculos y línea fina) obtenidas de un modelo con interac-
ción entre el índice de masa corporal y el hábito tabáquico actual en el grupo control del estudio EURAMIC.

En regresión lineal, la ausencia de interacción entre dos variables explicativas X1 y X2 implica


que sus efectos sobre la variable respuesta son aditivos; es decir, el efecto conjunto de ambas
E(Y|x1 + 1, x2 + 1) - E(Y|x1 , x2 )
variables es la suma de sus efectos independientes. La presencia de interacción puede
interpretarse, por tanto, como una desviación de la aditividad, que puede deberse tanto a
= β + β 1 (x1 + 1) + β 2 (x2 + 1) + β 3 (x1 + 1)(x2 + 1)
como1 a+0 efectos
efectos subaditivosE(Y|x supraaditivos.
1, x2 + 1) - E(Y|x1 , x2 ) Más concretamente, en un modelo de regresión
lineal con el término producto entre X1 y X2, el cambio esperado en Y al aumentar simultáneamente
+ β 1 x1 + β 2 x2 + β 3 x1 x2 ) = β 1 + β 2 + β 3 (x1 + x2 + 1).
- (β 0 explicativas
una unidad ambas variables= β 0 + β 1 (x1 + 1) es+ β 2 (x2 + 1) + β 3 (x1 + 1)(x2 + 1)
E(Y|x1 + 1, x2 + 1) − E(Y|x1 , x2 )
En el mismo modelo, los- (βcambios esperados
0 + β 1 x1 + 1 x2Y
β 2 x2 + β 3 xen ) =alβaumentar
1 + β 2 + β 3por
(x1 +separado
x2 + 1). una unidad
= β 0 + β 1 (x1 + 1) + β 2 (x2 + 1) + β 3 (x1 + 1)(x2 + 1)
cada variable explicativa +son
− (β 0los
En el mismo modelo, 1 x1 + β 2esperados
βcambios x2 + β 3 x1 xen2) = + β 2 + β 3por
Y βal1 aumentar x2 + 1).una unidad
(x1 +separado

En el mismo modelo,
cada variable
E(Y|x losx2cambios
1 explicativa
+ 1, ) - E(Y|x , x2 ) = β 0 +enβ 1Y(x1al+aumentar
son 1esperados 1) + β 2 x2 por + β 3separado
(x1 + 1)x2una unidad cada
variable explicativa son
En el mismo modelo, los cambios esperados en Y al aumentar por separado una unidad
- (ββ00 ++ββ11(xx11 + 1)
E(Y|x1 + 1, x2 ) − E(Y|x1 , x2 ) = β 2 x+2 β+2 xβ23+
x1βx23)(x=1 +β 11)x
+ 2β 3 x2
cada variable explicativa son − ( β 0 + β 1 x1 + β 2 x2 + β 3 x1 x2 ) = β 1 + β 3 x2
y
y
E(Y|x1 + 1, x2) - E(Y|x1, x2) = β0 + β1(x1 + 1) + β2x2 + β3(x1 + 1)x2
y
E(Y|x1 , x2 + 1) − E(Y |x1 , x2 ) = β 0 + β 1 x1 + β 2 (x2 + 1) + β 3 x1 (x2 + 1)
-−((ββ0 ++ββ1xx1 ++ββ2xx2 ++ββ3xx1xx2))==ββ1 ++ββ3xx2 .
E(Y|x1, x2 + 1) - E(Y|x1, x2) = β00+ β1x1 1 1+ β2(x 2 + 1) + β3x1(x2 + 1)
2 2 3 1 2 2 3 1

y - ( β0 + β1 x1 + β2 x2 + β3 x1 x2 ) = β2 + β3 x1 .
Así, si existe interacción entre X1 y X2, el coeficiente β3 asociado al término producto
226 x2 + 1) - E(Y|x
E(Y|x1,
Pastor-Barriuso R. ) =X2β, 0el+coeficiente
1,Xx12y β1x1 + β2(xβ23 +asociado
1) + β3x1(xtérmino
2 + 1)
seráAsí, si existe
distinto de 0interacción
y el efectoentre
conjunto de ambas variables diferirá al
de la sumaproducto
de sus
(β0ambas
será distinto de 0 y el efecto conjunto- de + β1x1variables
+ β2x2 +diferirá
β3x1x2)de β2suma
= la + β3xde
1. sus
efectos independientes,
será distinto de 0 y el efecto conjunto de ambas
- (β 0 +variables
β 1 x1 + β 2diferirá
x2 + β 3 xde
1 x2 )la=suma
β 2 + βde
3 xsus
1.

efectos independientes, Confusión e interacción en regresión lineal


Así, si existe interacción entre X1 y X2, el coeficiente β3 asociado al término producto

E(Y |xde
será distinto 1 +01, y xel2 + 1) - E(Y|x
efecto 1 , x2 )de ambas variables diferirá de la suma de sus
conjunto
Así, si existe interacción entre X1 y X2, el coeficiente β3 asociado al término producto será
distinto 0 y el- {E(Y|x
deindependientes,
efectos + 1, x2 ) - de
efecto 1 conjunto E(Y|x 1 , x2 ) +
ambas E(Y|x1 , xdiferirá
variables 2 + 1) - E(Yde |x x2 )} de sus efectos
la1 , suma
independientes,
+ β 2 +20;
= βŷ1 (28,5; = x1,49
β 3 (x0)1 + 2 + 1) - (β 1 + β 3 x2++0,0029⋅20
- 0,016⋅28,5 β 2 + β 3 x1 )==1,091,
β 3.
E(Y |x1 + 1, x2 + 1) − E(Y|x1 , x2 )
ŷ−(28,5;
{E(Y|x20; 1 + 0)
1, =x21,49 - 0,016⋅28,5
) − E(Y|x + 0,0029⋅20
1 , x2 ) + E(Y|x 1 , x2 + 1)= −1,091,
E(Y |x1 , x2 )}
el de los fumadores actuales con un índice de masa corporal de 25 kg/m2 y un
Ejemplo 11.14=Aβ 1partir + β2 + deβlas (x estimaciones
+ x + 1) − (βdel modelo con el término producto
1 + β 3 x2 + β 2 + β 3 x1 ) = β 3 .
ŷ (28,5; 20; 0)3 = 11,492 - 0,016⋅28,5 + 0,0029⋅20 = 1,091,
el de los fumadores
consumo de alcohol actuales de 20 g/día cones un índice de masa corporal de 25 kg/m2 y un
de la Tabla 11.11, el nivel medio de colesterol HDL de los no fumadores con un
Ejemplo 11.14  A partir de las estimaciones del modelo con el término 2
producto de la
elconsumo
de los
Tabla 11.11, de alcohol
fumadores
el nivel de
medio20 g/día
actuales decon es
un 2índice
colesterol HDLde masa
de los corporal
no de 25 kg/m
fumadores con un yíndice
un de masa
índice de ŷ (25,
masa 20,corporal1) = 1,49 de -25 0,016⋅25
kg/m y+un 0,0029⋅20
consumo+de 0,18 - 0,010⋅25
alcohol de 20=g/día
1,070 es
corporal
Ejemplo de 25 ŷ kg/m
11.14 (28,5; y20;
A partir
2
un0)consumo
de= las
1,49 -de alcohol del
estimaciones
0,016⋅28,5 de
+ 20 g/día con
modelo
0,0029⋅20 es= 1,091,
el término producto
consumo de alcohol de 20 g/día es
ŷ (25, 20, 1) = 1,49 - 0,016⋅25 + 0,0029⋅20 + 0,18 - 0,010⋅25 = 1,070
y elde delalos Tablafumadores ŷ (25, el
11.11, 20,nivel
0) =medio
actuales 1,49
con un − 0,016⋅
deelevado 25 +índice
colesterol 0,0029⋅20
HDL de demasa = 1,148,
los corporal de 28,5
no fumadores con un
2
el de los fumadores ŷ (28,5; actuales
20; con un índice de masa corporal de 25 kg/m y un
el de 2losŷ no (25, 20,
fumadores 1) = 1,49con0) un =elevado
1,49 - 0,016⋅28,5
- 0,016⋅25 +2 0,0029⋅20
índice de masa++ 0,0029⋅20 =
de1,091,
0,18 - 0,010⋅25
corporal 28,5=kg/m
1,070 2
y un consumo
y elíndice
kg/m deylos unde fumadores
consumo
masa deactuales
corporal alcohol
de con
25 un
20 elevado
dekg/m g/día
y un índice dedemasa
esconsumo corporal
alcohol de 20 deg/día
28,52 es
de
el alcohol
de los no de 20
fumadores
consumo de alcohol de 20 g/día es g/día es
con un elevado índice de masa corporal de 28,5 kg/m y un
2los fumadores actuales con un índice de masa corporal de 25 kg/m2 y un
yel eldede
kg/m ylos ŷ (28,5; de
unfumadores
consumo 20; 0) = 1,49
alcohol
actuales con −200,016⋅28,5
de un g/día es índice
elevado + 0,0029⋅20
de masa=corporal1,091, de 28,5
ŷ (28,5;
consumo de 20;alcohol 1) =ŷ de
1,49
(25, - g/día
2020, 0,016⋅28,5
0) =es1,49 +- 0,016⋅25
0,0029⋅20+ +0,0029⋅20 0,18 - 0,010⋅28,5
= 1,148, = 0,978.
el de 2los ŷ (25, 20, 1) = 1,49 - 0,016⋅25
fumadores + 0,0029⋅20 + 0,18 - 0,010⋅25 = 1,070
consumo
kg/m y un alcohol actuales
deconsumo de
de 20 g/día
alcohol conde esun20índice
g/día de es masa corporal de 25 kg/m2 y un consumo
2

eldede ŷ los
(28,5;
alcohol de20;
fumadores 201)g/día =actuales
1,49es - 0,016⋅28,5
con un índice + 0,0029⋅20
de masa +corporal 0,18 - 0,010⋅28,5
de 25 kg/m= 0,978.
y un 2
Tomandoel de los comono fumadoresreferencia con a losunsujetos
elevado noíndice
fumadores de masa concorporal
un índicedede28,5masa kg/m 53 y un
y el de los ŷ (25,fumadores actuales con un elevado índice de masa corporal de 28,5
consumo ŷ (28,5; de 20; 20,1)1)==2de
alcohol 1,49
1,49 20-g/día0,016
−0,016⋅28,5es⋅25 ++0,0029⋅20
0,0029⋅20++0,18 0,18−-0,010 ⋅25 = 1,070
0,010⋅28,5 = 0,978.
Tomando
corporal
consumo decomo 25
de referencia
kg/m
alcohol , losde no a los
20 sujetos
fumadores
g/día es no
confumadores
un elevadocon un índice
índice de masade masa
corporal
2
y el de
kg/m ylos
unfumadores
consumo de actuales
alcoholcon de un20elevado
g/día esíndice de masa corporal de 28,5 kg/m2 y un
deconsumo
ycorporal
el28,5
Tomando de ŷlos de
(25,
de
kg/mcomo alcohol
fumadores
252
20, kg/m1) =2de
presentan
referencia 20
, 1,49
los no
unag/día
actuales con
a- 0,016⋅25es un +elevado
fumadores
disminución
los sujetos 0,0029⋅20
con
no en laíndice
un + 0,18
elevado
media
fumadores de masa
delíndice
con un corporal
-colesterol
0,010⋅25
de masa
índice HDL
de de
= 1,070 28,5
corporal
masa de
53
ŷ 2(28,5; 20; 1) = 21,49 − 0,016⋅28,5 + 0,0029⋅20 + 0,18 − 0,010⋅28,5 = 0,978.
kg/m
de 28,5y kg/m
corporal un
de consumo
2
25ŷpresentan
kg/m de alcohol
una fumadoresde 20 g/día
disminución enesla elevado
media del colesterol HDL de
yTomando
el de loscomo fumadores (28,5;, actuales
los
20; no
0) - con ŷ (25,
un 20, con
0) =un1,091
elevado índice - de índice
1,148
masa
de masa
= corporal
-0,057, corporal
de 28,5
referencia a los sujetos no fumadores con un índice de masa corporal de
25
Tomando
de 28,5 kg/m 2
, los
como 2 no fumadores con un elevado índice de masa corporal de 28,5 kg/m2
kg/m20;ŷpresentan referencia unaa0,016⋅28,5
los sujetos+no
disminución enfumadores con un índice de = masa
kg/m ŷ2(28,5;
y un consumo 1) = 1,49
(28,5; de 20; -0)
alcohol - ŷde(25,20 20,
g/día 0) =la1,091
0,0029⋅20
es
media del colesterol
+- 0,18
1,148 = -0,057,HDL
- 0,010⋅28,5 0,978.
presentan
los fumadores una disminución
actuales con en la media
el mismo del colesterol
índice de masa corporal HDL de de 25 kg/m2 de
corporal de 25 kg/m2, los no fumadores con un elevado índice de masa corporal
ŷ (28,5; 20; 0) − ŷ (25, 20, 0) = 1,091 − 1,148 = − 0,057, 2
Tomando
los fumadores
ŷ (28,5; como
20;actuales referencia
1) = 1,49 con- a0,016⋅28,5
ellos sujetos
mismo +no
índice fumadores
de masa+ corporal
0,0029⋅20 con -un
0,18 índice de =masa
de 25 kg/m
0,010⋅28,5 de
0,978.
2 ŷ (25, 20, 1) - ŷ (25, 20, 0) = 1,070 - 1,148 = -0,078
delos28,5 kg/m presentan
fumadores actuales con unaeldisminución
mismo índice en dela media del colesterol
masa corporal de 25 HDL
kg/m2de de
corporal
los fumadores de 25 actuales kg/m2, los connoelfumadores
mismo con de
índice un masa
elevado índicede
corporal de25masa
kg/m 2
corporal
de
Tomando como ŷ (25,
referencia20, 1)a −
los ŷ (25,
sujetos20, no0) = 1,070
fumadores − 1,148
con =
un − 0,078
índice de masa
y los fumadores actuales con un elevado índice de masa corporal de 28,5 kg/m2 de
2 ŷ (28,5; 20; 0) - ŷ (25, 20, 0) = 1,091 - 1,148 = -0,057,
de
y los28,5 kg/m presentan
fumadores actuales una
condisminución
un elevado índice en la media
de masa delcorporal
colesterol de HDL de 2 de
28,5 kg/m
corporal de 25 kg/m ŷ (25,2 20, 1) - ŷ (25, 20, 0) = 1,070 - 1,148 = -0,078
, los con
no fumadores
y los fumadores actuales un elevadocon un elevado
índice de masaíndice corporal de de
masa corporal
28,5 kg/m2 de
ŷ (28,5; 20; 1) − ŷ (25, 20, 0) = 0,978 − 1,148 = − 0,170. 2
los fumadores2 ŷactuales (28,5; 20; con0)el-mismoŷ (25, índice
20, 0) =de masa-corporal
1,091 1,148 = de 25 kg/m de
-0,057,
de
yAsí, 28,5 kg/m
loslafumadores presentan
actuales una disminución en la media del colesterol de HDL de 2 de
disminución ŷ (28,5; media20;condel-un
1) ŷ elevado
colesterol
(25, 20, HDL índice dede– 0,170
0) = 0,978 masa
- 1,148 corporal
mmol/l 28,5conjuntamente
debida
= -0,170. kg/m a
Así,
fumar la ydisminución
aumentar elmedia
ŷ (25, 20, 1)del
índice - ŷcolesterol
de masa corporal
(25, 20, HDL
0) esdemayor
= 1,070 -0,170
- 1,148enmmol/l
valor debida que la suma de
absoluto
= -0,078 2
los
las fumadores ŷŷactuales con–el0,078mismo índice =de masa corporal decada factor de
25 kg/m
disminuciones (28,5;
– 0,057
(28,5; 20; 1) -- ŷŷ (25,
20; 0) (25, 20,
20, 0)
= – 0,135 1,091
0,978 -- debidas
0) =mmol/l 1,148
1,148 = = a-0,057,
-0,170. por separado.
Así,
En otrasla disminución
conjuntamente palabras, losmedia
a fumar datos del estudio
y aumentar
del colesterol
el EURAMIC
índiceHDL dede -0,170
masa
apuntan mmol/l
corporal es debida
mayor
a un posible en valor
efecto supraaditivo
2
yo los fumadores
sinérgico del ŷactuales
índice
(25, de
20, con
masa
1) - unŷ elevado
corporal
(25, 20, y índice
0)el= tabacode
1,070 masa
sobre
- 1,148 corporal
los= niveles
-0,078de 28,5
de kg/m
colesterol
2
deHDL.
los fumadores
conjuntamente
absoluto
Así, que la asuma
la disminución actuales
fumarmedia con
deylas el
aumentarmismo
disminuciones
del colesterol índice
el índice HDL de masa
dedemasa
-0,057 -0,170corporal
corporal
- 0,078 de 25 kg/m
esdebida
= -0,135
mmol/l mayor
mmol/l de
en debidas
valor
ŷ (28,5; 20; 1) - ŷ (25, 20, 0) = 0,978 - 1,148 = -0,170. 2
ayabsoluto
los fumadores
cada que por
factor
conjuntamente actuales
la aŷsuma de
separado.
fumar
(25, 20, con
ylas - un
1)En elevado
disminuciones
ŷotras
aumentar (25, índice
elpalabras,
índice
20, 0) = dedatos
-0,057
los
de -masa
masa
1,070 -0,078corporal
==
del deEURAMIC
-0,135
estudio
corporal
1,148 28,5enkg/m
mmol/l
es mayor
-0,078 valorde
debidas

Así, la factor
a cada
apuntan
absoluto disminución
aque por
un la
posible
ŷ suma media
separado.
(28,5;efecto
de del
20;las
1)En colesterol
otras
supraaditivo20, HDL
(25,palabras,
disminuciones
-unŷ elevado de -0,170
los datos
o0)sinérgico
-0,057
= 0,978 -del
- 0,078mmol/l
del
índice
1,148 dedebida
=estudio
-0,135
= EURAMIC
masa corporal
mmol/l
-0,170. debidas y
y los fumadores actuales con índice de masa corporal de 28,5 kg/m2 de
conjuntamente
apuntan
ael tabaco
cada asobre
un por
factor alos
fumar
posible y aumentar
efecto
niveles
separado. deEn otraselpalabras,
supraaditivo
colesterolíndice
HDL. delos
masa
o sinérgico corporal
del
datos índice
del esdemayor
estudio masa en valor y
corporal
EURAMIC
Así, la disminución media del colesterol HDL de -0,170 mmol/l
ŷ (28,5; 20; 1) - ŷ (25, 20, 0) = 0,978 - 1,148 = -0,170. debida
absoluto
el tabacoaque
apuntan un la
sobre suma
posible de lasde
los niveles
efecto disminuciones
colesterol HDL.
supraaditivo -0,057 - 0,078
o sinérgico = -0,135
del índice mmol/l
de masa debidas
corporal y
Pastor-Barriuso R. 227
conjuntamente a fumar y aumentar el índice de masa corporal es mayor en valor
aAsí,
elcadala factor
disminución
tabaco porlos
sobre media del
separado.
niveles de colesterol
Encolesterol HDLlos
otras palabras,
HDL. de datos
-0,170delmmol/l
estudiodebida
EURAMIC
absoluto que la suma de las disminuciones -0,057 - 0,078 = -0,135 mmol/l debidas 54
MÚLTIPLE
Según la estructura de la regresión lineal múltiple presentada en el Apartado 11.2, cada
media 0 y varianza constante σ 2. Estas n ecuaciones lineales pueden reescribirse en
11.8
una
Según
Regresión deAPÉNDICE:
las
la
lineal estructura
múltiple
FORMULACIÓN
n observaciones
de la regresión independientes lineal MATRICIAL
(yi, xi1, …,
múltiple xDE
presentada LAenREGRESIÓN
ip) presenta el la LINEAL
relación11.2,
Apartado lineal cada
forma matricial como
MÚLTIPLE
una de las n observaciones independientes (yi, xi1, …, xip) presenta la relación lineal
yi = β 0 + β 1 xi1 + … + β p xip + ε i, i = 1, …, n,
11.8  APÉNDICE: FORMULACIÓN y
 1  1 x MATRICIAL
11  x1p  DE LA  ε REGRESIÓN
1 LINEAL
SegúnMÚLTIPLE yi = β0 + β 1 xi1 + … + β p xip + ε i,   i = 1,en
la estructura de la regresión  lineal múltiple   β
presentada
0  …,el n,
Apartado 11.2, cada
donde los errores aleatorios  εi son  independientes y están distribuidos
  normalmente con
   =      β1  +   
una la
Según las n observaciones
deestructura de la regresión independientes
lineal múltiple (yi, xpresentada
i1, …, xip) presenta
en el Apartado la relación11.2,lineal
cada una de
donde los errores aleatorios  ε son 2
independientes yestán  
distribuidos normalmente
las media 0 y varianza
n observaciones constante
independientes iσ .(yEstas
   i i1 , x , n
…, ecuaciones
x ip ) presenta
 β lineales
 la pueden
relación
  reescribirse
lineal en con
 p
yi = β0 y+n β 1 x2i11+ … x n1+ β x    i =ε1,n …, n,
p xip +npε i,
media 0 y varianza
forma matricial como constante σ . Estas n ecuaciones lineales pueden reescribirse en
donde los errores aleatorios εi son independientes y están distribuidos normalmente con media
0 ydonde
o,varianza
forma los constante
errorescomo
matricial
abreviadamente, σ2. Estasεi nson
aleatorios independientes
ecuaciones lineales y están
pueden distribuidos
reescribirse normalmente con
en forma matricial
como  y1  1 x11  x1 p  ε 1 
  2  β 0   
media 0 y varianza constante σ . Estas n ecuaciones    pueden
 y1  1 x11y = Xβ +x1εp ,  βlineales1  ε 1 
reescribirse en
   =       β 0  +   
forma matricial como         
donde y es un vector n × 1 con  
 =los 
  valores de lavariable   ββ 1  respuesta,
  X es una matriz de
 y n  1 x n1  x np   p  + εn 

 y1 columnas 1 x11sonlos xvalores 1p    β  ε 1 
dimensión n × (p + 1) cuyas de cada variable explicativa más
 y n  1 x n1  x np   β 0p  ε n 
o, abreviadamente,     β   

una primera columna de unos,
o, abreviadamente,    =βes  un vector (p+1) ×1 1 con +  los  coeficientes de
       
o, abreviadamente,
   y = Xβ + ε ,  β   
regresión y ε es un vector n × 1 con  los errores aleatorios.  p  El ε nvector
 de errores aleatorios
 y n  1 x n1  x np 
donde y es un vector n × 1 con los valores de β + ε, respuesta, X es una matriz de dimensión
y =laXvariable
ε(psigue
n ×donde+ 1)ycuyases uncolumnas
entonces una ndistribución
vector ×son 1 con losnormal
los valores valoresde cada de la variable
multivariante
variable respuesta,
con
explicativa mediamás 0Xy es una
matriz
una matriz
diagonal
primera de
columna
de unos,
o, β es un vector (p + 1) × 1 con los coeficientes de regresión y ε es un vector n × 1 con
abreviadamente,
asunción de homogeneidad 2de la varianza, todas las varianzas de la diagonal de la
los donde
errores
dimensión
de y aleatorios.
es nun× vector
(p + El
varianzas-covarianzas 1)nvector
× 1σcon
cuyas de, los valores
errores
Icolumnas de
loslavalores
aleatorios
son variable
ε siguederespuesta,
entonces
cada X esexplicativa
una
variable una matrizmás
distribución de
normal
multivariante con media 0 y matriz diagonal de varianzas-covarianzas σ I,
2
matriz de varianzas-covarianzas son iguales y = Xβa + σ ε2 ,y que, por tratarse de observaciones
dimensión n × (p + 1) cuyas columnas son
una primera columna de unos, β es un vector (p 2+ 1) × 1 con los coeficientes los valores de cada variable explicativa
de más
ε ~ N(0, σ I),
independientes, las covarianzas de fuera de la diagonal son iguales a cero.
donde
regresión y esy un
una 0primera
donde denota esvector
el vector
εcolumna ndenulo
un vector × unos,1ncon ×n 1×βlos valores
1escon
con un todos
losvector de sus
errores laaleatorios.
(p variable
1) × 1 respuesta,
+componentes conEl los Xdeeserrores
iguales
vector a una
coeficientes ceromatriz de la
I denota
ealeatorios
de
donde
matriz 0 denota
Aidentidad
partir denesta×elnvector
con unos
formulación nuloenn matricial
× 1diagonal
la con todos sus componentes
dely modelo
ceros fuera de ella.iguales
de regresión Notar amúltiple,
linealque, cero I denota
pore la asunción
resulta
de homogeneidad
dimensión
regresión
ε sigue entoncesynε×es(p de
un+lavector
una 1)varianza,
cuyas
distribución 1todas
n ×columnas con lasson
los
normal varianzas
los valores
errores de ladecon
aleatorios.
multivariante diagonal
cada
Elmedia de0 de
variable
vector ylamatriz
matriz de
explicativa
errores varianzas-
más
aleatorios
diagonal
covarianzas
la son iguales
identidad na× σ n
2
y que, por tratarse de observaciones
sencillo calcular las estimaciones de los coeficientes de regresión por el método de la
matriz con unos en la diagonal y ceros fuera independientes,
de ella. Notar las covarianzas
que, por
de fuera
una
ε sigue
de deentonces
primera la diagonal
columna
varianzas-covarianzas unason de iguales
distribuciónσ 2I, βaescero.
unos, un vector
normal (p + 1) × 1con
multivariante conmedia los coeficientes
0 y matriz de diagonal
55
mínimos
A partir decuadrados.
esta formulaciónEn el Apartado matricial11.3.1, del modelo se comprobó
de regresión quelineal estas múltiple,
estimaciones vienen
resulta sencillo
regresión y ε es un vector
de varianzas-covarianzas
calcular las estimaciones de los
2
σn ×Icoeficientes
,1 con los errores de regresiónaleatorios. por el Elmétodo
vector de errores
mínimos aleatorios
cuadrados.
ε ~ N( 0, σ 2I),
En dadas por la solución
el Apartado 11.3.1, seal comprobó
sistema de que p + 1estas ecuaciones
estimaciones lineales vienen dadas por la solución al
ε sigue
sistema de entonces una distribución
p + 1 ecuaciones lineales normal multivariante 2 con media 0 y matriz diagonal
ε ~ N(0, σ I),
donde 0 denota el vectorn nulo n × 1 con ntodos sus componentes n iguales a cero e I denota
de varianzas-covarianzas  σy i I=, nb0 + b1  xi1 + ... + b p  xip ,
2

donde
la matriz 0 denota
identidad el vector
n ×n n con
i =1 nulounos n × 1nencon =todos
la i diagonal
1
n
susycomponentes
ceros i =1 fuera de
n
iguales
ella. Notar e I denota
a ceroque, por la
 xi1 y i = b0 1 xεlai1 ~+diagonal
la matriz identidad n i×=1 n con unosi =en
b10
N( , σx2i1I),+ ... + b p  x i1 x ip ,
i =1
2

y ceros fuera i =1 de ella. Notar que, por la 55



n n n n
55
donde 0 denota el vector  xipnulo
i =1
y i =nb× 0  x ip + b1  x i1 x ip + ... + b p  x ip ,
1 con todos sus componentes iguales
i =1 i =1 i =1
2 a cero e I denota

la matriz identidad n × n con unos en la diagonal y ceros fuera de ella. Notar que, por la
que puede representarse matricialmente como
55

y  1 x11  x1 p 
 1  1   1  1  1    b0 
x  x n1     x11  
x n1    b 
 11R.   1
228 Pastor-Barriuso
  =  
          
  
x np     x1 p
  b 
 x1 p   x np   
y  1 x  x   p
i =1  i =1 i =1 i =1
n n n n

x
y i = b0  x ip + b1  x i1 x ip + ... + b p  x ip2 ,
ip
que puede representarse
i =1 matricialmente
i =1 como i =1 Apéndice: formulación
i =1matricial de la regresión lineal múltiple

ecuación anterior por la matriz inversa (X′X)-1, se obtienen las estimaciones de los
que puede representarse matricialmente  y1  como 1 x11  x1 p 
 1
quecoeficientes
puede representarse  1   
matricialmente como
de regresión  1  1     b0 
x  
x n1     x11   
x n1    b 
 11  y  1 x
  11  x  1
1p 
 1  1   1  =  1 -1 1    b0 
 b = (X′X) X′y. 
x
x111p 
 xx np   
xx111p 
 xx np   bb 
1p 

ecuación anterior por la matriz
n1 
  y  = 

ninversa -1 n1 
 
(X′X) , se obtienen 1las estimaciones
 x  x de los 
  
         n1 np 
 
Deesta formula matricial  se desprende que los estimadores
  de mínimos cuadrados b
x  x  x  x  b 
 1 p anterior
coeficientes de regresión   inversa
np 
  1 p(X′X) , se obtienen
-1  las estimaciones de los
np  
ecuación
o,
por la matriz
 y los
n 1 x n1 y, x  p
sonabreviadamente,
combinaciones lineales de valores de la variable respuesta cuyosnpcoeficientes
o, abreviadamente,
coeficientes de regresión b = (X′X)-1 X′y.
dependen de
o, abreviadamente, los valores de las variables = X′Xb, X que se asumen constantes. En
X′yexplicativas
-1
donde X' esta
De es laformula
consecuencia, matriz
si el traspuesta
matricialmuestral
tamaño se X yb
dedesprendenbes Xel′Xvector
que X′yestimadores
=es(suficientemente
) los .(p + 1) × 1de
grande, con las estimaciones
mínimos
puede unade
cuadrados
aplicarse b los
donde X′ es
coeficientes. Comola matriz traspuesta
el modelo de X X
de regresión y es=X
y ′blineal Xb
el′múltiple
, (pasume
vector + 1) ×que 1 conlas las estimaciones
variables explicativas
sonecuación
linealmente
son Decombinaciones independientes
estaanterior
generalización formuladelpor lineales
la matriz
teorema
matricial seylos
de quevalores
inversa
central delel límite
desprende (número
X′X de
que)-1para dedemostrar
la,los
se observaciones
variable
obtienen
estimadores respuesta
lasque yn, estimadores
es
estimaciones
de los
mínimos superior
cuyos de losbo igual
coeficientes
cuadrados b al
número de coeficientes
de los coeficientes.
donde X′ es la matriz Comop + 1, la matriz
el modelo
traspuesta de Xde X tiene
y bregresión rango
es el vector lineal p + 1
(p múltiple y, en
+ 1) × 1 asume consecuencia,
con lasque las
estimaciones la matriz
cuadrada
dependen
siguen X'X dees no
los
aproximadamente
coeficientes
son singular.
valores
de regresión
combinaciones linealesde Multiplicando
las
una variables
dedistribución
los valores de ambos
explicativas
normal lados
la variable X deque
multivariante la ecuación
se
respuesta asumen
con anterior
y, media por la
constantes.
cuyos coeficientes Enmatriz
variables
inversa
de los(X'X) explicativas
–1
, se obtienen
coeficientes. Como sonlaslinealmente
modelo deindependientes
el estimaciones linealy múltiple
de los coeficientes
regresión que eldenúmero asumede
regresión que observaciones
las
consecuencia, si
dependen de los valores el tamaño de muestral
las variables n es suficientemente
explicativas X-1 que se asumen constantes.una
grande, puede aplicarse
n es superior o igual E(
al bnúmero
) = E{(de X′X -1
)b X = ′(yX
coeficientes } ′=X)E{(
−1
pX+X .X)la X
′y′1, ′(Xβ +Xεtiene
matriz )} rango p + 1 En y, en
variables explicativas son linealmente independientes y que el número de observaciones
generalización
De esta formula
consecuencia, del teorema
matricial
si el tamaño=se central del
desprende
muestral límite
n)-1esXque para demostrar
los estimadores
suficientemente que
grande, los
de mínimos estimadores
puede aplicarse b
cuadradosuna b son
β + (XX′X ′ X ′E( ) los
= β estimadores
εsingular.
n es superior o igual al número de coeficientes p + 1, la matriz X tiene rango p + 1 y,laen
consecuencia,
De esta
combinaciones la
formula matriz
lineales de cuadrada
matricial
los se
valoresdesprende
de es
la noque
variable Multiplicando
respuesta y, de
cuyos ambos
mínimos lados
cuadrados
coeficientes de b
dependen
siguen
de los aproximadamente
valores de las
generalización delvariables una distribución
teorema explicativas
central del límite normal
X quepara multivariante
se asumen
demostrar constantes.con media
En consecuencia,
que los estimadores b si el
son
tamaño
y combinaciones
muestral
matriz de n es lineales
suficientemente
varianzas-covarianzas de los valores
grande, de la
puede variable
aplicarse
consecuencia, la matriz cuadrada X′X es no singular. Multiplicando ambos lados de la respuesta
una y , cuyos
generalización coeficientes
del teorema
central
siguendel aproximadamente
límite para demostrar
E(b) una que
= E{( Xlos
′X)estimadores
distribución
-1
X′y}normal = E{(bXsiguen
′X)-1 Xaproximadamente
multivariante ′(Xβ + con ε )} media
una distribución
56
dependen
normal de los valores
multivariante con media de las variables explicativas-1 X que se asumen constantes. En
var(b) = E{(b - β )(b - β )′} = E{(X′X) X′εε ′X(X′X)-1 }
-1
β +X (X′X′X)n−)1X X ′E(
} =ε )E{( = βX′X)−1 X′(Xβ + ε )}
consecuencia, si el tamaño E(b) =muestral
E{( es ′ysuficientemente
-1 grande, puede aplicarse una 56
= (X′X)-1 X′E(εε ′)−X ( X ′ X ) -1
= ( X ′ X ) X ′( σ
2
I ) X ( X ′ X) -1
= β + (X′X) 1 X′E(ε ) = β
generalización del teorema
y matriz de varianzas-covarianzas central del límite para demostrar que los estimadores b
y matriz de varianzas-covarianzas= σ 2 (X′X)-1 ,
siguen
y matrizaproximadamente una distribución normal multivariante con media
de varianzas-covarianzas
var(b) = E{(b − β )(b − β2)′} = E{(X′X)−1 X′εε ′X(X′X)−1 }
ya que E(ε) = 0 y E(εε′) = var( ε) = σ I por las asunciones de linealidad, aditividad,
= (X′X)−1 X′E(εε-1′)X(X′X)−1 = (X ′X −1 2
-1) X′(σ I)X (X′X)−1
var(b) E( b) =b E{(
= E{( Xb′X-)β)′}
- β)( X′y=} E{(
= E{( X)′XX
X′X -1 ) ′εε X(βX+′Xε))}}
X′(′X -1
homogeneidad de la varianza
= σ 2 (X′Xe)−independencia.
1
, Cada estimador de mínimos cuadrados bj
= (X′= X)β-1+ X)′)-1XX(′E(
(X′εε
X2′E( X′X ε))-1= =β (X′X)-1X′(σ 2I)X(X′X)-1
ya que E(ε) = 0 y E(εε') = var(ε) = σ I por las
es entonces un estimador insesgado de su correspondienteasunciones de linealidad,
coeficienteaditividad, homogeneidad
de regresión βj y
de la varianza e independencia. Cada 2estimador de mínimos cuadrados b es entonces un
ysigue E(εε = ′) 2= var(ε-1
(X′X) ),= σ I coeficiente
σcorrespondiente por las asunciones de linealidad, aditividad, j
yamatriz
estimador E(de
ε) varianzas-covarianzas
insesgado
= 0 y de su
queaproximadamente la distribución normal de regresión β j y sigue aproximadamente
la distribución normal
homogeneidad
ya 0de
que E(ε) = var(
yb la) εε
E( =varianza
′) = bvar(~βeε)(independencia.
)b=-σβ2)′} Cada-1 estimador
I por las asunciones de-1mínimos
de(Xlinealidad,
′εε…, cuadrados bj
aditividad,
E{( bj -→ N(β j, σ 2 v=jj ),E{(X′jX=) 0,X1, ′X p,′X) }
es entonces
homogeneidad
donde un estimador
vjj es el elemento ′insesgado
de la =varianza
(Xj)-ésimo
(j, εεde
′E(de ′)laXsu
X)-1eXindependencia. (Xcorrespondiente
matriz Cada
′X)-1(X'X)
–1 -1 coeficiente
= (X′estimadorX′(σ 2Ide
X.-1)Además, de)-1regresión
mínimos
los
)X bjβyj ybbkj de
cuadrados
(Xestimadores
′X
distintos vjj es el elemento
dondecoeficientes (j, j)-ésimo
de regresión estánde la matriz (X′X)con
correlacionados . Además, cov(bj, bkb) j=yσ 2vjk.
los estimadores
una covarianza
sigue
Cabe
es aproximadamente
destacar
entonces que
un estimador σ 2la(insesgado
Xdistribución
estas=distribuciones
′X)-1, muestrales
de su normal no requierencoeficiente
correspondiente de la asunción βj y y
de normalidad
de regresión
sonbkválidas
de distintos coeficientes
para cualquier de regresión
distribución están correlacionados
subyacente de la variable conrespuesta,
una covarianza
siempre que el
tamaño muestral sea suficientemente
sigue aproximadamente labdistribución ~ grande. normal j = 0, 1, …, p,
2
j → N(βj,2σ vjj),
ya
cov(b bk)ε)==σ02vyjkE(
quej, E( εε′) =destacar
. Cabe var( ε) =que
σ Iestas por las asunciones muestrales
distribuciones de linealidad,no aditividad,
requieren de la
~ N(β , σ 2v ),
homogeneidad
donde vjj es el elemento (j,bj)-ésimo
de la varianza j →e independencia.
jde la matriz
jj j(X
Cada=′X -1 …, p,
0,estimador
)1, de mínimos
. Además, cuadrados
los estimadores bj y57bj

es
bk entonces
donde vjj es un
de distintos estimador(j,insesgado
coeficientes
el elemento de
de su
de regresión
j)-ésimo correspondiente
laestán coeficiente
correlacionados
matriz con los
(X′X)-1. Además, de regresión bβj jyy
unaestimadores
covarianza
Pastor-Barriuso R. 229

2
sigue
bcov(b aproximadamente
k de distintos vjk. Cabeladestacar
j, bk) = σ coeficientes distribución
de regresiónnormal
que estas distribuciones
están muestrales
correlacionados con unanocovarianza
requieren de la
E( ŷ 0 ) = x′0 E(b) = x′0 β
ŷ 0 = b0 + bde
Una vez estimados los coeficientes 1 x01regresión,
+ … + bpel = x′0 esperado
x0pvalor b de la variable
Regresión lineal múltiple
y varianzaY dados unos valores fijos x0 = (1, x01, …, x0p)′ de las variables explicativas
respuesta
que, al ser una combinación lineal de b, también se distribuye de forma
puede estimarse
Una vez como
estimados ŷlos coeficientes
′0 E{( b - βde)(b
regresión,
- β)′}x0 =elσvalor
2
(esperado demedia
X′X)-1xcon
x′0grandes, 0=σ
la2hvariable respuesta Y
aproximadamentevar( 0 ) = xen
normal muestras suficientemente 0;
dados unos valores fijos x0 = (1, x01, …, x0p)' de las variables explicativas puede estimarse como

es decir,
ŷ 0 = bE(
0+ ŷ 0b)1x=01x+′0 E( ′0 β= x′0 b
bpxx0p
…b+) =
que, al ser una combinación lineal de b, también se distribuye de forma aproximadamente
normal
que, enser
al muestras
y varianza
suficientemente
una combinación linealgrandes,
ŷde b~, también
con media
se2 distribuye de forma
0 → N( x′0 β , σ h0 ),

aproximadamente normal en muestras E( == x00 E(b) = xx00 grandes, con media


E( ŷŷ00 ))suficientemente
2
donde el var(hŷ0 0=) =
leverage x ′ ′0 E{(
x(X ′ X ) bx-0βes
-1 )(buna - βmedida
)′}x0 = σ x′0 (X′X)-1x0de= la
estandarizada σ 2desviación
h0; de x0
y varianza 0

E(xŷ′00E{() = bx-′0 E( 22′0 β


β )(b0b)=-=βx)′}
var( ŷ=0xx-E{(b
yE{(b
0 ) =–– xx0x0(XX)
+ var(
–1 ε 0 )
–1
respecto var(
var( ŷ ŷ ) )
=  )(b
)(b –
–  )}x 0(XX) xxEl
00== 2h2h0;predicho
0; ŷ 0 es
es decir, de las medias muestrales de las variables explicativas.
0 0 0 0
Regresión lineal múltiple
valor
Regresión lineales
ydecir, x′0 (X′X)-1 Y
2
os coeficientes múltiple
de varianza el valor esperado de la= variable
regresión, σ {1 + respuesta x0 } = σ 2 (1 + h0 ).
un estimador insesgado no sólo de la esperanza ~ N( x′ β , σ 2 h ), poblacional de la variable
o media
s x0 = (1, x01, …, x0p)' de las variables explicativas puede ŷ 0 → estimarse 0 como0
var(
Una ′vez 0estimados ŷ - y 0 ) = x ′ E{( b
0los coeficientes - β )( b - β de )′}xregresión,
0 + var( ε 0el) valor esperado de la variable respuesta
+ brespuesta
ŷ 0 = b0 donde 1x01
Si el+leverage
además … +xel ′0bβperror
x,var(
hsino
0p 0= b=lax′0nueva
=εŷx0también
) (X'X)
0 0de E{(
–1
x0 bla
de β)(bmedida
esobservación
una
-respuesta - β)′} xse σ 2 x′0de(Xun
estandarizada
0 =distribuye
individual ′X de )-1forma
de
nuevo σnormal
xla0 =desviación
sujeto 2
=dexx′0 0βrespecto
h0; y0 (asunción + ε0
Una vezdeestimados los muestralesdados
coeficientesdedelas unos valores
regresión, fijos x = (1,
el0 explicativas.
valor esperado x , …, x 0pde)' de las
la variable variables respuesta explicativas puede estimarse com
Y estimador
las
donde mediasel leverage h = x ′ ( X ′ X variables
) -1
x es
2 una medida estandarizada
01 El valor predicho
de la ŷ es
desviación un de x
nación dados unos
lineal de valores
b, también
insesgado fijos
no xse
sólo de(1,lax01esperanza
0 =distribuye
0 , …,de 0 x0p)'forma de=
o medialas0 variables
σ aproximadamente+ x′ŷ0 (Xexplicativas
{1poblacional = ′Xb)de -1
+ = σpuede
x0bla} xvariable +
2
(1
… estimarse
hb0 ).x = xcomo
++respuesta
0
′ b
β, sino
0
también
ficientemente grandes, de que
ya normalidad),
con media la diferencia ŷ 0 - y0 también seguirá la distribución normal 0 0 1 01 p 0p 0  
de es la decir,
respuesta individual ŷ 0 = b0de+ un b1xnuevo 01 + …sujeto + bpx0p y == x′0 βb + ε0 ya que
respecto de lasque, medias var(
al ser muestrales
ŷ 0una ) = xde′0 E{(
- y0combinación las bvariables )(b - βexplicativas.
- 0βlineal de)′}b, + var(εEl
x0 también 0 )sevalor distribuyepredichodeŷforma 0 es aproximadamen
E( ŷ )
Si = x
ademásc0 E(b)el= error x
normalc E ε de la nueva observación se distribuye de forma normal (asunción
que, al ser una combinación
0 0
E( ŷ 0 en
lineal0 − de ymuestras
0 ) b,= E{ ŷx0′ŷ0suficientemente
también -(0by→ −~seβ )N(0,
0 ~ N(
distribuye
− xε 0′ }σβ= 2 xgrandes,
(12′0+E( de
hb − βcon
forma
0 )).
) − E( media
aproximadamente
ε 0 ) = 0.
0 , σ -1h0),
normal en muestras suficientemente
un estimador insesgado no sólo = grandes, con
deσla{1 2 media
esperanza
+ x′0 (X′oXE( )media x0 } =poblacional
σ (1 + h=0 ).xde
2 la variable
Como el valor predicho
de normalidad), ŷ0 no depende
la diferencia ŷ 0 -de y0 la nueva
también seguiráŷ 0la) =distribución
observación yx0,c0laE(b) varianza c0 Ede esta diferencia es
normal
E(–1 ŷ ) =2 xc E(b) = xc E
Como el 0valor = xŷx′0ŷde ylos
2 predicho no X0 )hdepende de 0la nueva observación
( ŷ 0 ) = xc0 E{(b – E)(b donde –EnE)c}x
respuesta el x=′0Vβy,particular
elleverage
caso c0 (XcX)
xsino h0var(
varianza también 000−
0(X ′V
=una yde 00;x respuesta
única
la
-1
= 0xes ′0 E{( variable
una b− )(explicativa,
βindividual
medida β )′}xde
b − estandarizada 0 + un todos
var(nuevo
ε 0de)0, la
laresultados
sujeto varianzay0 = xde′0de
desviación βesta
+x0ε0
y varianza Si además el error ε 0 de la nueva observación se 2 distribuye de forma normal (asunción
ŷ=0var( σ- y{1
2
0 ~+N(0,
=xx′0 c0(X
ŷ 0 )regresión
σ ′X (1 −–+1 xEh0)(b
E{(b)lineal }0 )).
=simple
–σE)c}x
2
=hV0 ).2 xc0Apartados
(1 0+(véase (XcX) 1x0 = V 2h0;

anteriores
diferencia
ya que se
es reducen a los obtenidos en
ŷSi ~
respecto
N( xvar( de
′0 βel las2 medias muestrales de las variables
= V 2 xc0 (XcX) explicativas.
1 2 El valor predicho ŷ 0 es
0 → 0 )h=0 ),
, ŷσerror –
de normalidad),
además la E{(b – E)(b –ŷ 0E)c}x
xεc0 diferencia - y00 también seguirá x0 la = Vdistribución
h0de ; forma normal
es 0 de la nueva
decir,
observación se distribuye normal (asunción de
10.3.1,
normalidad), En el10.3.3 la
caso yparticular
diferencia 10.3.4).ŷ Así, de – y
una setambién
tiene que
única seguirá
variable la distribución
explicativa, todos normallos resultados
x0'(X'X) –1
es decir, x0 es unaunmedida estimador estandarizada
insesgado E( ŷ 0 -de y0)lasólo
no 0
=desviación
0
E{de x′0 la - βde
(besperanza ) -xε00respecto} =o media xŷ′00E(→ ~b poblacional
-N(β)x-′0 E( β ,εσ0) h =de ),la variable
0 0.
2
Si además
les de las variables explicativas. El valor el error ε 0 de la nueva
predicho
~ observación
ŷ es
ŷ 0x−′0 β0y,0 σ~ N(0, 2un se
estimador2 distribuye
σ (1 + h0 )).
de forma normal (asunción58
anteriores se reducen a ŷlos
0 → obtenidosN( en h0 ),−–1
regresión lineal simple (véase Apartados
esperanza o mediarespuesta poblacional de donde la variable elbleverage respuesta = x'
h0 respuesta β,xsino
x00'(X'X) 1
x0
también es yunade medida estandarizada
sujeto y0 =dex′la desviación de x0 respect
En el caso
x′0 β , sino
particular
también
de 0
una
de nla
única
ŷdepende

variable i  individual
explicativa, i un nuevo
todos los resultados 0 β + ε0 se
anteriores
ual dedonde un nuevo sujeto
el leverage de normalidad),
Como hy0 el β de
xx'00'(X'X)
= valor εla
+predicho b xdiferencia
las
0 ya
=0medias
que
es una ŷ 0= nomedida 0 - y0estandarizada
muestrales tambiénde2 la seguirá
lasnueva variables la
deobservación
la distribución
explicativas.
 desviación y0,de lanormal
xEl0 respecto
varianza de esta ŷ0 es un estimado
valor predicho
–1

de las medias reducen10.3.1,


Enael10.3.3
muestrales los caso obtenidos
de y las 10.3.4).
particular
insesgado enb1 de
variables Así,
no se
regresión
una
sólo  x i lineal
tiene
única
de
explicativas.  que
la esperanza
x isimple
variable 
El valor x i y i  Apartados
(véase
explicativa,
o media predicho todos
poblacional ŷ0 eslos10.3.1,
de
unresultados 10.3.3respuesta
laestimador
variable y 10.3.4).x' β, sino tambié
0
0 ) = E{ x′0 no
ŷ 0 − yinsesgado Así, ya
− βseque
(b sólo ) −de
tiene
ε 0la} esperanza
=que x′0de E(la b −respuesta
β ) − E( ε ) = 0.
diferencia es
anteriores se de reducen
o media
a lossujeto
0 individual
poblacional
=obtenidos ŷ 0 1- yen
de
de
N(0,
0 ~regresión
un
la
  σx2i (1
nuevo
variable 2 sujeto
respuesta
+yhi 0−)).
lineal
 0xi 00xi y i ,0
y = x'
x' β,
simple (véaseApartados
β sino
+  ε ya
también
que
de la respuesta individual un nuevo y = x' β 2+ε0 ya que
−1

x′0 (i bŷ 
 n
=
ŷ0 no depende de la nueva observación y0,bla0 varianza n n E( (de
0
x esta −0 − 0
x )xdiferencia xx′0xes
y ib y i−−β ) − εx i }= yxi ′ E(  b − β ) − E(ε 0 ) = 0.
E( b ŷ=0 - y0)==E{ - βy)2i0-)ε=0}E{ ′0(i E( b - β) -0 E(ε0) 0= 0.
var( ŷ 0 − y0 ) = x′0 E{( bEn
10.3.1, −E( ŷ 0 − βyy)′}
el)(bcaso
β10.3.3
Como
=x0E{
0 )10.3.4).
particular + var(xb′01 (Así,
el valor debε 0−)βse
una ) −tiene
predicho
xεi0 } =
única  que xx′0 E(
ŷ0variable
noi depende b − β ) x−i E(
explicativa,
y ε 0 ) = 0.
de ila nueva todos los resultados
observación y0, la varianza 58de esta diferencia es
−ynueva i0  ′ i  i  0,i βla)′}
Como el= valor
2
σ {1 + x′0 todos
donde
predicho (Xŷ′X )
no
−1
los x sumatorios
}
depende
0 = σ
2
(1
de +la son
h ).
nueva
0 sobre observación
1 var(de i = 1,  …, xy n.
2
, laPor y tanto,
varianza − xla
de estimación
estax y 
diferencia de la
es
Como el valor 0 predicho ŷ no depende 0 la
ŷregresión 0 ) = xobservación 0 E{(b − β )(by−
i varianza de esta
x0 + var(ε 0 )
anteriores se reducen a los0=obtenidos en 2  −1 lineal simple (véase ,Apartados
de la nueva observación pendiente se
var( esdistribuye
ŷ 0 −by=0 ) =de  b 
0 x′0forma E{(
n n (
b −normal x
β i)(b −− β(asunción
x x
) i)′} x0 +n  = var(x y i 2 i 0 )  i  i −1 
de y
σi ε{1
 − x y
 + x′0 (X′X) x0 } = σ (1 + h0 ).
 2
 b normal 2=  x 2 
{1  x0 }n.=
cia ŷ0 – y0 tambiéndiferencia seguirá la distribución
donde 10.3.1,todos 10.3.3 es sumatorios
los y 10.3.4). = 1σAsí,
son se
+ xtiene
sobre ′0i (iX= X1,)x i…,
′que − 1
σ x(1
Por
2 y i+ h ).
i tanto, 0 la estimación de la pendiente es
2 Si además el error ε0 de la nueva2 observación se distribuye de forma normal (asunción d
ŷ 0 − y0 donde ~ N(0, σ (1 los
el error εtodos
+ hsumatorios
0 )).
normalidad), son sobre 1nse idistribuye=ŷ 1,– …, i 
n.de
y xtambién Por yformatanto,
i −seguirá normalxlai  estimación
laxdistribución
i y(asunción
de lanormal
Si además 0 de la nueva observación=la diferencia  ( xi 2−0 x −)(1 0y i − y )
i
 , de
ar denormalidad),
una única variable
pendiente es 0 b0= b0  = b
la diferencia explicativa, ŷ – y todos también losnseguirá n( xii=1−la
resultados
1=
 n 
xdistribución
)xanteriores
i  x normal
se
ŷ 0 −yi iyi=
y − 
0 ~ r N(0,i 
s y x 2 y i 
σ (1 + h0 )). 58
s en regresión lineal simple (véase Apartados   10.3.1, 210.3.3 
2 y 10.3.4). 
 xi σ  (1 x(+ixh 0−)).x
n
s
ŷ b−
En el0 caso 1 y0 ~ N(0,
particular  de una i ) 2 x i yvariable
única i x
explicativa, todos los resultados anteriores s
donde todos los sumatorios son sobre n ii=1= 1, …, n. 2 Por tanto, la estimación de la
En el caso particular
º ª n a los¦obtenidos
ªb0 reducen
−1
x i º ª ¦enyAsí,
dereducen una única
º
a los
=
obtenidos
variable

1 en regresión
explicativa,
( x −

x


)( y i  ylos
xtodos
− y
lineal
) simple
i − resultados x i  (véase i
 Apartados
x i yanteriores
,y 10.3.4).
se 10.3.1, 10.3.3 y 10.3.4
=« »= « iregresión se tiene linealque simple (véase Apartados
nb= ( xi =i1 − x )  n x i y=i −r y x i  y i 
i 2 i 10.3.1,
s 10.3.3
pendiente » « es »
¬ b1 Así,
¼ ¬se ¦tiene
xi ¦ que x i2 estimación
y la ¼ ¬ ¦ x y de
¼ la constante 1 es n
xsix º ª ¦ y i º
−1
¦
i i
b0(ºx −ª x )n2
ª¦ x i2ª¦ −ª ¦ n x i ¦¦ x i xyii º bnª=¦
− 1  ª
i«=b
1 y»i º
i=
« » « »
1 donde todos b0los ºy i sumatorios son sobre ¬i = ¼ 1, …, ¦ n.x iPor¦ tanto, ¦
x i2 ¼ la¬estimación x i y i ¼ de la
= « b = = «
« bx »y − xx y y( xx 2− x
n » , « 1 n
» ¬
n¦ ( x i − x ) 2 «¬ n¦ ¬ 1 i¼ i ¬¦ ii ¦  ¦ i ii » ¼ i =)¬1 ¦
2( x − x )( y − y )
−ixxi  y i ¼( xi i − x )( y i −sy )
1 = r y ª¦ x i ¦ y i − ¦ x i ¦ x i y i º
2
i =1 b =
ypendiente
230 Pastor-Barriuso
la estimación R. es debla =constante es i =1
= y − b x.
y=i −n ¦ »,
1
orios son sobre i = 1, …, n. Por tanto, 0la estimación ª¦ de xnlai2n¦ pendiente xxi ¦
es xxi)sy2xi ««º n x1 y − x
=
1
2 «   (
( xi − x i x) − x¦2) 2 (
i − ¬» , ¦ i i ¦ i ¦ yi »¼
n
n¦ ( x i n− x ) «¬ n i =¦ n x y − ¦ i ¦ i »¼ n. Por tanto, la estimación de la pendiente es
x y
¦ ( xi − x )( y i − ydonde ) todos los sumatorios 2
1i =1 i n i
son sobre i = 1, …,
b1 = =r
n
sx
 (x
i =1
i − x) 2

Apéndice: formulación matricial de la regresión lineal múltiple

y la estimación de la constante es −1

y la estimación b) la
var(de
 var(b0 )
= constante es
cov(b0 , b1 )
=σ  2
 n  xi 

cov( b0 n, b1 ) var(b1 ) n   xi  x i2  −1
(=xi σ−2 x)( y2i − y
 var(b0 ) cov(b , b1 )  n x 
var(b) =  y  ( xi − x ) 2 −0 x  )  2i  2
cov(b , b ) var(b1 )i =1= 
 x i 
σ x xi −  xi 
b0 = i0=1 1 =
 i − b x .
y ,
n
n2  ( xi 2− x ) 2 −  x2i 1
n 
 ( xi − x )
=
σ   xi −  xi 
,
2 
cov(b0 , b1 ) n2 ) x−i  x i
i =1 −1
 var(b0 )  (nxi − x n 
Además, var(
la matriz
de donde b) de
se sigue= que
varianzas-covarianzas de σ  estimadores2es
=estos 
 cov(b0 , b1 ) var(b1 )   xestimadores  xi −1 es
Además, la matriz de varianzas-covarianzas de estos i

de donde se sigue que var(b0 ) cov(b0 , b1 )  n 2 x i  x 2 − x 


var(b) =  n
2 = = σ 22 σ  i
2
 i ,
cov(b0 , b1 )  var( ( x i −b1x) )  + nx  xi 
n ( xi 2− x1) −  2 x i
x x i  n 
2
var(b0 ) = σ 2 i =n1 n  + 
= σ  n (n− x1)i2s 2 −,  x i 
n i ( xi − x=)
2
( x − x ) 2
+ n x 2
σ  x 
2 i =1  x 2x  n ,
2
2  12  59
de donde se sigue que 0var(b ) = σ i =n1 n  i  n  (n − 1)is 2  , 
(
= x σ − x ) +  − 
n ( x i − x ) 2  x 
de donde se sigue que 2 2
n
i =1 σ σ
de donde se sigue que var(b1)(= 2 =
 x i −n x ) + nx 2 (n − 1) s 2 , 2
2

 ( xσi −2 x ) = σ 2 σ12 +x x 
=  n 2(n, − 1) s 2  ,
2 i =1
var(b0 ) = σvar(b
n 1) = n i =1
n( )nx)22 (n− 1) s x x 
n 2
 x i −(
i =1
xxi )(−2x x+−
i  1 x 2

var(b0) = σ 2 i =1 n i =1 − 2σ 2 x = σ 2 − 2σ+2 x ,
cov(b0, b1) = n σ 2 = σ n (n2 − . 1) s x2 
var(b1)n=  ( x i − x ) 2 =2 (n − 1)2s,x
i =1  − iσ x2
n ( x − x ) (n −−1)σs 2 x
cov(b0, b1)  = i =(n1x i − x ) = x .
(n − 1) s x2
i =1
 (x − x)
σ 2 i2
2
σ2 2
Por último, para un valorcov(b var(b
fijo x0, de ) = i =1
− σ
la nvariable explicativa, x = − σ x,
=(n − 1) slax2 varianza del valor predicho
1
0 b1) = n .
 
( x − x ) 2
(i x i − explicativa,
x) 2
(n − 1) s x 2

ŷPor
0 =último,
b 0 + b para
x
1 0 es un valor fijo x 0 de la i =1variable
i =1
la varianza del valor predicho
1.2 MEDIDAS DE TENDENCIA CENTRAL
Por último,
ŷ 0 = b0 +para es valor fijo x0 de la variable
b1x0un − σ 2 explicativa,
x − σ 2 lax varianza del valor predicho
ŷ0 = b0 + b1x0 es cov(b0, b1) = n −1 = .
var( yˆ ) = σ [1 x ]  Las
2
 n  xi  2  1(n − 1) s x2
( x i medidas
− 2x)  de tendencia central informan acerca de cuál es el val
Por último, para un0 valor fijo x00de xii=1  xexplicativa,
la variable −1 x la varianza del valor predicho
 n  xi i   10 
var( yˆ 0 ) = σ [1 2x 0 ] 
2
 x 2 x 
i x −  xi  1 
xidex una determinada
2  variable
 o, dicho de forma equivalente, estos e
ŷ 0 = b0 + b1x0 es =
σ
Por último, para un valor fijo x0 de la2 variable   [1 ] i   0
0  explicativa, la varianza    del valor predicho
n ( xi 2− x ) − dex2i qué valor n   x0 
σ alrededor  xi −  xise  agrupan
1 los datos observados. Las medid
ŷ 0 = b0 + b1x0 es = n [1 x 0 ]  −1 2  
n( x(ix− −x )x n) + n ( x 0x−i  x ) x1i  n   x 0  2
2 2

var( yˆ 0 ) = σ 22 [1i =n1 x 0i]  central de


 la muestra 21
sirven
( x 0 −tanto
x ) para resumir los resultados obser
=σ n x2i  x i2  2x=0 σ  + ,
 
( xi − x ) + n( x20 − −x1)  n (n − 1) s x2 2 
nn( xi realizar − x ) xi inferencias 2  acerca
1x  ( x10de− los 
x ) parámetros poblacionales corresp
==σσ 2 [1 σ x 0 ] i =n1 [1 x ]  
var( yˆ 0 ) =
2 i =1 2 x i2 1=−σ   +   ,
    i
2 
n ( xi − xn) 2 (xxi continuación

0 x
i − x ) − 
2i
2
n 
n  (xnlos
 xix 0se describen − 1) s x 
0  principales estimadores de la tenden

x0  x2i −  xi   1 
i =1 2
donde se observa que el leverage nσ 2 del valor
donde se observa que el leverage
=
n  ( x
(1xi del

−i xvalor
)
x2 )[1
2
+
0
x
n ( ]x
xvariable.
0  −
−  xi
0 x )
21 

n (xx0 0− x ) 2 
donde se observa que= el σ leverage del
2 i=
valor x0 = σ  + ,
n n
1 ( x2 0 − x2) 2  n (n − 1) s x2 
 ( xi n−hx0 )(=xi+1.2.1
2 −n+x( x) 0Media
− x ) aritmética
i = 1 n (n − 1) s x2 2 2  1 ( x 0 − x ) 2 
=σ 2 i =1
nh =
1 ( x 0 − x ) = σ  + ,
2 
es una medida estandarizada de su desviación 0 La +media
respecto aritmética, n denotada
2de la media (nmuestral
− 1) spor
x  x ,dese la
define como la suma de c
variable
n ( xi n− x ) (n − 1) s x 2
donde
explicativa. se observa que el leverage del
i =1 valor x 0
valores muestrales dividida por el número de observaciones realiz
60
donde se observa que el leverage del valor 1 x(0x 0 − x ) 2
h0 = por + n el tamaño muestral y por xi el valor observado
Pastor-Barriuso para el sujeto
n (n − 1) s x2 60R. 231
1la media( x − vendría x) 2 dada por
h0 = + 0
n (n − 1) s 2
Regresión lineal múltiple

11.9 REFERENCIAS

1. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, Fourth


Edition. Oxford: Blackwell Science, 2002.
2. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics.
Englewood Cliffs, NJ: Prentice Hall, 1977.
3. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury
Press, 2002.
4. Draper NR, Smith H. Applied Regression Analysis, Third Edition. New York: John Wiley
& Sons, 1998.
5. Kleinbaum DG, Kupper LL, Nizam A, Muller KE. Applied Regression Analysis and
Other Multivariable Methods, Fourth Edition. Belmont, CA: Duxbury Press, 2008.
6. McCullagh P, Nelder JA. Generalized Linear Models, Second Edition. London: Chapman
& Hall, 1989.
7. Peña D. Estadística: Modelos y Métodos, Volumen 2, Modelos Lineales y Series
Temporales. Madrid: Alianza Editorial, 1987.
8. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press,
2006.
9. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia:
Lippincott Williams & Wilkins, 2008.
10. Seber GAF, Lee AJ. Linear Regression Analysis, Second Edition. New York: John Wiley
& Sons, 2003.
11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State
University Press, 1989.
12. Stuart A, Ord JK, Arnold S. Kendall’s Advanced Theory of Statistics, Volume 2A, Classical
Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.
13. Weisberg S. Applied Linear Regression, Third Edition. New York: John Wiley & Sons,
2005.

232 Pastor-Barriuso R.
APÉNDICE

TABLAS ESTADÍSTICAS

Pastor-Barriuso R. 233
Tablas estadísticas

 n
Tabla
Tabla Probabilidades P(X = k) =  π k (1 − π ) n − k para
1  1Probabilidades para laladistribución
distribución binomial
binomial X con
X con
k 
parámetros n = 2, 3, ..., 20 y π = 0,05, 0,10, ..., 0,50.*
parámetros n = 2, 3, ..., 20 y π = 0,05, 0,10, ..., 0,50.*
π
n k 0,05 0,10 0,15 0,20 0,25 π 0,30 0,35 0,40 0,45 0,50
2 0 0,9025 0,8100 0,7225 0,6400 0,5625 0,4900 0,4225 0,3600 0,3025 0,2500
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
1 0,0950 0,1800 0,2550 0,3200 0,3750 0,4200 0,4550 0,4800 0,4950 0,5000
2 02 0,0025
0,9025 0,0100 0,0225 0,6400
0,8100 0,7225 0,0400 0,5625
0,0625 0,4900
0,0900 0,4225
0,1225 0,3600
0,1600 0,3025
0,2025 0,2500
0,2500
1 0,0950 0,1800 0,2550 0,3200 0,3750 0,4200 0,4550 0,4800 0,4950 0,5000
3 0 0,8574 0,7290 0,6141 0,5120 0,4219 0,3430 0,2746 0,2160 0,1664 0,1250
2 0,00250,0100 0,0225 0,0400 0,0625 0,0900 0,1225 0,1600 0,2025 0,2500
1 0,1354 0,2430 0,3251 0,3840 0,4219 0,4410 0,4436 0,4320 0,4084 0,3750
3 02 0,0071
0,8574 0,0270
0,7290 0,0574 0,0960 0,4219
0,6141 0,5120 0,1406 0,3430
0,1890 0,2746
0,2389 0,2160
0,2880 0,1664
0,3341 0,1250
0,3750
13 0,0001
0,1354 0,0010
0,2430 0,0034 0,3840
0,3251 0,0080 0,4219
0,0156 0,4410
0,0270 0,4436
0,0429 0,4320
0,0640 0,4084
0,0911 0,3750
0,1250
2 0,0071 0,0270 0,0574 0,0960 0,1406 0,1890 0,2389 0,2880 0,3341 0,3750
4
30 0,8145
0,00010,6561 0,5220 0,4096 0,3164 0,2401 0,1785 0,1296 0,0915 0,0625
0,0010 0,0034 0,0080 0,0156 0,0270 0,0429 0,0640 0,0911 0,1250
1 0,1715 0,2916 0,3685 0,4096 0,4219 0,4116 0,3845 0,3456 0,2995 0,2500
4 02 0,0135
0,8145 0,0486
0,6561 0,0975 0,1536 0,3164
0,5220 0,4096 0,2109 0,2401
0,2646 0,1785
0,3105 0,1296
0,3456 0,0915
0,3675 0,0625
0,3750
13 0,1715
0,0005 0,2916
0,0036 0,3685
0,0115 0,4096
0,0256 0,4219
0,0469 0,4116
0,0756 0,3845
0,1115 0,3456
0,1536 0,2995
0,2005 0,2500
0,2500
24 0,0135
0,0000 0,0486
0,0001 0,0975
0,0005 0,1536
0,0016 0,2109
0,0039 0,2646
0,0081 0,3105
0,0150 0,3456
0,0256 0,3675
0,0410 0,3750
0,0625
3 0,0005 0,0036 0,0115 0,0256 0,0469 0,0756 0,1115 0,1536 0,2005 0,2500
5 40 0,7738
0,00000,5905 0,4437 0,0016
0,0001 0,0005 0,3277 0,0039
0,2373 0,0081
0,1681 0,0150
0,1160 0,0256
0,0778 0,0410
0,0503 0,0625
0,0313
1 0,2036 0,3281 0,3915 0,4096 0,3955 0,3602 0,3124 0,2592 0,2059 0,1563
5 02 0,7738
0,0214 0,5905
0,4437
0,0729
0,1382 0,3277
0,2048 0,2373
0,2637 0,1681
0,3087 0,1160
0,3364 0,0778
0,3456 0,0503
0,3369 0,0313
0,3125
13 0,2036
0,0011 0,3281
0,3915
0,0081
0,0244 0,4096
0,0512 0,3955
0,0879 0,3602
0,1323 0,3124
0,1811 0,2592
0,2304 0,2059 0,1563
0,2757 0,3125
24 0,0214
0,0000 0,0729
0,1382
0,0005
0,0022 0,2048
0,0064 0,2637
0,0146 0,3087
0,0284 0,3364
0,0488 0,3456
0,0768 0,3369
0,1128 0,3125
0,1563
3 0,0011 0,0081
0,0244 0,0512 0,0879 0,1323 0,1811 0,2304 0,2757 0,3125
5 0,0000 0,0000
0,0001 0,0003 0,0010 0,0024 0,0053 0,0102 0,0185 0,0313
4 0,0000 0,0005 0,0022 0,0064 0,0146 0,0284 0,0488 0,0768 0,1128 0,1563
6 50 0,0000 0,5314
0,7351 0,0000 0,0001
0,3771 0,0003
0,2621 0,0010
0,1780 0,0024
0,1176 0,0053
0,0754 0,0102
0,0467 0,0185
0,0277 0,0313
0,0156
1 0,2321 0,3543 0,3993 0,3932 0,3560 0,3025 0,2437 0,1866 0,1359 0,0938
6 0 0,7351 0,5314
0,3771 0,2621 0,1780 0,1176 0,0754 0,0467 0,0277 0,0156
2 0,0305 0,0984
0,1762 0,2458 0,2966 0,3241 0,3280 0,3110 0,2780 0,2344
1 0,2321 0,3543
0,3993 0,3932 0,3560 0,3025 0,2437 0,1866 0,1359 0,0938
3 0,0021 0,0146
0,0415 0,0819 0,1318 0,1852 0,2355 0,2765 0,3032 0,3125
2 0,0305 0,0984
0,1762 0,2458 0,2966 0,3241 0,3280 0,3110 0,2780 0,2344
34 0,0001
0,0021 0,0012
0,0055
0,0146
0,0415 0,0154
0,0819 0,0330
0,1318 0,0595
0,1852 0,0951
0,2355 0,1382
0,2765 0,1861 0,3125
0,3032 0,2344
45 0,0000
0,0001 0,0001
0,0004
0,0012
0,0055 0,0015
0,0154 0,0044
0,0330 0,0102
0,0595 0,0205
0,0951 0,0369
0,1382 0,0609 0,2344
0,1861 0,0938
56 0,0000
0,0000 0,0001
0,0004
0,0000
0,0000 0,0015
0,0001 0,0044
0,0002 0,0102
0,0007 0,0205
0,0018 0,0369
0,0041 0,0609
0,0083 0,0938
0,0156
6 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0018 0,0041 0,0083 0,0156
7 0 0,6983 0,4783 0,3206 0,2097 0,1335 0,0824 0,0490 0,0280 0,0152 0,0078
7 01 0,2573
0,6983 0,3720
0,4783 0,3960
0,3206 0,3670
0,2097 0,3115
0,1335 0,2471
0,0824 0,1848
0,0490 0,1306
0,0280 0,0872 0,0078
0,0152 0,0547
12 0,2573
0,0406 0,3720
0,1240 0,3960
0,2097 0,3670
0,2753 0,3115
0,3115 0,2471
0,3177 0,1848
0,2985 0,1306
0,2613 0,0872
0,2140 0,0547
0,1641
23 0,0406
0,0036 0,1240
0,0230 0,2097
0,0617 0,2753
0,1147 0,3115
0,1730 0,3177
0,2269 0,2985
0,2679 0,2613
0,2903 0,2140
0,2918 0,1641
0,2734
34 0,0036
0,0002 0,0230
0,0026 0,0617
0,0109 0,1147
0,0287 0,1730
0,0577 0,2269
0,0972 0,2679
0,1442 0,2903
0,1935 0,2918 0,2734
0,2388 0,2734
45 0,0002
0,0000 0,0026
0,0002 0,0109
0,0012 0,0287
0,0043 0,0577
0,0115 0,0972
0,0250 0,1442
0,0466 0,1935
0,0774 0,2388
0,1172 0,2734
0,1641
5 0,0000 0,0002 0,0012 0,0043 0,0115 0,0250 0,0466 0,0774 0,1172 0,1641
6 0,0000 0,0000 0,0001 0,0004 0,0013 0,0036 0,0084 0,0172 0,0320 0,0547
6 0,0000 0,0000 0,0001 0,0004 0,0013 0,0036 0,0084 0,0172 0,0320 0,0547
77 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0001
0,0001 0,0002
0,0002 0,0006
0,0006 0,0016
0,0016 0,0037 0,0078
0,0037 0,0078

8 0 0,6634 0,4305 0,2725 0,1678 0,1001 0,0576 0,0319 0,0168 0,0084 0,0039
8 0 0,6634 0,4305 0,2725 0,1678 0,1001 0,0576 0,0319 0,0168 0,0084 0,0039
1 0,2793 0,3826 0,3847 0,3355 0,2670 0,1977 0,1373 0,0896 0,0548 0,0313
1 0,2793 0,3826 0,3847 0,3355 0,2670 0,1977 0,1373 0,0896 0,0548 0,0313
22 0,0515
0,0515 0,1488
0,1488 0,2376
0,2376 0,2936
0,2936 0,3115
0,3115 0,2965
0,2965 0,2587
0,2587 0,2090
0,2090 0,1569 0,1094
0,1569 0,1094
33 0,0054
0,0054 0,0331
0,0331 0,0839
0,0839 0,1468
0,1468 0,2076
0,2076 0,2541
0,2541 0,2786
0,2786 0,2787
0,2787 0,2568 0,2188
0,2568 0,2188
4 0,0004
0,0004 0,0046
0,0046 0,0185
0,0185 0,0459
0,0459 0,0865
0,0865 0,1361
0,1361 0,1875
0,1875 0,2322
0,2322 0,2627 0,2734
0,2627 0,2734
5 0,0000
0,0000 0,0004
0,0004 0,0026
0,0026 0,0092
0,0092 0,0231
0,0231 0,0467
0,0467 0,0808
0,0808 0,1239
0,1239 0,1719
0,1719 0,2188
0,2188
66 0,0000
0,0000 0,0000
0,0000 0,0002
0,0002 0,0011
0,0011 0,0038
0,0038 0,0100
0,0100 0,0217
0,0217 0,0413
0,0413 0,0703
0,0703 0,1094
0,1094
77 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0001
0,0001 0,0004
0,0004 0,0012
0,0012 0,0033
0,0033 0,0079
0,0079 0,0164 0,0313
0,0164 0,0313
8 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0017 0,0039

234 Pastor-Barriuso R.
2
Tablas estadísticas

Tabla 1 (Continuación)
π
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
9 0 0,6302 0,3874 0,2316 0,1342 0,0751 0,0404 0,0207 0,0101 0,0046 0,0020
1 0,2985 0,3874 0,3679 0,3020 0,2253 0,1556 0,1004 0,0605 0,0339 0,0176
2 0,0629 0,1722 0,2597 0,3020 0,3003 0,2668 0,2162 0,1612 0,1110 0,0703
3 0,0077 0,0446 0,1069 0,1762 0,2336 0,2668 0,2716 0,2508 0,2119 0,1641
4 0,0006 0,0074 0,0283 0,0661 0,1168 0,1715 0,2194 0,2508 0,2600 0,2461
5 0,0000 0,0008 0,0050 0,0165 0,0389 0,0735 0,1181 0,1672 0,2128 0,2461
6 0,0000 0,0001 0,0006 0,0028 0,0087 0,0210 0,0424 0,0743 0,1160 0,1641
7 0,0000 0,0000 0,0000 0,0003 0,0012 0,0039 0,0098 0,0212 0,0407 0,0703
8 0,0000 0,0000 0,0000 0,0000 0,0001 0,0004 0,0013 0,0035 0,0083 0,0176
9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0008 0,0020

10 0 0,5987 0,3487 0,1969 0,1074 0,0563 0,0282 0,0135 0,0060 0,0025 0,0010
1 0,3151 0,3874 0,3474 0,2684 0,1877 0,1211 0,0725 0,0403 0,0207 0,0098
2 0,0746 0,1937 0,2759 0,3020 0,2816 0,2335 0,1757 0,1209 0,0763 0,0439
3 0,0105 0,0574 0,1298 0,2013 0,2503 0,2668 0,2522 0,2150 0,1665 0,1172
4 0,0010 0,0112 0,0401 0,0881 0,1460 0,2001 0,2377 0,2508 0,2384 0,2051
5 0,0001 0,0015 0,0085 0,0264 0,0584 0,1029 0,1536 0,2007 0,2340 0,2461
6 0,0000 0,0001 0,0012 0,0055 0,0162 0,0368 0,0689 0,1115 0,1596 0,2051
7 0,0000 0,0000 0,0001 0,0008 0,0031 0,0090 0,0212 0,0425 0,0746 0,1172
8 0,0000 0,0000 0,0000 0,0001 0,0004 0,0014 0,0043 0,0106 0,0229 0,0439
9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0016 0,0042 0,0098
10 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010

11 0 0,5688 0,3138 0,1673 0,0859 0,0422 0,0198 0,0088 0,0036 0,0014 0,0005
1 0,3293 0,3835 0,3248 0,2362 0,1549 0,0932 0,0518 0,0266 0,0125 0,0054
2 0,0867 0,2131 0,2866 0,2953 0,2581 0,1998 0,1395 0,0887 0,0513 0,0269
3 0,0137 0,0710 0,1517 0,2215 0,2581 0,2568 0,2254 0,1774 0,1259 0,0806
4 0,0014 0,0158 0,0536 0,1107 0,1721 0,2201 0,2428 0,2365 0,2060 0,1611
5 0,0001 0,0025 0,0132 0,0388 0,0803 0,1321 0,1830 0,2207 0,2360 0,2256
6 0,0000 0,0003 0,0023 0,0097 0,0268 0,0566 0,0985 0,1471 0,1931 0,2256
7 0,0000 0,0000 0,0003 0,0017 0,0064 0,0173 0,0379 0,0701 0,1128 0,1611
8 0,0000 0,0000 0,0000 0,0002 0,0011 0,0037 0,0102 0,0234 0,0462 0,0806
9 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0018 0,0052 0,0126 0,0269
10 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0007 0,0021 0,0054
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0005

12 0 0,5404 0,2824 0,1422 0,0687 0,0317 0,0138 0,0057 0,0022 0,0008 0,0002
1 0,3413 0,3766 0,3012 0,2062 0,1267 0,0712 0,0368 0,0174 0,0075 0,0029
2 0,0988 0,2301 0,2924 0,2835 0,2323 0,1678 0,1088 0,0639 0,0339 0,0161
3 0,0173 0,0852 0,1720 0,2362 0,2581 0,2397 0,1954 0,1419 0,0923 0,0537
4 0,0021 0,0213 0,0683 0,1329 0,1936 0,2311 0,2367 0,2128 0,1700 0,1208
5 0,0002 0,0038 0,0193 0,0532 0,1032 0,1585 0,2039 0,2270 0,2225 0,1934
6 0,0000 0,0005 0,0040 0,0155 0,0401 0,0792 0,1281 0,1766 0,2124 0,2256
7 0,0000 0,0000 0,0006 0,0033 0,0115 0,0291 0,0591 0,1009 0,1489 0,1934
8 0,0000 0,0000 0,0001 0,0005 0,0024 0,0078 0,0199 0,0420 0,0762 0,1208
9 0,0000 0,0000 0,0000 0,0001 0,0004 0,0015 0,0048 0,0125 0,0277 0,0537
10 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0008 0,0025 0,0068 0,0161
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010 0,0029
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002

Pastor-Barriuso R. 235
Tablas estadísticas

Tabla 1 (Continuación)
π
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
13 0 0,5133 0,2542 0,1209 0,0550 0,0238 0,0097 0,0037 0,0013 0,0004 0,0001
1 0,3512 0,3672 0,2774 0,1787 0,1029 0,0540 0,0259 0,0113 0,0045 0,0016
2 0,1109 0,2448 0,2937 0,2680 0,2059 0,1388 0,0836 0,0453 0,0220 0,0095
3 0,0214 0,0997 0,1900 0,2457 0,2517 0,2181 0,1651 0,1107 0,0660 0,0349
4 0,0028 0,0277 0,0838 0,1535 0,2097 0,2337 0,2222 0,1845 0,1350 0,0873
5 0,0003 0,0055 0,0266 0,0691 0,1258 0,1803 0,2154 0,2214 0,1989 0,1571
6 0,0000 0,0008 0,0063 0,0230 0,0559 0,1030 0,1546 0,1968 0,2169 0,2095
7 0,0000 0,0001 0,0011 0,0058 0,0186 0,0442 0,0833 0,1312 0,1775 0,2095
8 0,0000 0,0000 0,0001 0,0011 0,0047 0,0142 0,0336 0,0656 0,1089 0,1571
9 0,0000 0,0000 0,0000 0,0001 0,0009 0,0034 0,0101 0,0243 0,0495 0,0873
10 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0022 0,0065 0,0162 0,0349
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0012 0,0036 0,0095
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0016
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001

14 0 0,4877 0,2288 0,1028 0,0440 0,0178 0,0068 0,0024 0,0008 0,0002 0,0001
1 0,3593 0,3559 0,2539 0,1539 0,0832 0,0407 0,0181 0,0073 0,0027 0,0009
2 0,1229 0,2570 0,2912 0,2501 0,1802 0,1134 0,0634 0,0317 0,0141 0,0056
3 0,0259 0,1142 0,2056 0,2501 0,2402 0,1943 0,1366 0,0845 0,0462 0,0222
4 0,0037 0,0349 0,0998 0,1720 0,2202 0,2290 0,2022 0,1549 0,1040 0,0611
5 0,0004 0,0078 0,0352 0,0860 0,1468 0,1963 0,2178 0,2066 0,1701 0,1222
6 0,0000 0,0013 0,0093 0,0322 0,0734 0,1262 0,1759 0,2066 0,2088 0,1833
7 0,0000 0,0002 0,0019 0,0092 0,0280 0,0618 0,1082 0,1574 0,1952 0,2095
8 0,0000 0,0000 0,0003 0,0020 0,0082 0,0232 0,0510 0,0918 0,1398 0,1833
9 0,0000 0,0000 0,0000 0,0003 0,0018 0,0066 0,0183 0,0408 0,0762 0,1222
10 0,0000 0,0000 0,0000 0,0000 0,0003 0,0014 0,0049 0,0136 0,0312 0,0611
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0010 0,0033 0,0093 0,0222
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0019 0,0056
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0009
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001

15 0 0,4633 0,2059 0,0874 0,0352 0,0134 0,0047 0,0016 0,0005 0,0001 0,0000
1 0,3658 0,3432 0,2312 0,1319 0,0668 0,0305 0,0126 0,0047 0,0016 0,0005
2 0,1348 0,2669 0,2856 0,2309 0,1559 0,0916 0,0476 0,0219 0,0090 0,0032
3 0,0307 0,1285 0,2184 0,2501 0,2252 0,1700 0,1110 0,0634 0,0318 0,0139
4 0,0049 0,0428 0,1156 0,1876 0,2252 0,2186 0,1792 0,1268 0,0780 0,0417
5 0,0006 0,0105 0,0449 0,1032 0,1651 0,2061 0,2123 0,1859 0,1404 0,0916
6 0,0000 0,0019 0,0132 0,0430 0,0917 0,1472 0,1906 0,2066 0,1914 0,1527
7 0,0000 0,0003 0,0030 0,0138 0,0393 0,0811 0,1319 0,1771 0,2013 0,1964
8 0,0000 0,0000 0,0005 0,0035 0,0131 0,0348 0,0710 0,1181 0,1647 0,1964
9 0,0000 0,0000 0,0001 0,0007 0,0034 0,0116 0,0298 0,0612 0,1048 0,1527
10 0,0000 0,0000 0,0000 0,0001 0,0007 0,0030 0,0096 0,0245 0,0515 0,0916
11 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0024 0,0074 0,0191 0,0417
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0004 0,0016 0,0052 0,0139
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010 0,0032
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

16 0 0,4401 0,1853 0,0743 0,0281 0,0100 0,0033 0,0010 0,0003 0,0001 0,0000
1 0,3706 0,3294 0,2097 0,1126 0,0535 0,0228 0,0087 0,0030 0,0009 0,0002
2 0,1463 0,2745 0,2775 0,2111 0,1336 0,0732 0,0353 0,0150 0,0056 0,0018
3 0,0359 0,1423 0,2285 0,2463 0,2079 0,1465 0,0888 0,0468 0,0215 0,0085

236 Pastor-Barriuso R.
Tablas estadísticas

Tabla 1 (Continuación)
π
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
4 0,0061 0,0514 0,1311 0,2001 0,2252 0,2040 0,1553 0,1014 0,0572 0,0278
5 0,0008 0,0137 0,0555 0,1201 0,1802 0,2099 0,2008 0,1623 0,1123 0,0667
6 0,0001 0,0028 0,0180 0,0550 0,1101 0,1649 0,1982 0,1983 0,1684 0,1222
7 0,0000 0,0004 0,0045 0,0197 0,0524 0,1010 0,1524 0,1889 0,1969 0,1746
8 0,0000 0,0001 0,0009 0,0055 0,0197 0,0487 0,0923 0,1417 0,1812 0,1964
9 0,0000 0,0000 0,0001 0,0012 0,0058 0,0185 0,0442 0,0840 0,1318 0,1746
10 0,0000 0,0000 0,0000 0,0002 0,0014 0,0056 0,0167 0,0392 0,0755 0,1222
11 0,0000 0,0000 0,0000 0,0000 0,0002 0,0013 0,0049 0,0142 0,0337 0,0667
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0011 0,0040 0,0115 0,0278
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0008 0,0029 0,0085
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0018
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

17 0 0,4181 0,1668 0,0631 0,0225 0,0075 0,0023 0,0007 0,0002 0,0000 0,0000
1 0,3741 0,3150 0,1893 0,0957 0,0426 0,0169 0,0060 0,0019 0,0005 0,0001
2 0,1575 0,2800 0,2673 0,1914 0,1136 0,0581 0,0260 0,0102 0,0035 0,0010
3 0,0415 0,1556 0,2359 0,2393 0,1893 0,1245 0,0701 0,0341 0,0144 0,0052
4 0,0076 0,0605 0,1457 0,2093 0,2209 0,1868 0,1320 0,0796 0,0411 0,0182
5 0,0010 0,0175 0,0668 0,1361 0,1914 0,2081 0,1849 0,1379 0,0875 0,0472
6 0,0001 0,0039 0,0236 0,0680 0,1276 0,1784 0,1991 0,1839 0,1432 0,0944
7 0,0000 0,0007 0,0065 0,0267 0,0668 0,1201 0,1685 0,1927 0,1841 0,1484
8 0,0000 0,0001 0,0014 0,0084 0,0279 0,0644 0,1134 0,1606 0,1883 0,1855
9 0,0000 0,0000 0,0003 0,0021 0,0093 0,0276 0,0611 0,1070 0,1540 0,1855
10 0,0000 0,0000 0,0000 0,0004 0,0025 0,0095 0,0263 0,0571 0,1008 0,1484
11 0,0000 0,0000 0,0000 0,0001 0,0005 0,0026 0,0090 0,0242 0,0525 0,0944
12 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0024 0,0081 0,0215 0,0472
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0021 0,0068 0,0182
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0004 0,0016 0,0052
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

18 0 0,3972 0,1501 0,0536 0,0180 0,0056 0,0016 0,0004 0,0001 0,0000 0,0000
1 0,3763 0,3002 0,1704 0,0811 0,0338 0,0126 0,0042 0,0012 0,0003 0,0001
2 0,1683 0,2835 0,2556 0,1723 0,0958 0,0458 0,0190 0,0069 0,0022 0,0006
3 0,0473 0,1680 0,2406 0,2297 0,1704 0,1046 0,0547 0,0246 0,0095 0,0031
4 0,0093 0,0700 0,1592 0,2153 0,2130 0,1681 0,1104 0,0614 0,0291 0,0117
5 0,0014 0,0218 0,0787 0,1507 0,1988 0,2017 0,1664 0,1146 0,0666 0,0327
6 0,0002 0,0052 0,0301 0,0816 0,1436 0,1873 0,1941 0,1655 0,1181 0,0708
7 0,0000 0,0010 0,0091 0,0350 0,0820 0,1376 0,1792 0,1892 0,1657 0,1214
8 0,0000 0,0002 0,0022 0,0120 0,0376 0,0811 0,1327 0,1734 0,1864 0,1669
9 0,0000 0,0000 0,0004 0,0033 0,0139 0,0386 0,0794 0,1284 0,1694 0,1855
10 0,0000 0,0000 0,0001 0,0008 0,0042 0,0149 0,0385 0,0771 0,1248 0,1669
11 0,0000 0,0000 0,0000 0,0001 0,0010 0,0046 0,0151 0,0374 0,0742 0,1214
12 0,0000 0,0000 0,0000 0,0000 0,0002 0,0012 0,0047 0,0145 0,0354 0,0708
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0012 0,0045 0,0134 0,0327
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0011 0,0039 0,0117
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0009 0,0031
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006

Pastor-Barriuso R. 237
Tablas estadísticas

Tabla 1 (Continuación)
π
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
18 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

19 0 0,3774 0,1351 0,0456 0,0144 0,0042 0,0011 0,0003 0,0001 0,0000 0,0000
1 0,3774 0,2852 0,1529 0,0685 0,0268 0,0093 0,0029 0,0008 0,0002 0,0000
2 0,1787 0,2852 0,2428 0,1540 0,0803 0,0358 0,0138 0,0046 0,0013 0,0003
3 0,0533 0,1796 0,2428 0,2182 0,1517 0,0869 0,0422 0,0175 0,0062 0,0018
4 0,0112 0,0798 0,1714 0,2182 0,2023 0,1491 0,0909 0,0467 0,0203 0,0074
5 0,0018 0,0266 0,0907 0,1636 0,2023 0,1916 0,1468 0,0933 0,0497 0,0222
6 0,0002 0,0069 0,0374 0,0955 0,1574 0,1916 0,1844 0,1451 0,0949 0,0518
7 0,0000 0,0014 0,0122 0,0443 0,0974 0,1525 0,1844 0,1797 0,1443 0,0961
8 0,0000 0,0002 0,0032 0,0166 0,0487 0,0981 0,1489 0,1797 0,1771 0,1442
9 0,0000 0,0000 0,0007 0,0051 0,0198 0,0514 0,0980 0,1464 0,1771 0,1762
10 0,0000 0,0000 0,0001 0,0013 0,0066 0,0220 0,0528 0,0976 0,1449 0,1762
11 0,0000 0,0000 0,0000 0,0003 0,0018 0,0077 0,0233 0,0532 0,0970 0,1442
12 0,0000 0,0000 0,0000 0,0000 0,0004 0,0022 0,0083 0,0237 0,0529 0,0961
13 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0024 0,0085 0,0233 0,0518
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0024 0,0082 0,0222
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0022 0,0074
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0018
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003
18 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
19 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

20 0 0,3585 0,1216 0,0388 0,0115 0,0032 0,0008 0,0002 0,0000 0,0000 0,0000
1 0,3774 0,2702 0,1368 0,0576 0,0211 0,0068 0,0020 0,0005 0,0001 0,0000
2 0,1887 0,2852 0,2293 0,1369 0,0669 0,0278 0,0100 0,0031 0,0008 0,0002
3 0,0596 0,1901 0,2428 0,2054 0,1339 0,0716 0,0323 0,0123 0,0040 0,0011
4 0,0133 0,0898 0,1821 0,2182 0,1897 0,1304 0,0738 0,0350 0,0139 0,0046
5 0,0022 0,0319 0,1028 0,1746 0,2023 0,1789 0,1272 0,0746 0,0365 0,0148
6 0,0003 0,0089 0,0454 0,1091 0,1686 0,1916 0,1712 0,1244 0,0746 0,0370
7 0,0000 0,0020 0,0160 0,0545 0,1124 0,1643 0,1844 0,1659 0,1221 0,0739
8 0,0000 0,0004 0,0046 0,0222 0,0609 0,1144 0,1614 0,1797 0,1623 0,1201
9 0,0000 0,0001 0,0011 0,0074 0,0271 0,0654 0,1158 0,1597 0,1771 0,1602
10 0,0000 0,0000 0,0002 0,0020 0,0099 0,0308 0,0686 0,1171 0,1593 0,1762
11 0,0000 0,0000 0,0000 0,0005 0,0030 0,0120 0,0336 0,0710 0,1185 0,1602
12 0,0000 0,0000 0,0000 0,0001 0,0008 0,0039 0,0136 0,0355 0,0727 0,1201
13 0,0000 0,0000 0,0000 0,0000 0,0002 0,0010 0,0045 0,0146 0,0366 0,0739
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0012 0,0049 0,0150 0,0370
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0013 0,0049 0,0148
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0013 0,0046
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0011
18 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002
19 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
20 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
* Para π = 0,55, 0,60, ..., 0,95, P(X = k) = P(Y = n – k) donde Y es la distribución binomial con parámetros n y
1 – π.

238 Pastor-Barriuso R.
Tablas estadísticas

e −μ μ k
TablaTabla
2  Probabilidades
2 Probabilidades P(X = k) = parala la
para distribución
distribución X con X con
de Poisson
de Poisson
k!
parámetro μ de 0,5 a 20 en intervalos de 0,5.
parámetro μ de 0,5 a 20 en intervalos de 0,5. μ
k 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0
0 0,6065 0,3679 0,2231 0,1353 0,0821 μ 0,0498 0,0302 0,0183 0,0111 0,0067
1 0,3033 0,3679 0,3347 0,2707 0,2052 0,1494 0,1057 0,0733 0,0500 0,0337
k 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0
2 0,0758 0,1839 0,2510 0,2707 0,2565 0,2240 0,1850 0,1465 0,1125 0,0842
30 0,0126
0,6065 0,0613
0,3679 0,1255
0,2231 0,1804
0,1353 0,2138
0,0821 0,2240
0,0498 0,2158
0,0302 0,1954
0,0183 0,1687
0,0111 0,1404
0,0067
41 0,3033 0,0153
0,0016 0,3679 0,0471
0,3347 0,0902
0,2707 0,2052
0,1336 0,1494
0,1680 0,1057
0,1888 0,0733
0,1954 0,0500
0,1898 0,0337
0,1755
52 0,0758 0,0031
0,0002 0,1839 0,0141
0,2510 0,0361
0,2707 0,2565
0,0668 0,2240
0,1008 0,1850
0,1322 0,1465
0,1563 0,1125
0,1708 0,0842
0,1755
63 0,0126
0,0000 0,0613
0,0005 0,1255
0,0035 0,1804
0,0120 0,2138
0,0278 0,2240
0,0504 0,2158
0,0771 0,1954
0,1042 0,1687
0,1281 0,1404
0,1462
4 0,0016 0,0153 0,0471 0,0902 0,1336 0,1680 0,1888 0,1954 0,1898 0,1755
7 0,0000 0,0001 0,0008 0,0034 0,0099 0,0216 0,0385 0,0595 0,0824 0,1044
5 0,0002 0,0031 0,0141 0,0361 0,0668 0,1008 0,1322 0,1563 0,1708 0,1755
86 0,0000
0,0000 0,0000
0,0005 0,0001
0,0035 0,0009
0,0120 0,0031
0,0278 0,0081
0,0504 0,0169
0,0771 0,0298
0,1042 0,0463
0,1281 0,0653
0,1462
97 0,0000
0,0000 0,0000
0,0001 0,0000
0,0008 0,0002
0,0034 0,0009
0,0099 0,0027
0,0216 0,0066
0,0385 0,0132
0,0595 0,0232
0,0824 0,0363
0,1044
108 0,0000
0,0000 0,0000
0,0000 0,0001
0,0000 0,0009
0,0000 0,0031
0,0002 0,0081
0,0008 0,0169
0,0023 0,0298
0,0053 0,0463
0,0104 0,0653
0,0181
119 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0002
0,0000 0,0009
0,0000 0,0027
0,0002 0,0066
0,0007 0,0132
0,0019 0,0232
0,0043 0,0363
0,0082
10
12 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0002
0,0000 0,0008
0,0001 0,0023
0,0002 0,0053
0,0006 0,0104
0,0016 0,0181
0,0034
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0007 0,0019 0,0043 0,0082
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0006 0,0013
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0006 0,0016 0,0034
14
13 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0001 0,0001
0,0002 0,0002
0,0006 0,0005
0,0013
15
14 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0001 0,0001
0,0002 0,0002
0,0005
15
16 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0001
0,0000 0,0002
0,0000
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
5,5 6,0 6,5 7,0 7,5 8,0 8,5 9,0 9,5 10,0
0
5,5
0,0041
6,0
0,0025
6,5
0,0015
7,0
0,0009
7,5
0,0006
8,0
0,0003
8,5
0,0002
9,0
0,0001
9,5
0,0001
10,0
0,0000
1 0,0225
0 0,0041 0,0149
0,0025 0,0098
0,0015 0,0064
0,0009 0,0041
0,0006 0,0027
0,0003 0,0017
0,0002 0,0011
0,0001 0,0007
0,0001 0,0005
0,0000
21 0,0618
0,0225 0,0446
0,0149 0,0318
0,0098 0,0223
0,0064 0,0156
0,0041 0,0107
0,0027 0,0074
0,0017 0,0050
0,0011 0,0034
0,0007 0,0023
0,0005
32 0,1133
0,0618 0,0892
0,0446 0,0688
0,0318 0,0521
0,0223 0,0389
0,0156 0,0286
0,0107 0,0208
0,0074 0,0150
0,0050 0,0107
0,0034 0,0076
0,0023
43 0,1133 0,1339
0,1558 0,0892 0,1118
0,0688 0,0912
0,0521 0,0389
0,0729 0,0286
0,0573 0,0208
0,0443 0,0150
0,0337 0,0107
0,0254 0,0076
0,0189
54 0,1558 0,1606
0,1714 0,1339 0,1454
0,1118 0,1277
0,0912 0,0729
0,1094 0,0573
0,0916 0,0443
0,0752 0,0337
0,0607 0,0254
0,0483 0,0189
0,0378
6
5 0,1714
0,1571
0,1606
0,1606
0,1454
0,1575
0,1277
0,1490
0,1094
0,1367
0,0916
0,1221
0,0752
0,1066
0,0607
0,0911
0,0483
0,0764
0,0378
0,0631
6 0,1571 0,1606 0,1575 0,1490 0,1367 0,1221 0,1066 0,0911 0,0764 0,0631
7 0,1234 0,1377 0,1462 0,1490 0,1465 0,1396 0,1294 0,1171 0,1037 0,0901
7 0,1234 0,1377 0,1462 0,1490 0,1465 0,1396 0,1294 0,1171 0,1037 0,0901
88 0,0849 0,1033 0,1188 0,1304
0,0849 0,1033 0,1188 0,1304 0,1373
0,1373 0,1396
0,1396 0,1375
0,1375 0,1318
0,1318 0,1232
0,1232 0,1126
0,1126
99 0,0519
0,0519 0,0688
0,0688 0,0858
0,0858 0,1014
0,1014 0,1144
0,1144 0,1241
0,1241 0,1299
0,1299 0,1318
0,1318 0,1300
0,1300 0,1251
0,1251
10
10 0,0285 0,0413
0,0285 0,0413 0,0558
0,0558 0,0710
0,0710 0,0858
0,0858 0,0993
0,0993 0,1104
0,1104 0,1186
0,1186 0,1235
0,1235 0,1251
0,1251
11
11 0,0143
0,0143 0,0225
0,0225 0,0330
0,0330 0,0452
0,0452 0,0585
0,0585 0,0722
0,0722 0,0853
0,0853 0,0970
0,0970 0,1067
0,1067 0,1137
0,1137
12
12 0,0065
0,0065 0,0113
0,0113 0,0179
0,0179 0,0263
0,0263 0,0366
0,0366 0,0481
0,0481 0,0604
0,0604 0,0728
0,0728 0,0844
0,0844 0,0948
0,0948
13 0,0028 0,0052 0,0089 0,0142 0,0211 0,0296 0,0395 0,0504 0,0617 0,0729
13 0,0028 0,0052 0,0089 0,0142 0,0211 0,0296 0,0395 0,0504 0,0617 0,0729
14 0,0011 0,0022 0,0041 0,0071 0,0113 0,0169 0,0240 0,0324 0,0419 0,0521
14
15 0,0011
0,0004 0,0022
0,0009 0,0041
0,0018 0,0071
0,0033 0,0113
0,0057 0,0169
0,0090 0,0240
0,0136 0,0324
0,0194 0,0419
0,0265 0,0521
0,0347
15
16 0,0004
0,0001 0,0003 0,0007 0,0033
0,0009 0,0018 0,0014 0,0057
0,0026 0,0090
0,0045 0,0136
0,0072 0,0194
0,0109 0,0265
0,0157 0,0347
0,0217
17
16 0,0000 0,0003
0,0001 0,0001 0,0007
0,0003 0,0014
0,0006 0,0012
0,0026 0,0021
0,0045 0,0036
0,0072 0,0058
0,0109 0,0088
0,0157 0,0128
0,0217
18
17 0,0000 0,0001
0,0000 0,0000 0,0003
0,0001 0,0006
0,0002 0,0005
0,0012 0,0009
0,0021 0,0017
0,0036 0,0029
0,0058 0,0046
0,0088 0,0071
0,0128
19
18 0,0000 0,0000
0,0000 0,0000 0,0001
0,0000 0,0002
0,0001 0,0002
0,0005 0,0004
0,0009 0,0008
0,0017 0,0014
0,0029 0,0023
0,0046 0,0037
0,0071
20 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0003 0,0006 0,0011 0,0019
19 0,0000 0,0000 0,0000 0,0001 0,0002 0,0004 0,0008 0,0014 0,0023 0,0037
21 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0003 0,0005 0,0009
20
22 0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000 0,0001
0,0000 0,0002
0,0000 0,0003
0,0001 0,0006
0,0001 0,0011
0,0002 0,0019
0,0004
21
23 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0001
0,0000 0,0001
0,0000 0,0003
0,0000 0,0005
0,0001 0,0009
0,0002
24
22 0,0000 0,0000
0,0000 0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0001 0,0000
0,0001 0,0000
0,0002 0,0001
0,0004
25
23 0,0000 0,0000
0,0000 0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0001 0,0000
0,0002
24 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
25 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

Pastor-Barriuso R.
7 239
Tablas estadísticas

Tabla 2 (Continuación)
μ
k 10,5 11,0 11,5 12,0 12,5 13,0 13,5 14,0 14,5 15,0
0 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
1 0,0003 0,0002 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
2 0,0015 0,0010 0,0007 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000
3 0,0053 0,0037 0,0026 0,0018 0,0012 0,0008 0,0006 0,0004 0,0003 0,0002
4 0,0139 0,0102 0,0074 0,0053 0,0038 0,0027 0,0019 0,0013 0,0009 0,0006
5 0,0293 0,0224 0,0170 0,0127 0,0095 0,0070 0,0051 0,0037 0,0027 0,0019
6 0,0513 0,0411 0,0325 0,0255 0,0197 0,0152 0,0115 0,0087 0,0065 0,0048
7 0,0769 0,0646 0,0535 0,0437 0,0353 0,0281 0,0222 0,0174 0,0135 0,0104
8 0,1009 0,0888 0,0769 0,0655 0,0551 0,0457 0,0375 0,0304 0,0244 0,0194
9 0,1177 0,1085 0,0982 0,0874 0,0765 0,0661 0,0563 0,0473 0,0394 0,0324
10 0,1236 0,1194 0,1129 0,1048 0,0956 0,0859 0,0760 0,0663 0,0571 0,0486
11 0,1180 0,1194 0,1181 0,1144 0,1087 0,1015 0,0932 0,0844 0,0753 0,0663
12 0,1032 0,1094 0,1131 0,1144 0,1132 0,1099 0,1049 0,0984 0,0910 0,0829
13 0,0834 0,0926 0,1001 0,1056 0,1089 0,1099 0,1089 0,1060 0,1014 0,0956
14 0,0625 0,0728 0,0822 0,0905 0,0972 0,1021 0,1050 0,1060 0,1051 0,1024
15 0,0438 0,0534 0,0630 0,0724 0,0810 0,0885 0,0945 0,0989 0,1016 0,1024
16 0,0287 0,0367 0,0453 0,0543 0,0633 0,0719 0,0798 0,0866 0,0920 0,0960
17 0,0177 0,0237 0,0306 0,0383 0,0465 0,0550 0,0633 0,0713 0,0785 0,0847
18 0,0104 0,0145 0,0196 0,0255 0,0323 0,0397 0,0475 0,0554 0,0632 0,0706
19 0,0057 0,0084 0,0119 0,0161 0,0213 0,0272 0,0337 0,0409 0,0483 0,0557
20 0,0030 0,0046 0,0068 0,0097 0,0133 0,0177 0,0228 0,0286 0,0350 0,0418
21 0,0015 0,0024 0,0037 0,0055 0,0079 0,0109 0,0146 0,0191 0,0242 0,0299
22 0,0007 0,0012 0,0020 0,0030 0,0045 0,0065 0,0090 0,0121 0,0159 0,0204
23 0,0003 0,0006 0,0010 0,0016 0,0024 0,0037 0,0053 0,0074 0,0100 0,0133
24 0,0001 0,0003 0,0005 0,0008 0,0013 0,0020 0,0030 0,0043 0,0061 0,0083
25 0,0001 0,0001 0,0002 0,0004 0,0006 0,0010 0,0016 0,0024 0,0035 0,0050
26 0,0000 0,0000 0,0001 0,0002 0,0003 0,0005 0,0008 0,0013 0,0020 0,0029
27 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0004 0,0007 0,0011 0,0016
28 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0003 0,0005 0,0009
29 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0003 0,0004
30 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002
31 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001
32 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
33 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

15,5 16,0 16,5 17,0 17,5 18,0 18,5 19,0 19,5 20,0
0 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
1 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
2 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
3 0,0001 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
4 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000
5 0,0014 0,0010 0,0007 0,0005 0,0003 0,0002 0,0002 0,0001 0,0001 0,0001
6 0,0036 0,0026 0,0019 0,0014 0,0010 0,0007 0,0005 0,0004 0,0003 0,0002
7 0,0079 0,0060 0,0045 0,0034 0,0025 0,0019 0,0014 0,0010 0,0007 0,0005
8 0,0153 0,0120 0,0093 0,0072 0,0055 0,0042 0,0031 0,0024 0,0018 0,0013
9 0,0264 0,0213 0,0171 0,0135 0,0107 0,0083 0,0065 0,0050 0,0038 0,0029
10 0,0409 0,0341 0,0281 0,0230 0,0186 0,0150 0,0120 0,0095 0,0074 0,0058
11 0,0577 0,0496 0,0422 0,0355 0,0297 0,0245 0,0201 0,0164 0,0132 0,0106
12 0,0745 0,0661 0,0580 0,0504 0,0432 0,0368 0,0310 0,0259 0,0214 0,0176

240 Pastor-Barriuso R.
Tablas estadísticas

Tabla 2 (Continuación)
μ
k 15,5 16,0 16,5 17,0 17,5 18,0 18,5 19,0 19,5 20,0
13 0,0888 0,0814 0,0736 0,0658 0,0582 0,0509 0,0441 0,0378 0,0322 0,0271
14 0,0983 0,0930 0,0868 0,0800 0,0728 0,0655 0,0583 0,0514 0,0448 0,0387
15 0,1016 0,0992 0,0955 0,0906 0,0849 0,0786 0,0719 0,0650 0,0582 0,0516
16 0,0984 0,0992 0,0985 0,0963 0,0929 0,0884 0,0831 0,0772 0,0710 0,0646
17 0,0897 0,0934 0,0956 0,0963 0,0956 0,0936 0,0904 0,0863 0,0814 0,0760
18 0,0773 0,0830 0,0876 0,0909 0,0929 0,0936 0,0930 0,0911 0,0882 0,0844
19 0,0630 0,0699 0,0761 0,0814 0,0856 0,0887 0,0905 0,0911 0,0905 0,0888
20 0,0489 0,0559 0,0628 0,0692 0,0749 0,0798 0,0837 0,0866 0,0883 0,0888
21 0,0361 0,0426 0,0493 0,0560 0,0624 0,0684 0,0738 0,0783 0,0820 0,0846
22 0,0254 0,0310 0,0370 0,0433 0,0496 0,0560 0,0620 0,0676 0,0727 0,0769
23 0,0171 0,0216 0,0265 0,0320 0,0378 0,0438 0,0499 0,0559 0,0616 0,0669
24 0,0111 0,0144 0,0182 0,0226 0,0275 0,0328 0,0385 0,0442 0,0500 0,0557
25 0,0069 0,0092 0,0120 0,0154 0,0193 0,0237 0,0285 0,0336 0,0390 0,0446
26 0,0041 0,0057 0,0076 0,0101 0,0130 0,0164 0,0202 0,0246 0,0293 0,0343
27 0,0023 0,0034 0,0047 0,0063 0,0084 0,0109 0,0139 0,0173 0,0211 0,0254
28 0,0013 0,0019 0,0028 0,0038 0,0053 0,0070 0,0092 0,0117 0,0147 0,0181
29 0,0007 0,0011 0,0016 0,0023 0,0032 0,0044 0,0058 0,0077 0,0099 0,0125
30 0,0004 0,0006 0,0009 0,0013 0,0019 0,0026 0,0036 0,0049 0,0064 0,0083
31 0,0002 0,0003 0,0005 0,0007 0,0010 0,0015 0,0022 0,0030 0,0040 0,0054
32 0,0001 0,0001 0,0002 0,0004 0,0006 0,0009 0,0012 0,0018 0,0025 0,0034
33 0,0000 0,0001 0,0001 0,0002 0,0003 0,0005 0,0007 0,0010 0,0015 0,0020
34 0,0000 0,0000 0,0001 0,0001 0,0002 0,0002 0,0004 0,0006 0,0008 0,0012
35 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0003 0,0005 0,0007
36 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0003 0,0004
37 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0001 0,0002
38 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001
39 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
40 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

Pastor-Barriuso R. 241
Tablas estadísticas

Tabla 3  Función de distribución normal estandarizada Φ(z) = P(Z ≤ z) para valores z


de 0 a 3,99 en intervalos de 0,01.*
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,00 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,10 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,20 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,30 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,40 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,50 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,60 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,70 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,80 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,90 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389

1,00 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,10 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,20 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,30 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,40 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,50 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,60 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,70 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,80 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,90 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767

2,00 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,10 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,20 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,30 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,40 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,50 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,60 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,70 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,80 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,90 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986

3,00 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,10 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,20 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,30 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,40 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,50 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,60 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,70 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,80 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,90 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
*  Para valores z negativos, Φ(z) = P(Z ≤ z) = P(Z ≥ – z) = 1 – P(Z ≤ – z) = 1 – Φ(– z).

242 Pastor-Barriuso R.
Tablas estadísticas

Tabla 4  Tabla de 1000 dígitos aleatorios.


1–5 6–10 11–15 16–20 21–25 26–30 31–35 36–40 41–45 46–50
1 28068 97497 24717 94945 71584 46975 80676 37564 85194 26562
2 77798 61589 36980 18859 78471 07605 41910 98737 97310 76984
3 33911 76198 97068 89844 07886 96716 18354 66921 85958 59963
4 45302 20953 65158 70637 42792 85207 32911 93401 90088 88104
5 31759 68429 61028 00200 02062 92555 82037 69832 74185 76010

6 81262 04831 92203 25447 65875 71086 12676 42753 79223 63135
7 27510 88900 41437 07409 87437 79309 83499 50721 40752 82801
8 84888 90443 23200 86340 07731 64171 76935 02931 66982 30842
9 92551 42420 29984 87522 19370 30357 33530 58101 59423 91700
10 48644 97274 33475 71381 27387 50740 03176 96910 94049 65052

11 71226 14223 27559 00943 46943 40680 96829 09265 94401 98461
12 59902 65129 28077 80487 79160 56426 47978 08556 20753 10206
13 24973 51863 86605 16991 58423 33341 70147 06005 81833 00868
14 27005 74018 05569 70982 80438 76901 80061 11144 91733 07228
15 25651 65765 98249 24231 32819 26680 17613 29917 47814 92539

16 34255 68331 66861 37285 34606 68167 55636 70101 51328 57528
17 74791 18769 92325 19959 90031 27008 25857 68520 41469 45100
18 63485 89564 62107 80055 08094 85412 33589 71900 05892 63260
19 99762 44503 91645 15352 25957 73662 71146 26161 98418 10195
20 85157 99008 25927 31118 65466 48706 20302 26133 04751 34701

Pastor-Barriuso R. 243
Tablas estadísticas

Tabla 5  Percentiles de la distribución t de Student para distintos grados de libertad.

Grados de Percentil
libertad 0,75 0,80 0,85 0,90 0,95 0,975 0,99 0,995 0,9995
1 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657 636,619
2 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925 31,599
3 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841 12,924
4 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604 8,610
5 0,727 0,920 1,156 1,476 2,015 2,571 3,365 4,032 6,869

6 0,718 0,906 1,134 1,440 1,943 2,447 3,143 3,707 5,959


7 0,711 0,896 1,119 1,415 1,895 2,365 2,998 3,499 5,408
8 0,706 0,889 1,108 1,397 1,860 2,306 2,896 3,355 5,041
9 0,703 0,883 1,100 1,383 1,833 2,262 2,821 3,250 4,781
10 0,700 0,879 1,093 1,372 1,812 2,228 2,764 3,169 4,587

11 0,697 0,876 1,088 1,363 1,796 2,201 2,718 3,106 4,437


12 0,695 0,873 1,083 1,356 1,782 2,179 2,681 3,055 4,318
13 0,694 0,870 1,079 1,350 1,771 2,160 2,650 3,012 4,221
14 0,692 0,868 1,076 1,345 1,761 2,145 2,624 2,977 4,140
15 0,691 0,866 1,074 1,341 1,753 2,131 2,602 2,947 4,073

16 0,690 0,865 1,071 1,337 1,746 2,120 2,583 2,921 4,015


17 0,689 0,863 1,069 1,333 1,740 2,110 2,567 2,898 3,965
18 0,688 0,862 1,067 1,330 1,734 2,101 2,552 2,878 3,922
19 0,688 0,861 1,066 1,328 1,729 2,093 2,539 2,861 3,883
20 0,687 0,860 1,064 1,325 1,725 2,086 2,528 2,845 3,850

21 0,686 0,859 1,063 1,323 1,721 2,080 2,518 2,831 3,819


22 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819 3,792
23 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807 3,768
24 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797 3,745
25 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787 3,725

26 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779 3,707


27 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771 3,690
28 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763 3,674
29 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756 3,659
30 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750 3,646

40 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704 3,551


60 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660 3,460
120 0,677 0,845 1,041 1,289 1,658 1,980 2,358 2,617 3,373
∞ 0,674 0,842 1,036 1,282 1,645 1,960 2,326 2,576 3,291

244 Pastor-Barriuso R.
Tablas estadísticas

Tabla 6  Percentiles de la distribución chi-cuadrado para distintos grados de libertad d.

Percentil
d 0,005 0,01 0,025 0,05 0,10 0,25 0,50 0,75 0,90 0,95 0,975 0,99 0,995
1 0,000 0,0002 0,001 0,004 0,02 0,10 0,45 1,32 2,71 3,84 5,02 6,63 7,88
2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 7,38 9,21 10,60
3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,81 9,35 11,34 12,84
4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 11,14 13,28 14,86
5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 12,83 15,09 16,75

6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 14,45 16,81 18,55
7 0,99 1,24 1,69 2,17 2,83 4,25 6,35 9,04 12,02 14,07 16,01 18,48 20,28
8 1,34 1,65 2,18 2,73 3,49 5,07 7,34 10,22 13,36 15,51 17,53 20,09 21,95
9 1,73 2,09 2,70 3,33 4,17 5,90 8,34 11,39 14,68 16,92 19,02 21,67 23,59
10 2,16 2,56 3,25 3,94 4,87 6,74 9,34 12,55 15,99 18,31 20,48 23,21 25,19

11 2,60 3,05 3,82 4,57 5,58 7,58 10,34 13,70 17,28 19,68 21,92 24,72 26,76
12 3,07 3,57 4,40 5,23 6,30 8,44 11,34 14,85 18,55 21,03 23,34 26,22 28,30
13 3,57 4,11 5,01 5,89 7,04 9,30 12,34 15,98 19,81 22,36 24,74 27,69 29,82
14 4,07 4,66 5,63 6,57 7,79 10,17 13,34 17,12 21,06 23,68 26,12 29,14 31,32
15 4,60 5,23 6,26 7,26 8,55 11,04 14,34 18,25 22,31 25,00 27,49 30,58 32,80

16 5,14 5,81 6,91 7,96 9,31 11,91 15,34 19,37 23,54 26,30 28,85 32,00 34,27
17 5,70 6,41 7,56 8,67 10,09 12,79 16,34 20,49 24,77 27,59 30,19 33,41 35,72
18 6,26 7,01 8,23 9,39 10,86 13,68 17,34 21,60 25,99 28,87 31,53 34,81 37,16
19 6,84 7,63 8,91 10,12 11,65 14,56 18,34 22,72 27,20 30,14 32,85 36,19 38,58
20 7,43 8,26 9,59 10,85 12,44 15,45 19,34 23,83 28,41 31,41 34,17 37,57 40,00

21 8,03 8,90 10,28 11,59 13,24 16,34 20,34 24,93 29,62 32,67 35,48 38,93 41,40
22 8,64 9,54 10,98 12,34 14,04 17,24 21,34 26,04 30,81 33,92 36,78 40,29 42,80
23 9,26 10,20 11,69 13,09 14,85 18,14 22,34 27,14 32,01 35,17 38,08 41,64 44,18
24 9,89 10,86 12,40 13,85 15,66 19,04 23,34 28,24 33,20 36,42 39,36 42,98 45,56
25 10,52 11,52 13,12 14,61 16,47 19,94 24,34 29,34 34,38 37,65 40,65 44,31 46,93

26 11,16 12,20 13,84 15,38 17,29 20,84 25,34 30,43 35,56 38,89 41,92 45,64 48,29
27 11,81 12,88 14,57 16,15 18,11 21,75 26,34 31,53 36,74 40,11 43,19 46,96 49,64
28 12,46 13,56 15,31 16,93 18,94 22,66 27,34 32,62 37,92 41,34 44,46 48,28 50,99
29 13,12 14,26 16,05 17,71 19,77 23,57 28,34 33,71 39,09 42,56 45,72 49,59 52,34
30 13,79 14,95 16,79 18,49 20,60 24,48 29,34 34,80 40,26 43,77 46,98 50,89 53,67

35 17,19 18,51 20,57 22,47 24,80 29,05 34,34 40,22 46,06 49,80 53,20 57,34 60,27
40 20,71 22,16 24,43 26,51 29,05 33,66 39,34 45,62 51,81 55,76 59,34 63,69 66,77
45 24,31 25,90 28,37 30,61 33,35 38,29 44,34 50,98 57,51 61,66 65,41 69,96 73,17
50 27,99 29,71 32,36 34,76 37,69 42,94 49,33 56,33 63,17 67,50 71,42 76,15 79,49

60 35,53 37,48 40,48 43,19 46,46 52,29 59,33 66,98 74,40 79,08 83,30 88,38 91,95
70 43,28 45,44 48,76 51,74 55,33 61,70 69,33 77,58 85,53 90,53 95,02 100,43 104,21
80 51,17 53,54 57,15 60,39 64,28 71,14 79,33 88,13 96,58 101,88 106,63 112,33 116,32
90 59,20 61,75 65,65 69,13 73,29 80,62 89,33 98,65 107,57 113,15 118,14 124,12 128,30
100 67,33 70,06 74,22 77,93 82,36 90,13 99,33 109,14 118,50 124,34 129,56 135,81 140,17

Pastor-Barriuso R. 245
Tablas estadísticas

Tabla 7  Percentiles de la distribución F de Fisher para distintos grados de libertad del


numerador d1 y del denominador d2.*
d1
d2 Percentil 1 2 3 4 5 6 8 10 15 20 30 ∞
1 0,90 39,86 49,50 53,59 55,83 57,24 58,20 59,44 60,19 61,22 61,74 62,26 63,33
0,95 161,45 199,50 215,71 224,58 230,16 233,99 238,88 241,88 245,95 248,01 250,10 254,31
0,975 647,79 799,50 864,16 899,58 921,85 937,11 956,66 968,63 984,87 993,10 1001,4 1018,3
0,99 4052,2 4999,5 5403,4 5624,6 5763,7 5859,0 5981,1 6055,9 6157,3 6208,7 6260,7 6365,9
0,995 16211 20000 21615 22500 23056 23437 23925 24224 24630 24836 25044 25464
2 0,90 8,53 9,00 9,16 9,24 9,29 9,33 9,37 9,39 9,42 9,44 9,46 9,49
0,95 18,51 19,00 19,16 19,25 19,30 19,33 19,37 19,40 19,43 19,45 19,46 19,50
0,975 38,51 39,00 39,17 39,25 39,30 39,33 39,37 39,40 39,43 39,45 39,46 39,50
0,99 98,50 99,00 99,17 99,25 99,30 99,33 99,37 99,40 99,43 99,45 99,47 99,50
0,995 198,50 199,00 199,17 199,25 199,30 199,33 199,37 199,40 199,43 199,45 199,47 199,50
3 0,90 5,54 5,46 5,39 5,34 5,31 5,28 5,25 5,23 5,20 5,18 5,17 5,13
0,95 10,13 9,55 9,28 9,12 9,01 8,94 8,85 8,79 8,70 8,66 8,62 8,53
0,975 17,44 16,04 15,44 15,10 14,88 14,73 14,54 14,42 14,25 14,17 14,08 13,90
0,99 34,12 30,82 29,46 28,71 28,24 27,91 27,49 27,23 26,87 26,69 26,50 26,13
0,995 55,55 49,80 47,47 46,19 45,39 44,84 44,13 43,69 43,08 42,78 42,47 41,83
4 0,90 4,54 4,32 4,19 4,11 4,05 4,01 3,95 3,92 3,87 3,84 3,82 3,76
0,95 7,71 6,94 6,59 6,39 6,26 6,16 6,04 5,96 5,86 5,80 5,75 5,63
0,975 12,22 10,65 9,98 9,60 9,36 9,20 8,98 8,84 8,66 8,56 8,46 8,26
0,99 21,20 18,00 16,69 15,98 15,52 15,21 14,80 14,55 14,20 14,02 13,84 13,46
0,995 31,33 26,28 24,26 23,15 22,46 21,97 21,35 20,97 20,44 20,17 19,89 19,32
5 0,90 4,06 3,78 3,62 3,52 3,45 3,40 3,34 3,30 3,24 3,21 3,17 3,10
0,95 6,61 5,79 5,41 5,19 5,05 4,95 4,82 4,74 4,62 4,56 4,50 4,36
0,975 10,01 8,43 7,76 7,39 7,15 6,98 6,76 6,62 6,43 6,33 6,23 6,02
0,99 16,26 13,27 12,06 11,39 10,97 10,67 10,29 10,05 9,72 9,55 9,38 9,02
0,995 22,78 18,31 16,53 15,56 14,94 14,51 13,96 13,62 13,15 12,90 12,66 12,14
6 0,90 3,78 3,46 3,29 3,18 3,11 3,05 2,98 2,94 2,87 2,84 2,80 2,72
0,95 5,99 5,14 4,76 4,53 4,39 4,28 4,15 4,06 3,94 3,87 3,81 3,67
0,975 8,81 7,26 6,60 6,23 5,99 5,82 5,60 5,46 5,27 5,17 5,07 4,85
0,99 13,75 10,92 9,78 9,15 8,75 8,47 8,10 7,87 7,56 7,40 7,23 6,88
0,995 18,63 14,54 12,92 12,03 11,46 11,07 10,57 10,25 9,81 9,59 9,36 8,88
7 0,90 3,59 3,26 3,07 2,96 2,88 2,83 2,75 2,70 2,63 2,59 2,56 2,47
0,95 5,59 4,74 4,35 4,12 3,97 3,87 3,73 3,64 3,51 3,44 3,38 3,23
0,975 8,07 6,54 5,89 5,52 5,29 5,12 4,90 4,76 4,57 4,47 4,36 4,14
0,99 12,25 9,55 8,45 7,85 7,46 7,19 6,84 6,62 6,31 6,16 5,99 5,65
0,995 16,24 12,40 10,88 10,05 9,52 9,16 8,68 8,38 7,97 7,75 7,53 7,08
8 0,90 3,46 3,11 2,92 2,81 2,73 2,67 2,59 2,54 2,46 2,42 2,38 2,29
0,95 5,32 4,46 4,07 3,84 3,69 3,58 3,44 3,35 3,22 3,15 3,08 2,93
0,975 7,57 6,06 5,42 5,05 4,82 4,65 4,43 4,30 4,10 4,00 3,89 3,67
0,99 11,26 8,65 7,59 7,01 6,63 6,37 6,03 5,81 5,52 5,36 5,20 4,86
0,995 14,69 11,04 9,60 8,81 8,30 7,95 7,50 7,21 6,81 6,61 6,40 5,95
9 0,90 3,36 3,01 2,81 2,69 2,61 2,55 2,47 2,42 2,34 2,30 2,25 2,16
0,95 5,12 4,26 3,86 3,63 3,48 3,37 3,23 3,14 3,01 2,94 2,86 2,71
0,975 7,21 5,71 5,08 4,72 4,48 4,32 4,10 3,96 3,77 3,67 3,56 3,33
0,99 10,56 8,02 6,99 6,42 6,06 5,80 5,47 5,26 4,96 4,81 4,65 4,31
0,995 13,61 10,11 8,72 7,96 7,47 7,13 6,69 6,42 6,03 5,83 5,62 5,19
10 0,90 3,29 2,92 2,73 2,61 2,52 2,46 2,38 2,32 2,24 2,20 2,16 2,06
0,95 4,96 4,10 3,71 3,48 3,33 3,22 3,07 2,98 2,85 2,77 2,70 2,54
0,975 6,94 5,46 4,83 4,47 4,24 4,07 3,85 3,72 3,52 3,42 3,31 3,08
0,99 10,04 7,56 6,55 5,99 5,64 5,39 5,06 4,85 4,56 4,41 4,25 3,91
0,995 12,83 9,43 8,08 7,34 6,87 6,54 6,12 5,85 5,47 5,27 5,07 4,64

12 0,90 3,18 2,81 2,61 2,48 2,39 2,33 2,24 2,19 2,10 2,06 2,01 1,90
0,95 4,75 3,89 3,49 3,26 3,11 3,00 2,85 2,75 2,62 2,54 2,47 2,30
0,975 6,55 5,10 4,47 4,12 3,89 3,73 3,51 3,37 3,18 3,07 2,96 2,72

246 Pastor-Barriuso R.
Tablas estadísticas

Tabla 7 (Continuación)
d1
d2 Percentil 1 2 3 4 5 6 8 10 15 20 30 ∞
0,99 9,33 6,93 5,95 5,41 5,06 4,82 4,50 4,30 4,01 3,86 3,70 3,36
0,995 11,75 8,51 7,23 6,52 6,07 5,76 5,35 5,09 4,72 4,53 4,33 3,90
14 0,90 3,10 2,73 2,52 2,39 2,31 2,24 2,15 2,10 2,01 1,96 1,91 1,80
0,95 4,60 3,74 3,34 3,11 2,96 2,85 2,70 2,60 2,46 2,39 2,31 2,13
0,975 6,30 4,86 4,24 3,89 3,66 3,50 3,29 3,15 2,95 2,84 2,73 2,49
0,99 8,86 6,51 5,56 5,04 4,69 4,46 4,14 3,94 3,66 3,51 3,35 3,00
0,995 11,06 7,92 6,68 6,00 5,56 5,26 4,86 4,60 4,25 4,06 3,86 3,44
16 0,90 3,05 2,67 2,46 2,33 2,24 2,18 2,09 2,03 1,94 1,89 1,84 1,72
0,95 4,49 3,63 3,24 3,01 2,85 2,74 2,59 2,49 2,35 2,28 2,19 2,01
0,975 6,12 4,69 4,08 3,73 3,50 3,34 3,12 2,99 2,79 2,68 2,57 2,32
0,99 8,53 6,23 5,29 4,77 4,44 4,20 3,89 3,69 3,41 3,26 3,10 2,75
0,995 10,58 7,51 6,30 5,64 5,21 4,91 4,52 4,27 3,92 3,73 3,54 3,11
18 0,90 3,01 2,62 2,42 2,29 2,20 2,13 2,04 1,98 1,89 1,84 1,78 1,66
0,95 4,41 3,55 3,16 2,93 2,77 2,66 2,51 2,41 2,27 2,19 2,11 1,92
0,975 5,98 4,56 3,95 3,61 3,38 3,22 3,01 2,87 2,67 2,56 2,44 2,19
0,99 8,29 6,01 5,09 4,58 4,25 4,01 3,71 3,51 3,23 3,08 2,92 2,57
0,995 10,22 7,21 6,03 5,37 4,96 4,66 4,28 4,03 3,68 3,50 3,30 2,87
20 0,90 2,97 2,59 2,38 2,25 2,16 2,09 2,00 1,94 1,84 1,79 1,74 1,61
0,95 4,35 3,49 3,10 2,87 2,71 2,60 2,45 2,35 2,20 2,12 2,04 1,84
0,975 5,87 4,46 3,86 3,51 3,29 3,13 2,91 2,77 2,57 2,46 2,35 2,09
0,99 8,10 5,85 4,94 4,43 4,10 3,87 3,56 3,37 3,09 2,94 2,78 2,42
0,995 9,94 6,99 5,82 5,17 4,76 4,47 4,09 3,85 3,50 3,32 3,12 2,69
25 0,90 2,92 2,53 2,32 2,18 2,09 2,02 1,93 1,87 1,77 1,72 1,66 1,52
0,95 4,24 3,39 2,99 2,76 2,60 2,49 2,34 2,24 2,09 2,01 1,92 1,71
0,975 5,69 4,29 3,69 3,35 3,13 2,97 2,75 2,61 2,41 2,30 2,18 1,91
0,99 7,77 5,57 4,68 4,18 3,85 3,63 3,32 3,13 2,85 2,70 2,54 2,17
0,995 9,48 6,60 5,46 4,84 4,43 4,15 3,78 3,54 3,20 3,01 2,82 2,38
30 0,90 2,88 2,49 2,28 2,14 2,05 1,98 1,88 1,82 1,72 1,67 1,61 1,46
0,95 4,17 3,32 2,92 2,69 2,53 2,42 2,27 2,16 2,01 1,93 1,84 1,62
0,975 5,57 4,18 3,59 3,25 3,03 2,87 2,65 2,51 2,31 2,20 2,07 1,79
0,99 7,56 5,39 4,51 4,02 3,70 3,47 3,17 2,98 2,70 2,55 2,39 2,01
0,995 9,18 6,35 5,24 4,62 4,23 3,95 3,58 3,34 3,01 2,82 2,63 2,18
35 0,90 2,85 2,46 2,25 2,11 2,02 1,95 1,85 1,79 1,69 1,63 1,57 1,41
0,95 4,12 3,27 2,87 2,64 2,49 2,37 2,22 2,11 1,96 1,88 1,79 1,56
0,975 5,48 4,11 3,52 3,18 2,96 2,80 2,58 2,44 2,23 2,12 2,00 1,70
0,99 7,42 5,27 4,40 3,91 3,59 3,37 3,07 2,88 2,60 2,44 2,28 1,89
0,995 8,98 6,19 5,09 4,48 4,09 3,81 3,45 3,21 2,88 2,69 2,50 2,04
40 0,90 2,84 2,44 2,23 2,09 2,00 1,93 1,83 1,76 1,66 1,61 1,54 1,38
0,95 4,08 3,23 2,84 2,61 2,45 2,34 2,18 2,08 1,92 1,84 1,74 1,51
0,975 5,42 4,05 3,46 3,13 2,90 2,74 2,53 2,39 2,18 2,07 1,94 1,64
0,99 7,31 5,18 4,31 3,83 3,51 3,29 2,99 2,80 2,52 2,37 2,20 1,80
0,995 8,83 6,07 4,98 4,37 3,99 3,71 3,35 3,12 2,78 2,60 2,40 1,93
60 0,90 2,79 2,39 2,18 2,04 1,95 1,87 1,77 1,71 1,60 1,54 1,48 1,29
0,95 4,00 3,15 2,76 2,53 2,37 2,25 2,10 1,99 1,84 1,75 1,65 1,39
0,975 5,29 3,93 3,34 3,01 2,79 2,63 2,41 2,27 2,06 1,94 1,82 1,48
0,99 7,08 4,98 4,13 3,65 3,34 3,12 2,82 2,63 2,35 2,20 2,03 1,60
0,995 8,49 5,79 4,73 4,14 3,76 3,49 3,13 2,90 2,57 2,39 2,19 1,69

120 0,90 2,75 2,35 2,13 1,99 1,90 1,82 1,72 1,65 1,55 1,48 1,41 1,19
0,95 3,92 3,07 2,68 2,45 2,29 2,18 2,02 1,91 1,75 1,66 1,55 1,25
0,975 5,15 3,80 3,23 2,89 2,67 2,52 2,30 2,16 1,94 1,82 1,69 1,31
0,99 6,85 4,79 3,95 3,48 3,17 2,96 2,66 2,47 2,19 2,03 1,86 1,38
0,995 8,18 5,54 4,50 3,92 3,55 3,28 2,93 2,71 2,37 2,19 1,98 1,43

Pastor-Barriuso R. 247
Tablas estadísticas

Tabla 7 (Continuación)
d1
d2 Percentil 1 2 3 4 5 6 8 10 15 20 30 ∞
∞ 0,90 2,71 2,30 2,08 1,94 1,85 1,77 1,67 1,60 1,49 1,42 1,34 1,00
0,95 3,84 3,00 2,60 2,37 2,21 2,10 1,94 1,83 1,67 1,57 1,46 1,00
0,975 5,02 3,69 3,12 2,79 2,57 2,41 2,19 2,05 1,83 1,71 1,57 1,00
0,99 6,63 4,61 3,78 3,32 3,02 2,80 2,51 2,32 2,04 1,88 1,70 1,00
0,995 7,88 5,30 4,28 3,72 3,35 3,09 2,74 2,52 2,19 2,00 1,79 1,00

*  Para percentiles inferiores α = 0,005, 0,01, 0,025, 0,05 y 0,10, Fd1,d2,α = 1/ Fd2,d1,1–α.

248 Pastor-Barriuso R.
Tablas estadísticas

Tabla 8 Percentiles de

n1

Tabla 8  Percentiles de la distribución bajo H0 de la suma de rangos de Wilcoxon U =  ri en


en la muestra de
i =1
la muestra de menor tamaño n1 ≤ n2 para n1 = 3, 4, ..., 8.*
P
Percentil 0,95 Percentil 0,975
n1 n1
n2 3 4 5 6 7 8 3 4 5 6 7 n2 8 3 4
3 14 15
4 17 24 18 25 3 14
4 17 24
5 19 27 35 20 28 37
6 21 30 39 49 22 31 41 51 5 19 27
7 24 33 43 54 65 25 34 44 56 68 6 21 30
7 24 33
8 26 36 46 58 70 84 27 37 48 60 73 86
8 26 36
9 28 39 50 62 75 89 30 41 52 64 78 9 92 28 39
10 31 42 53 66 80 95 32 44 56 69 83 98
10 31 42
11 33 45 57 70 85 100 35 47 60 73 88 11104 33 45
12 36 48 61 75 90 105 37 50 63 78 93 12109 36 48
13 38 51 64 79 94 111 40 53 67 82 98 13115 38 51
14 40 54 68 83 99 116 42 56 71 87 103 14121 40 54

15 43 57 71 87 104 122 45 59 75 91 108 15126 43 57


16 45 59 75 91 109 127 47 62 79 95 113 16132 45 59
17 47 62 79 96 113 132 50 66 82 100 118 17137 47 62
18 50 65 82 100 118 138 52 69 86 104 123 18143 50 65
19 52 68
19 52 68 86 104 123 143 55 72 90 109 128 149
20 54 71 89 108 128 148 57 75 94 113 133 20154 54 71
21 57 74
21 57 74 93 112 133 154 60 78 97 117 138 160
22 59 77
22 59 77 96 116 137 159 62 81 101 122 143 23166 61 80 1
23 61 80 100 121 142 165 65 84 105 126 148 24171 64 83 1
24 64 83 104 125 147 170 67 88 109 131 153 177
25 66 86 1
25 66 86 107 129 152 175 70 91 112 135 158 26182 68 89 1
26 68 89 111 133 156 181 72 94 116 139 163 27188 71 92 1
27 71 92 114 137 161 186 75 97 120 144 168 28194 73 95 1
28 73 95 118 142 166 191 77 100 124 148 173 29199 75 98 1
29 75 98 121 146 171 197 79 103 127 152 178 205
30 78 101 1
30 78 101 125 150 176 202 82 106 131 157 183 31210 80 104 1
31 80 104 129 154 180 207 84 109 135 161 188 32216 82 107 1
33 85 110 1
32 82 107 132 158 185 213 87 113 139 166 193 222
34 87 113 1
33 85 110 136 162 190 218 89 116 142 170 198 227
34 87 113 139 167 195 223 92 119 146 174 203 35233 89 116 1
36 92 119 1
35 89 116 143 171 199 229 94 122 150 179 208 37238 94 122 1
36 92 119 146 175 204 234 97 125 154 183 213 38244 96 125 1
37 94 122 150 179 209 240 99 128 158 187 218 39250 99 127 1
38 96 125 154 183 214 245 102 131 161 192 223 255
39 99 127 157 187 218 250 104 134 165 196 228 40261 101 130 1
41 103 133 1
40 101 130 161 192 223 256 107 138 169 201 233 42266 106 136 1
41 103 133 164 196 228 261 109 141 173 205 238 43272 108 139 1
42 106 136 168 200 233 266 112 144 176 209 243 44278 110 142 1
43 108 139 171 204 237 272 114 147 180 214 248 45
283 113 145 1
44 110 142 175 208 242 277 117 150 184 218 253 46289 115 148 1
47 117 151 1
45 113 145 179 212 247 282 119 153 188 223 258 48
294 119 154 1
46 115 148 182 217 252 288 121 156 191 227 263 49300 122 157 1
47 117 151 186 221 257 293 124 159 195 231 268 306
48 119 154 189 225 261 298 126 162 199 236 273 311
49 122 157 193 229 266 304 129 166 203 240 278 317

Pastor-Barriuso R. 249
Tablas estadísticas

Tabla 8 (Continuación)
Percentil 0,99 Percentil 0,995
n1 n1
n2 3 4 5 6 7 8 3 4 5 6 7 8
3 15 15
4 18 26 18 26
5 21 29 38 21 30 39
6 24 32 42 53 24 33 43 54
7 26 36 46 58 70 27 37 48 59 72
8 29 39 50 62 76 90 30 40 52 64 77 92
9 31 42 54 67 81 96 32 44 56 69 83 98
10 34 46 58 72 86 102 35 47 60 74 88 104
11 37 49 62 77 92 108 38 51 64 79 94 110
12 39 52 66 81 97 114 40 54 68 83 99 116
13 42 56 70 86 102 119 43 58 72 88 105 122
14 45 59 74 91 108 125 46 61 77 93 110 129
15 47 62 78 95 113 131 48 64 81 98 116 135
16 50 66 82 100 118 137 51 68 85 103 121 141
17 52 69 86 104 123 143 54 71 89 107 127 147
18 55 72 90 109 129 149 57 75 93 112 132 153
19 58 76 94 114 134 155 59 78 97 117 138 159
20 60 79 98 118 139 161 62 81 101 122 143 165
21 63 82 102 123 144 167 65 85 105 127 149 171
22 66 86 106 128 150 173 67 88 110 131 154 177
23 68 89 110 132 155 179 70 92 114 136 159 184
24 71 92 114 137 160 185 73 95 118 141 165 190
25 73 96 118 141 166 190 75 99 122 146 170 196
26 76 99 122 146 171 196 78 102 126 151 176 202
27 79 102 126 151 176 202 81 105 130 155 181 208
28 81 105 130 155 181 208 84 109 134 160 187 214
29 84 109 134 160 187 214 86 112 138 165 192 220
30 86 112 138 165 192 220 89 116 142 170 197 226
31 89 115 142 169 197 226 92 119 147 174 203 232
32 92 119 146 174 202 232 94 123 151 179 208 238
33 94 122 150 178 208 238 97 126 155 184 214 244
34 97 125 154 183 213 243 100 129 159 189 219 250
35 99 129 158 188 218 249 102 133 163 193 225 256
36 102 132 162 192 223 255 105 136 167 198 230 263
37 105 135 166 197 229 261 108 140 171 203 235 269
38 107 139 170 202 234 267 110 143 175 208 241 275
39 110 142 174 206 239 273 113 146 179 213 246 281
40 112 145 178 211 244 279 116 150 183 217 252 287
41 115 148 182 215 250 285 119 153 188 222 257 293
42 118 152 186 220 255 290 121 157 192 227 263 299
43 120 155 190 225 260 296 124 160 196 232 268 305
44 123 158 194 229 265 302 127 164 200 236 273 311
45 126 162 198 234 271 308 129 167 204 241 279 317
46 128 165 202 238 276 314 132 170 208 246 284 323
47 131 168 205 243 281 320 135 174 212 251 290 329
48 133 172 209 248 286 326 137 177 216 255 295 335
49 136 175 213 252 292 332 140 181 220 260 301 341

*  Para percentiles inferiores α = 0,005, 0,01, 0,025 y 0,05, uα = n1(n1 + n2 + 1) – u1–α.

250 Pastor-Barriuso R.
Tablas estadísticas

Tabla 9 Percentiles de la distribución bajo H0 de la suma de rangos positivos de


Tabla 9  Percentiles de la distribución bajo H0 de la suma de rangos positivos de Wilcoxon
m

W ==  ri para
Wilcoxon W para un número
númerode
deparejas
parejascon
condiferencias nono
diferencias nulas n ≤n16.*
nulas ≤ 16.*
i =1

Percentil
Percentil
n 0,95 0,975 0,99 0,995
n 5 0,95 14 0,975 15 0,99 15 0,995 15
6 18 20 21 21
5 7 14 24 15 25 15 27 15 28
6 18 20 21 21
8 30 32 34 35
7 24 25 27 28
8 9 30 36 32 39 34 41 35 43
9 10 36 44 39 46 41 49 43 51
10 11 44 52 46 55 49 58 51 60
11 12 52 60 55 64 58 68 60 70
12 60 64 68 70
13 69 73 78 81
13 14 69 79 73 83 78 89 81 92
14 15 79 89 83 94 89 100 92 104
15 89 94 100 104
16 100 106 112 116
16 100 106 112 116
*  Para percentiles inferiores α = 0,005, 0,01, 0,025 y 0,05, wα = n(n + 1)/2 – w1–α.
* Para percentiles inferiores α = 0,005, 0,01, 0,025 y 0,05, wα = n(n + 1)/2 - w1-α.

Tabla 10  Percentiles de la distribución bajo H0 del coeficiente de correlación rs de


Spearman en muestras de tamaño n ≤ 10.*
Percentil
n 0,95 0,975 0,99 0,995
4 0,800 1,000 1,000 1,000
5 0,800 0,900 0,900 1,000
6 0,771 0,829 0,886 0,943
7 0,679 0,750 0,857 0,893
8 0,619 0,714 0,810 0,857
9 0,583 0,683 0,767 0,817
10 0,552 0,636 0,733 0,782
*  Para percentiles inferiores α = 0,005, 0,01, 0,025 y 0,05, rs,α = – rs,1–α.

19
Pastor-Barriuso R. 251

También podría gustarte